架空の旅行代理店が舞台のストーリー形式で、
1 前処理とは何か
1.1 データサイエンティストは「データ前処理スト」
1.2 データサイエンスの実行プロセス
1.3 データサイエンスのPPDACサイクル
2 前処理に向けたデータ理解
2.1 データとは何か
2.2 構造化データと非構造化データ
2.3 構造化データのデータ例と前処理
2.4 非構造化データのデータ例と前処理
2.5 ファイル形式と文字コードの確認
2.5.1 ファイル形式
2.5.2 文字コード
2.5.3 圧縮形式
2.6 データの取り込みと文字コードの指定
2.7 データ型の確認
3 データクレンジングとしての前処理
3.1 行数の確認
3.2 列数の確認
3.3 行数・列数を一度に確認する方法
3.4 列ごとの入力内容確認
3.5 欠損確認
3.6 欠損値の対処法
3.6.1 レコード(行)ごと除く
3.6.2 欠損の多い変数(列)を除く
3.6.3 補完する
3.7 外れ値と異常値
3.7.1 外れ値の確認方法
3.7.2 外れ値の定義
3.7.3 二変量でなければ見つけられない外れ値もある
4 データの基本事項確認としての前処理
4.1 基本統計量
4.1.1 基本統計量とは
4.1.2 基本統計量の算出
4.1.3 ヒストグラムの描画
4.2 外れ値の検出方法
4.2.1 σを用いた外れ値の検出
4.2.2 箱ひげ図を用いた外れ値の検出
4.3 集計
5 データのソート・抽出
5.1 ソート
5.2 列単位の抽出
5.2.1 1列を指定した抽出
5.2.2 離れた箇所にある複数列を指定した抽出
5.2.3 連続した複数列を指定した抽出
5.3 行単位の抽出
5.3.1 1行を指定した抽出
5.3.2 離れた箇所にある複数行を指定した抽出
5.3.3 連続した複数行を指定した抽出
5.3.4 条件を指定した行の抽出
5.4 正規表現
5.5 サンプリング
5.5.1 ランダムサンプリング
5.5.2 系統抽出法(システマティック・サンプリング)
5.5.3 クラスター抽出法(クラスターサンプリング)
5.5.4 多段階サンプリング
5.6 転置
6 データの集計
6.1 集計とは何か
6.2 集計を行う目的
6.3 集計の軸出し
6.3.1 軸出しとは何か
6.3.2 軸出しの例
6.4 クロス集計
6.5 RFM分析とは
6.5.1 Recencyの集計
6.5.2 Frequencyの集計
6.5.3 Monetaryの集計
7 データ結合
7.1 データ結合とは何か
7.2 基本的な結合方法
7.3 Pythonでのデータの結合
7.4 欠損値の補完のための結合
8 データ変換
8.1 カテゴリ変換
8.2 カテゴリ変数の数値化(エンコーディング)
8.2.1 ワンホットエンコーディング
8.2.2 ダミー変数化
8.3 日時型のデータの変換
8.3.1 日時型のデータとは何か
8.3.2 日時型から日付型への変換
8.3.3 日時型から時間帯のみへの変換
8.3.4 休日・祝日フラグの作成
9 モデリングのためのデータ変換
9.1 不均衡データとは何か
9.2 不均衡データへの対処方法
9.3 クラスの重み付け
9.3.1 クラス分布の確認
9.3.2 クラスの重み付け処理
9.4 合成データによるデータ拡充
9.4.1 CTGAN(Synthesizer)
9.4.2 Gaussian Copula
9.5 スパースなデータへの対処法
9.5.1 スパースなデータとは何か
9.5.2 スパースなデータへの典型的な対処法
9.5.3 スパースモデリング
10 非構造化データの前処理――テキストデータ
10.1 テキストデータ処理の概要
10.1.1 テキストデータとは何か
10.1.2 構文解析
10.1.3 意味解析
10.1.4 文脈解析
10.2 テキストデータの典型的な前処理
10.3 形態素解析・品詞分解
10.3.1 基本の品詞分解
10.3.2 テキストデータのノイズ除去
10.3.3 キーワードのカウントとフラグ化
10.3.4 文書ファイルの読み込みとキーワードのカウント
10.4 TF-IDFを用いた処理
11 非構造化データの前処理――位置情報
11.1 非構造化データとは何か
11.2 地理情報・位置情報の解析
11.3 位置情報のデータフォーマット
11.4 位置情報の前処理
11.4.1 度分秒(DMS)から十進法(DD)への変換
11.4.2 十進法(DD)からUTMへの変換
11.4.3 十進法から住所への変換および住所から十進法への変換
11.4.4 KMLの扱いとGeoJSONへの変換
11.5 GeoJSONと地理的可視化
11.6 地理情報の活用
11.6.1 距離計算とは何か
11.6.2 方角計算とは何か
11.6.3 Google Maps APIを使用した所要時間やルートの探索
11.6.4 距離とは何か
11.6.5 距離計算をするサンプルコード
11.7 音声データ
11.7.1 音声データの前処理
11.7.2 Pythonにおける音声処理の準備
11.7.3 文字起こし
11.8 画像データ
11.8.1 画像データの前処理
11.8.2 Pythonにおける画像処理の準備
11.8.3 画像の表示
11.8.4 色空間の変換(グレースケール化)
11.8.5 画像の切り抜き
11.8.6 画像の反転
11.8.7 ぼかし(平滑化)
12 クラウド技術の活用と機械学習の実行
12.1 クラウド技術(または環境)を使ったデータ分析基盤
12.2 代表的なクラウドサービス
12.3 クラウド上のストレージに接続してデータを処理する方法(Python)
12.3.1 Amazon S3に接続する例
12.3.2 Google Driveに接続する例
12.4 SQLを用いたデータ処理
12.4.1 SQLとは何か
12.4.2 SQLの基本関数の紹介
12.4.3 SQLを用いてAmazon S3からデータを抽出する例
12.5 機械学習の実行
12.5.1 機械学習の活用の広がり
12.5.2 教師あり機械学習の実行
12.5.3 教師なし機械学習の実行
12.6 生成AIを用いた前処理の効率化