本文へスキップ
統計ロードマップ
Textbook

データサイエンティスト検定 教科書

データサイエンティスト検定(リテラシーレベル、通称 DS 検定)は、データサイエンティスト協会が主催する、**データサイエンティストに必要な実務知識を全方位** で問う試験です。「データサイエンス力」「データエンジニアリング力」「ビジネス力」の 3 軸を、リテラシーレベル(=実務に入れるレベル)で押さえます。本教科書は **10 章構成**で、3 軸の概要・機械学習の主要手法(回帰/分類/クラスタリング/推薦)・倫理とプライバシー・ビジネス課題定式化・データ可視化と BI・MLOps・プロジェクト管理・実務ケーススタディまで扱います。

目次

  1. 1 章 · データサイエンティストの 3 つのスキル
    DS 検定の出題範囲を支える「データサイエンス力 / データエンジニアリング力 / ビジネス力」の 3 軸を、それぞれ実務文脈とともに整理します。
  2. 2 章 · データエンジニアリング力とビジネス力
    SQL・データ加工・クラウド基礎(エンジニアリング力)、課題定義・KPI・ステークホルダー対応(ビジネス力)。
  3. 3 章 · 機械学習の概念
    DS リテラシーで問われる、機械学習の基本概念・主要アルゴリズム・評価指標を整理。
  4. 4 章 · 機械学習の主要手法
    回帰・分類・クラスタリング・推薦・次元削減 ─ 実務でよく使う ML アルゴリズムの考え方と使い分けを、リテラシーレベルで整理します。
  5. 5 章 · 倫理・プライバシー・AI ガバナンス
    データ職の社会的責任。個人情報保護法・GDPR・AI 倫理・公平性指標・透明性 ─ 知らないと事業を止めるリスクのある領域を整理します。
  6. 6 章 · ビジネス課題の定式化
    技術より大事な『何を解くか』。ビジネス問題をデータ分析タスクに翻訳する力を 3 節で。
  7. 7 章 · データ可視化と BI ツール
    可視化の原則と現代の BI ツール(Tableau・Power BI・Looker)の比較を 3 節で。
  8. 8 章 · MLOps と本番運用
    学習したモデルを本番で動かす技術。CI/CD・モニタリング・再学習サイクルを 3 節で。
  9. 9 章 · プロジェクト管理と組織体制
    DS / AI プロジェクトのマネジメント。アジャイル・チーム編成・データガバナンスを 3 節で。
  10. 10 章 · 実務ケーススタディと総まとめ
    実際のビジネスドメインでの DS 適用事例と、DS 検定リテラシー総まとめを 3 節で。
Chapter 1

1 章 · データサイエンティストの 3 つのスキル


§1.1

3 つのスキルとデータサイエンティストの役割

データサイエンティスト は単なる「分析する人」ではありません。データから事業価値を生み出すには、3 つの異なるスキルが必要です。本節では DS 協会が定義する 3 軸スキルセット を整理します。

3 つのスキルセット

用語 ─ DS 協会の 3 軸

データサイエンス力: 統計学・数学・機械学習など、データから情報を引き出す力。

データエンジニアリング力: SQL・データベース・ETL・クラウドなど、データを扱える形にする力。

ビジネス力: 課題設定・コミュニケーション・プロジェクト推進など、データを事業価値に変える力。

リテラシーレベルでは「実務に入って活躍できる最低限の基礎」が問われます。各軸で「この概念は知っている」「この用語の意味は説明できる」のレベルが目標。

なぜ 3 軸なのか

実務で価値を生むには、3 つすべてが揃っている必要があります。

  • データサイエンス力だけ → 「分析できるが、データが取れない」「ビジネスインパクトを説明できない」状態に
  • データエンジニアリング力だけ → 「データは流せるが、何を分析すべきか分からない」状態に
  • ビジネス力だけ → 「課題は分かるが、自分で分析できない・データを準備できない」状態に

現実には、1 人がすべての軸で「達人」である必要はありません。チームとして 3 軸を補完し合うのが標準。ただし「最低限のリテラシー」 として 3 軸の用語と概念を押さえているのが、DS 検定リテラシーレベルが目指す姿です。

DS 協会が公開する「スキルチェックリスト」

DS 協会は「データサイエンティストのスキル定義」を毎年公開しており、約 600 項目のチェックリストとして整理されています。リテラシーレベルでは、その中の ★1(初学者向け) の項目が出題範囲。実務で言うと、各軸で「用語と基本概念を説明できる」レベル。

§1.2

データサイエンス力の基礎

DS 検定の「データサイエンス力」は 統計学機械学習 の両方を含みます。本節では、それぞれの基礎をリテラシーレベルで整理します。

統計学の基礎(DS 検定の出題範囲)

  • 代表値: 平均・中央値・最頻値の使い分け
  • ばらつき: 分散・標準偏差・四分位範囲
  • 確率分布: 正規分布・二項分布・ポアソン分布の概形
  • 仮説検定: 帰無仮説・対立仮説・p 値・有意水準・第 1 種/第 2 種の誤り
  • 推定: 信頼区間の意味と読み方
  • 回帰分析: 単回帰・重回帰の概念、決定係数
  • 相関と因果: 「相関 ≠ 因果」の原則

これらは本サイトの[統計検定 2 級教科書](/textbook/grade-2)とほぼ同じ内容。「式の導出」までは要らないが、「式の意味と使い場面」は説明できるレベルが必要。

機械学習の基礎(DS 検定の出題範囲)

  • 教師あり / 教師なし / 強化学習 の違い
  • 回帰タスク vs 分類タスク の違い
  • 主要アルゴリズム: 線形回帰・ロジスティック回帰・決定木・ランダムフォレスト・SVM・k-means
  • 評価指標: 回帰なら MAE・RMSE、分類なら正解率・適合率・再現率・F 値・AUC
  • 過学習(overfitting) とその対処: 正則化・交差検証
  • 特徴量エンジニアリング: ワンホットエンコーディング・標準化など
00.510.51偽陽性率 FPR真陽性率 TPR強い分類器(AUC≈0.92)普通(AUC≈0.75)ランダム(AUC=0.5)
図: ROC 曲線。曲線下面積(AUC)が大きいほど良い分類器。0.5 はランダム
単純複雑モデル複雑度誤差最適点バイアス²バリアンス合計誤差
図: バイアスとバリアンスのトレードオフ。最適な複雑度で総合誤差が最小になる
なぜ過学習は起きるのか

モデルを複雑にすればするほど訓練データには合いますが、訓練データに含まれる偶然のノイズまで覚えてしまいます。例えるなら『過去問だけ丸暗記して、本番の応用問題で崩れる学生』。バイアス・バリアンス図の右側で『総合誤差』が再上昇しているのが、この現象の正体です。正則化や交差検証は、この最適点に近づくための実用ツールです。

0学習量(エポック / 複雑度)誤差早期終了の理想点過学習の領域 →訓練誤差検証誤差
図: 訓練誤差と検証誤差の典型的な学習曲線。検証誤差が再上昇する手前で止めるのが「早期終了」
実務での使い方:早期終了とハイパーパラメータ調整

Keras / PyTorch などの DL ライブラリには、検証誤差が改善しなくなったら自動で学習を止める「Early Stopping」コールバックが標準で備わっています。実務では「学習エポックを多めに設定して Early Stopping に任せる」のが定石。同じ図はモデル複雑度を横軸にしても成り立つので、決定木の深さ・SVM のカーネル幅などのハイパーパラメータ調整にも応用されます。

Python で交差検証 + ROC AUC を計算する
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.metrics import roc_auc_score, roc_curve

model = LogisticRegression(max_iter=1000)

# 5-fold 交差検証で平均精度
scores = cross_val_score(model, X, y, cv=5, scoring="roc_auc")
print(f"AUC = {scores.mean():.3f} ± {scores.std():.3f}")

# ROC 曲線を描画
model.fit(X_train, y_train)
proba = model.predict_proba(X_test)[:, 1]
fpr, tpr, _ = roc_curve(y_test, proba)
print(f"AUC(test) = {roc_auc_score(y_test, proba):.3f}")

scikit-learn は分類モデルの評価関数が一通り揃っており、実務でデファクト。

ビジュアライゼーション

「データを見せる力」も DS 検定では問われます。グラフ選択の基本ルール:

  • 棒グラフ: カテゴリの大きさ比較
  • 折れ線グラフ: 時間変化
  • 散布図: 2 変数の関係
  • ヒストグラム: 1 変数の分布形
  • 箱ひげ図: 群間のばらつき比較
  • ヒートマップ: 2 次元のクロス集計

DS 検定対策のおすすめルート

「データサイエンス力」セクションの基礎は、本サイトの 統計検定 3 級・2 級 の内容と大きく重なります。

  • [3 級教科書](/textbook/grade-3) で 代表値・確率分布・基礎を固める
  • [2 級教科書](/textbook/grade-2) で 推定・検定・回帰までカバー
  • 本検定固有の機械学習アルゴリズムは G 検定や別教材で補強
Chapter 2

2 章 · データエンジニアリング力とビジネス力


§2.1

データエンジニアリング力の基礎

データエンジニアリング力(DE 力) とは、データを「分析できる形」に整える力。元データはバラバラの場所にある・形式が違う・量が膨大 ─ これらを使える状態にする工程は、データサイエンスの 見えにくいが時間の 8 割を占める部分 とも言われます。

SQL の基本

SQL は RDB(リレーショナルデータベース)からデータを取り出す共通言語。SELECT / FROM / WHERE / GROUP BY / JOIN の 5 構文だけで、実務の 8 割は対応できます。

基本構文 ─ 取り出し

```sql SELECT 列名1, 列名2, ... FROM テーブル名 WHERE 条件 ORDER BY 列名 DESC|ASC ```

例: 「`users` から年齢 20 以上の人を年齢順に」

```sql SELECT * FROM users WHERE age >= 20 ORDER BY age DESC; ```

基本構文 ─ 集計

```sql SELECT 列, COUNT(*), AVG(数値列), SUM(数値列) FROM テーブル GROUP BY 列 ```

例: 「`orders` テーブルで顧客ごとの注文数と平均注文額」

```sql SELECT customer_id, COUNT(*) AS n_orders, AVG(amount) AS avg_amount FROM orders GROUP BY customer_id; ```

基本構文 ─ 結合(JOIN)

```sql SELECT u.name, o.amount FROM users u INNER JOIN orders o ON u.id = o.user_id ```

INNER JOIN: 両方のテーブルに存在する行のみ LEFT JOIN: 左のテーブル全行 + 右のマッチする行(マッチしない場合は NULL) RIGHT / FULL JOIN: 同様の発想

データ基盤の構成要素

用語 ─ データ基盤の主な構成

データソース: 元データのある場所(業務システム・ログ・外部API)

ETL (Extract / Transform / Load): 元データを抽出 → 変換 → 保管先に投入する工程

データウェアハウス(DWH): 分析用に整理された構造化データの集約。BigQuery、Snowflake、Redshift など

データレイク: 構造化・非構造化問わず生データを大量保存。S3、Azure Data Lake など

BI ツール: ダッシュボード化・可視化。Tableau、Power BI、Looker、Metabase など

DWH vs データレイク ─ 違いの整理

比較

| | DWH | データレイク | |---|---|---| | データ形式 | 構造化(SQL で扱える) | 構造化・非構造化(画像・音声・JSON など) | | スキーマ | 事前定義(Schema-on-Write) | 後で定義(Schema-on-Read) | | 典型用途 | BI レポート・ダッシュボード | 機械学習・データサイエンス | | 代表サービス | BigQuery、Snowflake | S3、Azure Data Lake |

実務では 両者を併用 することが多い。生データは安価なデータレイクに保管しつつ、よく使う集計結果は DWH に整理する、というハイブリッド構成。

クラウド主要 3 社

  • AWS(Amazon): S3 / Redshift / EC2 / SageMaker
  • GCP(Google): Cloud Storage / BigQuery / Vertex AI
  • Azure(Microsoft): Blob Storage / Synapse / ML Studio

DS 検定では「どのクラウドサービスがどの役割か」(例: BigQuery は DWH、S3 はオブジェクトストレージ)を 大まかに理解 していることが問われます。

データ品質の観点

  • 完全性: 必要なデータが欠損なく揃っているか
  • 正確性: 値が正しいか(誤入力・重複なし)
  • 一貫性: 表記揺れがないか(「東京都」「東京」が混在しないか)
  • 時系列の整合性: 過去のデータと連続性があるか
  • 鮮度: いつのデータか、最新か

Garbage In, Garbage Out(GIGO)」 ─ データの質が悪ければ、どんなに優れた分析手法を使っても得られる結論は信頼できません。データ品質はデータエンジニアリング力の核心です。

§2.2

ビジネス力の基礎

統計や ML を知っているだけでは、データ職として活躍できない」 ─ DS 検定が ビジネス力 を独立した軸として置く理由がここにあります。本節では、課題設定からプロジェクト推進、コミュニケーションまでの基本を整理します。

課題設定 ─ 「何のための分析か」を明確に

データ分析プロジェクトの 最も重要な工程は最初の課題設定。ここを誤ると、どんなに精緻な分析をしても価値が生まれません。

  1. ビジネス課題を明確化: 「売上を上げたい」のような漠然とした要望を、「離脱率を下げたい」のような具体的な問いに変換
  2. 意思決定との連結: 「分析結果が出たら、誰がどう動くか」を最初に確認
  3. KPI(Key Performance Indicator)定義: 成果を測る数値指標を 1〜3 個に絞る
  4. スコープと制約: いつまでに / どんなデータが使えるか / どこまでの精度を目指すか

KPI 設計のコツ

良い KPI の条件 ─ SMART 原則

S(Specific): 具体的 M(Measurable): 測定可能 A(Achievable): 達成可能 R(Relevant): ビジネスに関連 T(Time-bound): 期限が明確

例: × 「サイトを良くする」 → ○ 「3 か月以内に主要 LP の直帰率を 50% から 40% に下げる」

CRISP-DM ─ データ分析プロジェクトの定番モデル

プロセス ─ CRISP-DM の 6 ステップ

1. ビジネス理解: 課題と目的を整理

2. データ理解: 利用可能なデータを把握、品質確認

3. データ準備: 前処理、特徴量エンジニアリング(プロジェクト時間の 60-80% を占める)

4. モデリング: 機械学習モデル等の構築

5. 評価: ビジネス目的に対する成果を確認

6. 展開: 本番環境への投入、運用・モニタリング

CRISP-DM は順番通りに進むとは限らず、前のステップに戻ることが頻繁にある反復プロセス。「モデリングしてみたら、データ理解の段階に戻る必要があった」 ─ これは失敗ではなく正常な進行です。

ステークホルダーとのコミュニケーション

  • 用語を聞き手に合わせる: 経営層には「離脱率」「ROI」、エンジニアには「特徴量」「F1 スコア」
  • 結論ファースト: 結果 → 根拠 → 詳細の順。プレゼン時間が短くても要点が伝わる
  • 不確実性を素直に伝える: 「精度 80%、ただし 〇〇 の制約あり」
  • Next Action を提示: 「だから何をすべきか」を含める。ただの分析報告で終わらせない
  • 可視化で理解を促進: 数字だけでなく、グラフで直感的に

データ倫理とコンプライアンス

  • 個人情報保護法: 個人情報の取り扱いに関する日本の基本法。匿名化・仮名化の概念
  • GDPR(EU): 欧州市民のデータを扱う場合に適用。違反は売上の最大 4% の罰金
  • 社内ガバナンス: データ利用ポリシー・アクセス権限の管理
  • バイアスへの注意: 学習データの偏りが意思決定に与える影響を意識

実務でよくある失敗パターン

  • 「分析のための分析」: ビジネス価値につながらない技術自慢
  • 過剰な精度追求: 99% 精度を目指すより、80% でも実用に投入したほうが価値が出ることが多い
  • ステークホルダー巻き込み不足: 自分だけで進めて、最終報告で「これが欲しかったわけじゃない」となる
  • 運用設計の軽視: モデルを作って終わり、本番で性能劣化に気づかない(モニタリング不足)

DS 検定の「ビジネス力」セクションは、正解が 1 つではない問題が多い のが特徴。原則を理解しておけば、「最も適切な対応」 を選ぶ問題で迷わなくなります。

Chapter 3

3 章 · 機械学習の概念


§3.1

教師あり学習・教師なし学習・強化学習

機械学習は データの与え方 で 3 つに分類されます。DS 検定では各タイプの 典型例と使い所 が頻出。

教師あり学習(Supervised Learning)

正解ラベルがある問題

入力 X と正解 y のペア で学習。

回帰: 数値を予測(売上・気温・株価)。線形回帰・ランダムフォレスト回帰・GBDT 回帰

分類: カテゴリを予測(スパム / 正常、優良 / 通常)。ロジスティック回帰・SVM・ランダムフォレスト・XGBoost

教師なし学習(Unsupervised Learning)

ラベルなしでパターンを見つける

クラスタリング: 似た顧客をグループ分け(K-Means・階層クラスタリング・DBSCAN)

次元削減: 高次元データを低次元に圧縮(PCA・t-SNE・UMAP)

異常検知: 通常パターンから外れたデータを検出(Isolation Forest・One-Class SVM)

k=3 クラスタ✕ = 重心(centroid)
図: K-Means: 各クラスタとそれぞれの重心

強化学習(Reinforcement Learning)

行動の報酬を最大化

エージェント環境 で行動し、報酬 を得て方策を改善。教師ラベルではなく『試行錯誤の結果』で学ぶ。

応用: ゲーム AI(AlphaGo)、推薦、自動運転、ロボット制御。最近は LLM 学習(RLHF)でも活躍。

💡 教師あり vs 教師なし vs 強化

教師あり=『過去の答えがある』、教師なし=『分類ラベルがない』、強化学習=『行動した結果でしか答えが分からない』。実務の 80% は教師あり、データ探索段階で教師なし、ゲーム / 推薦で強化学習。

§3.2

モデルの評価指標

「精度」だけを見るとビジネスで失敗します。問題の性質に応じた評価指標 を選ぶのが DS の腕の見せ所。

回帰の評価指標

  • MAE(平均絶対誤差): 外れ値に頑健・解釈しやすい
  • MSE / RMSE: 大きな誤差を強調・最適化しやすい
  • R²(決定係数): 説明力(0〜1、大きいほど良い)
  • MAPE: パーセント誤差・売上予測などビジネス向き

分類の評価指標

混同行列(Confusion Matrix)

予測クラスと実クラスの 2×2 表: - TP: 真陽性(正しく Positive と予測) - FP: 偽陽性(誤って Positive と予測) - TN: 真陰性 - FN: 偽陰性

  • Accuracy(正解率): (TP+TN) / 全体。クラス不均衡では誤解を招く
  • Precision(適合率): TP / (TP+FP)。誤検出を減らしたい とき(スパム検出)
  • Recall(再現率): TP / (TP+FN)。見逃しを減らしたい とき(癌検診)
  • F1 スコア: Precision と Recall の調和平均。バランス重視
  • ROC-AUC: 閾値に依らない総合性能。0.5=ランダム、1.0=完璧
00.510.51偽陽性率 FPR真陽性率 TPR強い分類器(AUC≈0.92)普通(AUC≈0.75)ランダム(AUC=0.5)
図: ROC 曲線。AUC が大きいほど良い分類器
💡 Precision / Recall のトレードオフ

Precision を上げると Recall が下がる(逆も同じ)。どちらが業務的に重要か で閾値を選ぶ。スパム検出は Precision 重視(普通のメールを誤判定すると困る)、癌検診は Recall 重視(見落としは命に関わる)。

クラス不均衡への対処

  • アンダーサンプリング / オーバーサンプリング(SMOTE): 学習データ自体を調整
  • class_weight: 損失関数で少数クラスを重く扱う
  • 評価指標: 正解率ではなく F1・AUC を使う
🛠 DS 検定での頻出パターン

「混同行列を見て Precision / Recall / F1 を計算する」「ビジネス文脈に応じてどの指標を重視すべきか判断する」が定番。式を覚えるだけでなく、文脈に応じた使い分け が問われる。

§3.3

過学習と交差検証

ML プロジェクトの最大の落とし穴が 過学習(overfitting)。学習データには高精度なのに、未知データで性能が出ない現象。

過学習が起きるサイン

  • 訓練データの精度 = 99%、テストデータの精度 = 70% → 大幅な乖離
  • 学習曲線で訓練誤差は下がり続けるが検証誤差は上昇 → U 字
  • モデルを単純化すると性能が向上
0学習量(エポック / 複雑度)誤差早期終了の理想点過学習の領域 →訓練誤差検証誤差
図: 学習曲線: 検証誤差の最小点で早期終了

対処法

  • 正則化(Regularization): L1(Lasso)・L2(Ridge)・Dropout
  • 早期終了(Early Stopping): 検証誤差が悪化したら学習停止
  • モデル単純化: 木の深さ・パラメータ数を減らす
  • データ増強: 学習データを水増し
  • アンサンブル: 複数モデルの平均を取る(バギング・ブースティング)

交差検証(Cross-Validation)

K-fold CV

データを K 分割 し、K-1 個で学習・1 個で検証 → これを K 回繰り返して平均。

メリット: 全データを学習・検証に使える。汎化性能の信頼できる推定。

標準値: K=5 または K=10。少ないと過小推定、多いと計算コスト増。

ホールドアウト法 vs CV

ホールドアウト法(訓練 80%・テスト 20% に 1 回分割)は速いが偶然性に左右される。CV は遅いが信頼性が高い。実務では 小データ → CV、大データ → ホールドアウト で使い分け。

単純複雑モデル複雑度誤差最適点バイアス²バリアンス合計誤差
図: バイアス・バリアンスのトレードオフ
🛠 「リーク」に注意

データリーク: テストデータの情報が学習に混入し、過大評価される現象。例: 標準化を全データで fit してから分割(誤)。正しくは訓練データだけで fit。Pipeline を使うと自動で正しく扱える

Chapter 4

4 章 · 機械学習の主要手法


§4.1

回帰モデル ─ 線形・正則化・木系

回帰(regression) は数値の予測。住宅価格・売上・需要・株価など、実務で最も頻出のタスクです。アルゴリズムの選択肢を整理します。

線形回帰と正則化

用語 ─ 線形回帰・Ridge・Lasso・ElasticNet

線形回帰: を最小二乗で解く基本形。

Ridge(L2 正則化): 損失 。係数を 小さく 抑えて多重共線性に強い。すべての変数を残す。

Lasso(L1 正則化): 。係数を ゼロにする 効果(特徴選択)。スパースなモデルを作る。

ElasticNet: L1 + L2 のハイブリッド。多重共線性下での Lasso の不安定さを補う。

Lasso が変数を捨てる理由

L1 ペナルティ ゼロで角を持つ(微分不可能)ため、最適解が 原点付近に張り付く 確率が高い。一方 L2 ペナルティ 滑らか なので、解は完全にゼロにはなりにくい。これが Lasso が 特徴選択 として使える数学的な理由。実務で『どの変数が効いているか』を知りたいときは Lasso が出発点。

決定木と勾配ブースティング

用語 ─ 決定木・ランダムフォレスト・GBM・XGBoost

決定木(Decision Tree): 特徴量を順に分割していく木構造。解釈性が高いが過学習しやすい。

ランダムフォレスト(Random Forest): 多数の木を学習データのブートストラップ + 特徴量サンプリングで作り、平均/多数決。バギング系の代表。頑健で実務の最初の選択肢

Gradient Boosting Machine (GBM): 木を順次に学習し、前段の残差を次の木が予測。XGBoost / LightGBM / CatBoost が現代の表形式データ予測のデファクト。

なぜ表形式データでは GBM が強いか

表形式(行 = サンプル、列 = 特徴)のデータは 特徴間に複雑な交互作用 がある一方、ニューラルネットほどの大量サンプルがないことが多い。GBM は各分割で 特徴の交互作用を明示的に学習 し、少ないサンプルでも頑健に動く。Kaggle・実務とも、表データではほぼ GBM 系が勝つ ─ ただし最近は表形式深層学習(TabNet 等)も対抗してきています。

§4.2

分類モデル ─ ロジスティック回帰から SVM・木系まで

分類(classification) は離散ラベルの予測。スパム検知・与信・医療診断・チャーン予測など、実務の意思決定を直接駆動するタスク。

ロジスティック回帰

公式 ─ ロジスティック回帰

確率を出力する 線形分類器:

対数尤度を最大化(=交差エントロピー損失を最小化)で学習。確率出力係数の解釈性速さ が魅力で、実務のベースラインに最頻出。

サポートベクターマシン(SVM)

用語 ─ SVM とカーネルトリック

SVM: クラスを分ける超平面を、マージン(境界からの最近距離)を最大化 するように選ぶ。マージン最大化により汎化性能が上がる。

カーネルトリック: 元の空間で線形分離できないデータを、高次元空間に写像してから分離。 を直接計算することで、写像 を陽に計算せず済む。RBF カーネル が万能の出発点。

ナイーブベイズと k 近傍法

  • ナイーブベイズ(Naive Bayes): 。特徴の 条件付き独立 を仮定。テキスト分類(スパム判定)で頻用、超高速・少データに強い
  • k 近傍法(k-NN): 訓練データを保存しておき、新しい点に 近い k 個 の多数決で分類。学習時間ゼロだが、推論時に距離計算で重い

不均衡データへの対処

99% 精度のスパム判定が役に立たない理由

スパム率が 1% のメールで『すべて非スパム』と返すモデルは正解率 99%。でも スパムを 1 件も検出していない精度(Accuracy)だけ見ると不均衡データでは欺かれる。だから Precision・Recall・F1・PR-AUC を見る、少数派をオーバーサンプリング(SMOTE) する、コスト感度学習 で誤りに重みを付ける ─ これが不均衡データ対処の三本柱。

  • Random Oversampling / SMOTE: 少数派を増やす
  • Random Undersampling: 多数派を減らす
  • Class Weight: 損失関数で少数派に重み付け
  • Threshold Tuning: 確率の閾値を 0.5 から動かす(高 Recall を狙うなら下げる)
  • 評価指標を AUC・F1・PR-AUC に: Accuracy では判断できない
§4.3

クラスタリングと次元削減

教師なし学習 の中核 ─ クラスタリング(似たものを群分け)と次元削減(高次元を低次元で表現)を整理します。

k-means クラスタリング

公式 ─ k-means の目的関数

クラスタ数 を事前に決め、各点を最寄りの 重心(centroid) に割り当て、重心を更新を反復:

初期化に依存(局所最適に落ちる)ため k-means++ が標準。 の決定は エルボー法(分散説明率の屈曲点)・シルエットスコア を併用。

階層クラスタリングと DBSCAN

  • 階層クラスタリング: ボトムアップ(凝集型)で、最も近いクラスタペアを順次結合。デンドログラム で結果を可視化。 を後で決められるが、計算量が で大規模データに不向き
  • DBSCAN: 密度ベース。 を事前指定しない・任意形状のクラスタを見つけられる・外れ値を自動検出。`eps`(近傍半径)・`min_samples` がハイパラ
  • Gaussian Mixture Model (GMM): 混合正規分布で確率的にクラスタ所属を推定。EM アルゴリズムで学習。ソフトクラスタリング(所属確率を出力)

次元削減 ─ PCA・t-SNE・UMAP

用語 ─ 主要な次元削減手法

PCA(主成分分析): データの分散を最大化する直交軸を見つけ、上位 軸に射影。線形・大域構造 を保つ。教師なし学習の出発点。

t-SNE: 高次元の局所近傍を低次元で保つ非線形手法。可視化 に強い。大域構造は壊れがち。

UMAP: t-SNE より大域構造の保持が良く、高速。現代の可視化のデファクト。

→ Ch3.2 の評価指標、math Ch7 の SVD と直結。

次元削減の使い分け

特徴量削減(モデル投入前) には PCA が標準(線形で速く、解釈可能)。可視化(2D 散布図) には t-SNE / UMAP が圧倒的。Word Embedding(高次元 → 2D 投影) で意味的にまとまった単語が近くに集まる図 ─ あれは t-SNE / UMAP の代表的な使い方です。

§4.4

推薦システムとモデル選択

推薦システム(recommender system) は EC・動画配信・SNS で必須。ユーザー × アイテムの巨大な疎行列から好みを予測する課題です。

推薦システムの 3 タイプ

用語 ─ 協調フィルタリング・コンテンツベース・ハイブリッド

協調フィルタリング(Collaborative Filtering): 『似たユーザーが好きなものを薦める』『似たアイテムを好きな人が好きなものを薦める』。ユーザー × アイテム行列の 行列分解(SVD・ALS) が中核

コンテンツベース: アイテム属性(ジャンル・出演者・価格)とユーザーの嗜好プロファイルのマッチング。コールドスタート(新規ユーザー / アイテム) に強い

ハイブリッド: 両者を組合せ。Netflix Prize の優勝モデルもハイブリッド系

行列分解と Netflix Prize

Netflix Prize(2006-09) は推薦精度を 10% 改善する競技で、$1M を賞金にユーザー × 映画の評価行列の予測を競いました。優勝の 行列分解 + アンサンブル が現代推薦システムの基礎を作った重要な歴史的事象。math Ch7 の SVD・低ランク近似 が直接の数学的基盤です。

推薦の評価指標

  • Precision@K / Recall@K: 上位 K 件のうち的中率 / カバー率
  • MAP@K: 平均適合率(順位を考慮)
  • NDCG: Normalized Discounted Cumulative Gain。位置に応じて重み付け
  • Diversity / Coverage / Serendipity: 単純な精度の他、多様性・新規性も評価

モデル選択のフロー

実務でのモデル選択は『シンプルから』

ベースライン → ロジスティック回帰 / 線形回帰 → 正則化付き → 木系 → アンサンブル → ニューラルネット。複雑なモデルが必ず勝つわけではなく、シンプルなモデルがベースラインを大きく上回らないなら、その問題はあなたの特徴量に問題がある可能性が高い。Andrew Ng の有名な格言『Garbage In, Garbage Out』 ─ モデルより特徴量・データ品質に時間を使うのが実務の鉄則。

🛠 AutoML と MLOps

AutoML(Google AutoML・H2O・auto-sklearn)はモデル選択 + ハイパラ調整を自動化。実務では『最初の 1 週間』を AutoML で短縮し、その上でカスタマイズ。MLOps はモデルの本番運用(デプロイ・監視・再学習)を体系化。データドリフト・モデル劣化を検出し、自動で再学習する仕組みづくり。DS 検定リテラシー ではこれらの存在を知っていれば十分です。

ここまでで DS 検定リテラシーレベルの主要範囲をひととおり扱いました。続く 5 章では、データ職に強く求められる 倫理・プライバシー・AI ガバナンス の知識を、実務で必要なレベルで整理します。

Chapter 5

5 章 · 倫理・プライバシー・AI ガバナンス


§5.1

個人情報保護法と国際的な枠組み

データを扱う仕事である以上、個人情報の取り扱い は基礎中の基礎。日本の個人情報保護法、EU の GDPR、米国の CCPA など、地域ごとに枠組みが違いますが、共通する原則があります。

個人情報保護法(日本)の主要概念

用語 ─ 4 つの主要概念

個人情報: 生存する個人を特定できる情報(氏名・住所・顔写真・マイナンバーなど)

個人データ: 個人情報をデータベース化したもの

保有個人データ: 事業者が開示・訂正・利用停止に応じる権限を持つ個人データ

要配慮個人情報: 人種・信条・社会的身分・病歴・犯罪歴など。取得には本人同意が必須

GDPR(EU 一般データ保護規則)

  • 適用範囲: EU 域内の個人を対象にする処理(日本企業も対象になり得る)
  • 法的根拠の明示: 同意・契約・正当な利益などの 6 つから選択
  • 忘れられる権利(Right to be Forgotten): 削除請求への対応義務
  • データポータビリティ: 機械可読形式で他事業者へ移行できる権利
  • DPO(データ保護責任者) の選任義務
  • 違反時の制裁金: 最大 2,000 万ユーロ または 全世界売上 4% の高い方

匿名化と仮名化

用語 ─ 匿名化 vs 仮名化

匿名加工情報(日本)/ anonymization(GDPR): 個人を 特定できない ように加工。元に戻せないことが要件。本人同意なしで第三者提供可

仮名加工情報(日本)/ pseudonymization(GDPR): 別の符号で置換するが、対応表があれば復元可能。個人情報のままとして扱われる

-匿名化: 同じ準識別子(年齢・性別・住所など)を持つ個人が常に 人以上存在することを保証する技法

Netflix Prize の教訓

Netflix Prize(2006-09)は、ユーザー ID をマスクした映画評価データを公開しましたが、外部の IMDb データと突合して個人を特定する研究が発表され、再識別問題として有名に。マスキングだけでは匿名化にならない のが教訓。-匿名化、差分プライバシーなど現代手法は『他のデータと組合せても識別できない』ことを目指します。

§5.2

AI の公平性とバイアス

AI モデルが 特定の集団に不利な判断を下す 例が多数報告されています(採用 AI が女性を不利に・与信モデルがマイノリティに厳しい・顔認識が肌の色で精度差)。公平性(fairness) はリテラシーレベルでも知っておくべきトピックです。

バイアスの 3 つの源

用語 ─ バイアスの分類

1. データバイアス: 訓練データが現実を歪めて反映している。例: 過去の採用データ自体が男性偏重

2. アルゴリズムバイアス: 損失関数や正則化が特定属性に不利。例: 多数派誤分類のコストが大きく設定されている

3. デプロイメントバイアス: モデル性能が運用文脈で変わる。例: 米国白人で訓練したモデルを日本で使う

公平性指標の主要 3 種

  • Demographic Parity(人口統計学的均等性): 。属性 によらず予測陽性率が等しい
  • Equal Opportunity(機会均等): 。真陽性率(Recall)が属性で等しい
  • Equalized Odds(均等化オッズ): 真陽性率と偽陽性率の両方が属性で等しい
公平性指標は『同時に満たせない』

不可能性定理(Chouldechova / Kleinberg): 群間で陽性率が違う場合、上の 3 指標は 数学的に同時には満たせない。だから『どの公平性を満たすか』は 価値判断・社会的合意 が必要。COMPAS(米国の再犯予測システム)論争はまさにこの問題で、ProPublica が『黒人に不利』と批判したが、別の指標では公平 ─ という構造が露呈しました。

バイアス軽減の実務的アプローチ

  • 前処理: データのリサンプリング・属性の重み付け・代理変数の除去
  • 学習時: 公平性制約を損失関数に追加・敵対的学習
  • 後処理: 予測閾値を属性別に調整(controversial だが実用的)
  • 監視: 本番運用後の予測分布を属性別にダッシュボード化
  • 人間によるレビュー: 自動判定の前に人間の最終確認を挟む(human-in-the-loop)
🛠 主要なツール

IBM AI Fairness 360: 公平性指標とバイアス軽減アルゴリズムの統合ライブラリ。Microsoft Fairlearn: scikit-learn 互換の公平性ツール。Google What-If Tool: モデル予測の対話的な検査ツール。

§5.3

説明可能性(XAI)とモデル透明性

XAI(Explainable AI) は『なぜそう予測したか を人間に説明できる AI』。深層学習などのブラックボックスモデルでは、医療・与信・司法など 説明責任が法的に求められる 領域で必須となっています。

説明可能性の 2 つのレベル

用語 ─ Global vs Local 説明

Global 説明: モデル全体の振る舞いを説明。『この変数が全体的にどれだけ重要か』。例: ランダムフォレストの feature importance

Local 説明: 個別予測ごとに説明。『この患者にこの診断を出した理由は』。例: SHAP・LIME

主要な説明手法

  • Permutation Importance: 特徴量の値をランダムに入れ替え、性能低下から重要度を測る。Global、汎用
  • SHAP(SHapley Additive exPlanations): ゲーム理論のシャプレイ値で各特徴の貢献度を計算。Local + Global、現代の標準
  • LIME: 局所的に線形モデルで近似して説明。Local
  • 部分依存プロット(PDP): ある特徴量を動かしたときの予測平均の変化。Global
  • Counterfactual Explanation: 『何を変えれば予測が逆転するか』を提示。最も人間に直感的

事例 ─ 与信スコアでの説明責任

『なぜ融資を断られたか』

米国の ECOA(Equal Credit Opportunity Act) は、融資を断る場合に 理由の通知 を法的に義務付けています。深層学習モデルでも、SHAP で『収入の低さが −0.3、過去の延滞が −0.4 の影響』のように要因を分解して説明する必要があります。EU の AI Act(2024)はさらに進んだ透明性要求を定めており、ハイリスク AI システム は技術文書化・人間による監視・ロギングが必須化。

🛠 SHAP の Python 実装

`pip install shap` → `explainer = shap.TreeExplainer(model)` → `shap_values = explainer(X)` で各サンプル × 各特徴の貢献値が得られる。`shap.summary_plot(shap_values, X)` で全体像、`shap.force_plot(shap_values[i])` で個別予測の説明図。XGBoost / LightGBM / scikit-learn 全モデルに対応。

§5.4

AI ガバナンスと組織体制

AI が 組織レベルで安全・倫理的に運用 されるための仕組み = AI ガバナンス。技術だけでなく、組織体制・運用プロセスを整える必要があります。

主要な国際的フレームワーク

  • EU AI Act(2024 施行): 世界初の包括的 AI 規制。リスクレベル別(禁止 / ハイリスク / 限定リスク / 最小リスク)で要求事項を定める
  • OECD AI 原則(2019): 5 原則 ─ 包摂的成長・人間中心・透明性・頑健性・説明責任
  • NIST AI Risk Management Framework(米国): リスク管理の実務プロセス
  • ISO/IEC 42001: AI マネジメントシステムの国際標準(2023 発行)
  • G7 広島 AI プロセス(2023): 生成 AI ガバナンスの国際合意

日本のガイドライン

  • AI 戦略 2022(内閣府): 人材育成・産業競争力・倫理の三本柱
  • AI 事業者ガイドライン(経産省・総務省、2024): 開発者・提供者・利用者向けの統合指針
  • 個人情報保護委員会の生成 AI 注意喚起: ChatGPT 等への個人情報投入リスク
  • 金融庁 AI ガイダンス: 金融分野でのモデル管理

組織内の体制づくり

用語 ─ AI ガバナンスの 4 要素

1. 体制: AI 倫理委員会・データ保護責任者(DPO)・モデル管理者の役割分担

2. プロセス: モデル開発レビュー・デプロイ前のリスク評価・本番監視・インシデント対応

3. 文書化: モデルカード(Model Card)・データシート(Datasheet)・データプロビナンス

4. 教育: 全社員への AI 倫理研修・開発者向けの公平性ツール教育

Model Card と Datasheet

Model Card(Mitchell et al. 2019): 機械学習モデルの仕様書。学習データ・性能指標・想定用途・既知の制限・公平性評価を一枚にまとめる。Hugging Face Hub では各モデルにこのカードが付くのが標準化されています。Datasheet for Datasets(Gebru et al.): データセット版。データの収集経緯・前処理・バイアスの可能性などを記載。

AI ガバナンスは『止めるためでなく安全に進めるため』

規制は『AI を止めるもの』ではなく、『事故を予防して、安心して進めるためのインフラ』。EU AI Act は厳しいですが、ハイリスク AI システム だけが本格規制対象で、それ以外は最小限の透明性で済みます。組織として『何を作っているのか』『どこにリスクがあるのか』を可視化するだけで、多くのインシデントは予防できます。データ職は コードを書く前に、ドキュメントを書く 文化を定着させるのが第一歩。

次に進む

  • [G 検定 教科書](/certs/g-test/textbook) ─ AI 倫理・社会実装をさらに深く
  • [E 資格 教科書](/certs/e-shikaku/textbook) ─ 深層学習の実装
  • EU AI Act 全文(英語): https://artificialintelligenceact.eu/
  • Model Cards 論文: Mitchell et al. (2019) FAT* Conference

ここまで 5 章で DS 検定リテラシーの中核を扱いました。続く 6-10 章では ビジネス課題定式化・データ可視化と BI・MLOps と本番運用・プロジェクト管理・実務ケーススタディ を加えて、現場直結のスキルを完成させます。

Chapter 6

6 章 · ビジネス課題の定式化


§6.1

問題発見と KPI 設計

データ分析の最大の失敗 は『間違った問題を解く』こと。技術が優れていても、問題設定がズレていれば結果は使われません。

MECE と Issue Tree

コンサル流の問題分解

MECE(Mutually Exclusive, Collectively Exhaustive)は『漏れなくダブりなく』分解する原則。Issue Tree で大きな問題を小さな問題に分解する。例: 売上低下 → 顧客数減少 + 客単価減少 + 来店頻度減少 → さらに分解 → ボトルネック特定。

KPI の設計原則

用語 ─ SMART KPI

Specific(具体的)・Measurable(測定可能)・Achievable(達成可能)・Relevant(関連性)・Time-bound(期限付き)。例:『3 ヶ月後にチャーン率を 5% → 3% に』。

Output KPI: 売上・利益などの結果指標 Outcome KPI: ユーザー満足度・LTV など中期指標 Process KPI: 訪問数・問合せ数など先行指標

OKR と KPI の関係

OKR(Objective and Key Results) は Google・Intel が広めた目標設定枠組み。Objective(定性的目標) + 3-5 個の Key Results(定量的成果)。KPI が 継続的監視 の指標なのに対し、OKR は 挑戦的目標 で四半期ごとに更新するのが標準。

§6.2

分析タスクの種類と適切な選択

ビジネス課題を 適切な分析タスク に翻訳できると、その後の作業が効率化します。

5 つの主要分析タイプ

  • 記述的分析(Descriptive): 何が起きたか(売上ダッシュボード)
  • 診断的分析(Diagnostic): なぜ起きたか(原因分析・パレート)
  • 予測的分析(Predictive): 何が起きるか(需要予測・解約予測)
  • 処方的分析(Prescriptive): 何をすべきか(最適化・推薦)
  • 探索的分析(Exploratory): パターン発見(クラスタ・異常検知)

因果か予測か

目的が違えば手法も違う

予測タスク: 未来の値を当てたい → 機械学習でも何でも精度最優先 因果タスク: 介入効果を知りたい → ランダム化試験・差分の差分・操作変数法など因果推論の道具

両者は 似ているようで全く別。『売上を予測する』と『広告費を増やしたら売上が増えるか』は違う問題。混同するとビジネス判断を誤ります。

分析の OS — CRISP-DM

CRISP-DM(Cross-Industry Standard Process for Data Mining) はデータ分析プロジェクトの標準サイクル。①ビジネス理解 → ②データ理解 → ③データ準備 → ④モデル作成 → ⑤評価 → ⑥展開、を反復。現代の MLOps の祖型 であり、DS 検定でも頻出。

§6.3

ステークホルダーとの合意形成

データ分析プロジェクトの 8 割の失敗はコミュニケーション に起因。技術より対人スキルが重要な場面が多いのが実情です。

プロジェクト関係者の整理

  • スポンサー: 予算・優先度を決定する経営層
  • ドメイン専門家: 業務知識を提供する現場担当者
  • データ提供者: IT 部門・DB 管理者
  • エンドユーザー: 分析結果を実際に使う人
  • データサイエンティスト: 自分自身

期待値マネジメント

AI に過剰期待しない

経営層は『AI で何でも解決』と期待しがち。何ができて何ができないか を最初に明確にするのが必須。確実に解ける問題に絞る → 早めに小さい成果を出す → 信頼を得てから次 という段階を踏むのが、長期的成功の鍵。

報告のテクニック

  • ピラミッド原則: 結論 → 理由 → 詳細
  • 1 ページサマリ: 経営層への必須提出物
  • 統計用語を翻訳: → 『偶然ではない可能性が高い』
  • ビジュアル中心: 表より図、図にも 1 メッセージ
  • 意思決定の選択肢を提示: 『A 案 / B 案 / 何もしない』の比較
Chapter 7

7 章 · データ可視化と BI ツール


§7.1

可視化の原則と Tufte

Edward Tufte の 『The Visual Display of Quantitative Information』(1983)は可視化のバイブル。基本原則を押さえると、見る人を誤誘導しないグラフが作れます。

Tufte の 5 原則

  1. データ:インクの比率を最大化(余計な装飾を減らす)
  2. チャートジャンクを減らす(意味のない 3D・グラデーション)
  3. 比較を可能にする(複数軸を共通化・対数スケール)
  4. 多次元データの提示(small multiples・スパークライン)
  5. 真実性(縦軸ゼロ起点・正しい比例関係)

色の科学

  • カテゴリカル: 色相で識別(7 色まで・ColorBrewer Set1/Set2)
  • 順序: 明度のグラデーション(Viridis・Cividis)
  • 発散: 中央値からの距離(赤白青)
  • 色覚多様性: 赤緑色弱対応(Viridis 推奨)
  • 白黒印刷でも識別可能 がプロの基準
§7.2

BI ツールの現代地図

BI ツール は『誰でも対話的にデータを探索できる』を目指したシステム。2025 年現在の主要選択肢を整理。

Tableau

  • 長所: 圧倒的な可視化品質・対話的探索の容易さ
  • 短所: ライセンス費用・大規模データで遅い
  • 公開版: Tableau Public(無料)で個人プロジェクトにも
  • 得意分野: マーケ・営業のダッシュボード

Power BI

  • 長所: Microsoft エコシステム連携・コスパ最高
  • 短所: macOS 対応が弱い・複雑な可視化は劣る
  • Microsoft Fabric に統合され、AI 機能が強化
  • 得意分野: Excel から自然な発展先

Looker(Google)

  • 長所: LookML でデータモデル管理・ガバナンス
  • 短所: 学習コスト高・ライセンス費用
  • Looker Studio(旧 Data Studio)は無料版
  • 得意分野: BigQuery 統合・大規模組織

新興系

  • Metabase: オープンソース・自社ホスティング可
  • Redash: SQL 主体・エンジニア向け
  • Mode: SQL + Python 統合
  • Hex / Deepnote: ノートブック型 BI(コラボ強化)
§7.3

ダッシュボード設計の実践

経営層向けダッシュボード の設計フローを実例で示します。

ステップ 1-5

  1. ステップ 1: 利用者(誰が見るか)を確定
  2. ステップ 2: 意思決定(何を決めるか)を 1-3 個に絞る
  3. ステップ 3: 必要 KPI を 5-7 個選定
  4. ステップ 4: 1 画面ワイヤーフレーム作成
  5. ステップ 5: プロトタイプ → ユーザーレビュー → 改善反復

失敗パターン

  • 情報過多: 100 個の指標を並べて誰も見ない
  • 遅い更新: リアルタイムが必要なのに日次更新で意思決定が遅れる
  • 説明不足: 数字の意味が分からず、誰も使わない
  • ベンダー先行: ツール選定が目的化して何を見せるか不明
  • 孤立: ビジネスチームと IT で別々のダッシュボード
🎯 ダッシュボード ROI

ダッシュボードの 真の価値 は『意思決定が速くなる × 質が上がる × 頻度が増える』。装飾の美しさではなく、利用者の意思決定がどう変わったか で評価するのが本物の運用。

Chapter 8

8 章 · MLOps と本番運用


§8.1

MLOps の構成要素

MLOps(Machine Learning Operations)は『ML モデルを本番運用するためのエンジニアリング規律』。DevOps + ML 特有の課題を統合。

ML パイプラインの段階

  • データ収集: ETL/ELT パイプライン(Airflow / dbt)
  • 特徴量エンジニアリング: Feature Store(Feast / Tecton)で再利用
  • 学習: 実験管理(MLflow / W&B)
  • 評価: A/B テスト・オフライン評価
  • デプロイ: モデルレジストリ → コンテナ化 → サーバ
  • 監視: Drift・性能・予測量の継続観測
  • 再学習: 自動・手動トリガー

MLOps 成熟度モデル

用語 ─ Google MLOps レベル

Level 0: 手動プロセス(JupyterNotebook → 手作業デプロイ)

Level 1: ML パイプライン自動化(学習・デプロイ自動化)

Level 2: CI/CD パイプライン(コード変更で自動再学習・デプロイ)

大半の企業は Level 0-1 で、Level 2 は先進企業のみ。

§8.2

デプロイ戦略とサービング

学習済みモデルを 本番環境で動かす ための主要パターン。

デプロイ方式

  • Batch 推論: 夜間バッチで翌日分を計算(古典・安定)
  • Real-time API: REST API でリクエストごとに推論(レコメンド)
  • Streaming: Kafka などのストリームで継続推論(不正検知)
  • Edge / On-device: スマホ・IoT で推論(プライバシー重視)

リリース戦略

  • Shadow Deployment: 新モデルを並行実行・結果は使わずログのみ
  • Canary Release: 一部ユーザー(5-10%)に新モデル、徐々に拡大
  • Blue-Green: 新旧 2 環境を準備、ロードバランサで切替
  • A/B Test: 統計的に新モデルの優位性を検証

サービング基盤

  • Triton Inference Server(NVIDIA): 異種モデル統合
  • TorchServe / TF Serving: 各フレームワーク純正
  • SageMaker Endpoint(AWS): マネージド推論
  • Vertex AI(GCP): Google 統合
  • Azure ML Endpoint: Microsoft 統合
§8.3

監視と再学習サイクル

本番モデルは時間とともに劣化(Concept Drift)。継続監視と再学習サイクルが必須です。

監視すべき項目

  • インフラ: レイテンシ・スループット・エラー率
  • 入力: 特徴量の分布(Data Drift)
  • 出力: 予測値の分布(Prediction Drift)
  • 性能: 真値が遅れて分かる場合のラグ評価
  • ビジネス: 売上・コンバージョンへの影響

ドリフト検出

用語 ─ Drift の検出

KS 検定: 分布の同一性検定(連続変数)

Chi-Squared: カテゴリ変数の分布変化

PSI(Population Stability Index): 、0.1 未満で安定、0.25 超でドリフト

KL ダイバージェンス: 情報理論的な分布距離

再学習トリガー

  • スケジュール: 毎月・毎週など定期再学習
  • 性能ベース: 精度が閾値を割ったら再学習
  • データドリフト: PSI が閾値超えで再学習
  • 新データ充足: 一定量の新データで自動再学習
  • 外部イベント: コロナのような大変化で緊急再学習
MLOps は『ML を企業に定着させる規律』

1 回モデルを作って終わり ではなく、継続的に価値を生み続ける 仕組みが MLOps。エンジニアリング・データサイエンス・ビジネスの 三位一体 で運用するのが現代の AI 活用の標準形。

Chapter 9

9 章 · プロジェクト管理と組織体制


§9.1

アジャイル DS とウォーターフォール

データ分析プロジェクト は不確実性が高く、アジャイル手法と相性が良いと言われます。

アジャイル DS の原則

  • MVP(Minimum Viable Product): 最小機能で早期リリース
  • Sprint(2-4 週): 短期サイクルで成果を出す
  • 継続的検証: ステークホルダーから定期フィードバック
  • ピボット: 仮説が外れたら方向転換
  • Documentation: ノートブック・実験記録で再現性確保

ウォーターフォールが向く場面

規制業界・大規模データ基盤

金融・医療・公共部門 など、規制要件が厳しい・要件が固まっている 場合は、ウォーターフォール(計画 → 実装 → 検証)が向くこともあります。プロジェクトの性質で使い分ける のが現代的なアプローチ。

DS 流アジャイル

ソフトウェア開発のアジャイルとは少し違い、DS では 『仮説検証スプリント』 という考え方が重要。1 スプリント = 1 つの仮説を検証する単位。仮説 → データ収集 → 分析 → 結果評価 → 次の仮説、というループで進めます。

§9.2

チーム編成と役割分担

現代の DS チーム は単独のスーパーマンではなく、役割分担された専門家の集合 で動きます。

主要な職種

用語 ─ DS 関連職種

Data Scientist: 統計・モデリング・分析

ML Engineer: モデルの本番化・MLOps

Data Engineer: データパイプライン・基盤構築

Data Analyst: BI・レポート・現場分析

ML Researcher: 新手法の研究・論文書き

Product Manager(AI/ML): 製品企画・優先度決め

Data Steward: データ品質・ガバナンス

T 型人材と π 型人材

深さ × 広さ

T 型人材: 1 つの専門領域(縦棒)+ 関連分野の広い理解(横棒)

π 型人材: 2 つの専門領域 + 横の理解

DS 検定リテラシーは 横棒(横断知識)を養う設計。何かの専門 + DS 横断知識 が現代の希少人材です。

組織モデル

  • 集中型: DS チームが 1 つ、各部署にコンサルティング
  • 分散型: 各事業部に DS が常駐
  • ハイブリッド: コアチーム + 事業部内 DS
  • CoE(Center of Excellence): 専門センターで知識を集約
  • 成熟段階で集中 → 分散 → CoE と進化することが多い
§9.3

データガバナンスとセキュリティ

データガバナンス は『データ資産を組織として正しく管理する』ための仕組み。プライバシーが厳しくなる現代で必須。

データガバナンスの 3 階層

  • 戦略: データ戦略・データオーナーシップ
  • 戦術: データカタログ・メタデータ管理
  • 運用: アクセス制御・暗号化・監査ログ

データセキュリティの基本

  • 最小権限の原則: 必要なデータだけアクセス可
  • 暗号化: 保存時・通信時の両方
  • マスキング: 開発環境では個人情報を仮名化
  • 監査ログ: 誰が何にいつアクセスしたか記録
  • インシデント対応: 漏洩時の手順を事前準備

データの品質管理

  • 完全性: 欠損データの割合
  • 正確性: 真の値との一致度
  • 一貫性: 別データと矛盾しない
  • 適時性: 必要なタイミングで利用可能
  • 有効性: ビジネス目的に合致
  • 自動チェック: Great Expectations / dbt test などで CI 化
💡 ガバナンスは『ブレーキ』ではなく『ハンドル』

ガバナンスを 規制と捉えるとプロジェクトが進まない安全に速く進むためのハンドル と捉え、最初から組み込むのが成功する組織のパターン。

Chapter 10

10 章 · 実務ケーススタディと総まとめ


§10.1

ケース ─ EC のレコメンドシステム

Amazon・楽天・メルカリなどの レコメンドシステム を例に、DS プロジェクトの全工程を見ます。

ビジネス課題

  • 目的: 顧客の購入確率を上げる、滞在時間延長、LTV 向上
  • KPI: CTR(Click-Through Rate)、CVR(Conversion Rate)、Diversity
  • 制約: 計算リソース・レイテンシ(100ms 以下)・コールドスタート

技術選定

  • 第 1 世代: 協調フィルタリング(行列分解)
  • 第 2 世代: ハイブリッド(協調 + コンテンツベース)
  • 第 3 世代: 深層学習(Two-Tower Network・Transformer)
  • 現在: LLM 駆動型(自然言語クエリ + ベクトル検索)
Two-Tower Network への進化

Netflix Prize(Ch4 で詳述)時代は行列分解が中心でしたが、2010 年代以降は Two-Tower Network(ユーザータワー × アイテムタワー)が標準に。ユーザー埋め込みとアイテム埋め込みを別々のニューラルネットで学習し、内積で予測。コールドスタート問題 にも強く、YouTube・TikTok・メルカリなどの大規模推薦の中核技術です。

§10.2

ケース ─ 金融機関の与信スコアリング

ローン審査 は AI / 統計の古典的応用領域。説明可能性・公平性が極めて重要です。

課題と制約

  • 精度: デフォルトを正確に予測
  • 説明可能性: 拒否理由を法的に説明する義務
  • 公平性: 性別・人種で不利にならない
  • 規制: 各国の与信法・GDPR・EU AI Act
  • レイテンシ: 審査結果は数秒以内

モデルの選択

ロジスティック回帰が今も主役

深層学習が話題ですが、与信領域では ロジスティック回帰 + 特徴量エンジニアリング が今も主役。理由: 係数の解釈性が高い こと。LightGBM + SHAP 値 で説明可能性を確保するハイブリッドも増加中。

公平性監査

  • Disparate Impact: 群間の合格率比 < 0.8 で疑念
  • Equalized Odds: TPR/FPR が群間で等しいか
  • Counterfactual Fairness: 性別を変えても結果が同じか
  • 監査文書化: バイアスの定期評価レポート
§10.3

DS 検定リテラシー総まとめ

9 章を歩いてきて、データサイエンスの全方位スキル が揃いました。

9 章の地図

  1. Ch1: DS 3 つのスキル軸(DS 力・DE 力・ビジネス力)
  2. Ch2: データエンジニアリング力とビジネス力
  3. Ch3: 機械学習の概念(教師あり/なし・評価指標・交差検証)
  4. Ch4: 機械学習の主要手法(回帰・分類・クラスタリング・推薦)
  5. Ch5: 倫理・プライバシー・AI ガバナンス
  6. Ch6: ビジネス課題の定式化
  7. Ch7: データ可視化と BI ツール
  8. Ch8: MLOps と本番運用
  9. Ch9: プロジェクト管理と組織体制

次のステップ

  • [G 検定](/certs/g-test/textbook): AI 全般の知識(法務・倫理込み)
  • [E 資格](/certs/e-shikaku/textbook): DL 実装エンジニア向け
  • [統計検定 2 級](/textbook/grade-2): 統計推論の理論
  • [DS 協会の中級・上級](https://www.datascientist.or.jp/): DS 検定の上位
  • Kaggle / SIGNATE: 実データで腕試し
  • 実務プロジェクト: 自社のデータで PoC
💡 DS 検定リテラシーは『DS 業界のパスポート』

DS 検定リテラシー合格は、DS 業界に正式に入る資格 を得たということ。あなたの 専門領域 に DS の力を組合せれば、業界で希少な T 型人材 になれます。本書がその礎になれば幸いです。

DS 検定リテラシー合格、おめでとうございます。データの世界への扉 を一緒に開きました。あなたの DS 旅、応援しています。