統計ロードマップ
2026-04-29·ロードマップ·⏱ 約 4

AIエンジニアに必要な統計知識 完全チートシート

機械学習を仕事で扱うエンジニアが『最低限おさえるべき統計』を 1 ページに圧縮。実装と直結する 12 トピックを優先度順に整理しました。

「機械学習を扱うのに、統計はどこまで必要?」 ─ 学習開始時に最も多い質問です。本記事では AI エンジニア / ML エンジニアが現場で使う統計 を 12 トピックに圧縮し、それぞれ『何に使うか』『どのフェーズで学ぶか』を整理しました。

結論 ─ 5 群 12 トピック

  1. 記述統計: 平均 / 分散 / 標準偏差 / 共分散 / 相関
  2. 確率分布: 正規分布 / 二項分布 / ポアソン
  3. 推定 ・ 検定: 信頼区間 / 仮説検定 / p 値 / t 検定 / カイ二乗
  4. 回帰: 単回帰 / 重回帰 / ロジスティック回帰 / 残差分析
  5. ベイズ: ベイズの定理 / 事後分布 / MAP 推定

1. 記述統計 ─ 評価指標を読み解く言葉

ML モデルの評価で必ず登場するのが 平均分散。RMSE は予測誤差の標準偏差そのもの。MAE は外れ値に強い指標。相関係数 は特徴量選択や多重共線性の検出に直結します。

💡 実装で出る場面

scikit-learn の `mean_squared_error`, `mean_absolute_error`, pandas の `df.corr()` ─ これらの裏で動いているのが記述統計の式です。

2. 確率分布 ─ モデルの仮定を理解する

正規分布: 線形回帰の誤差項の仮定。ニューラルネットの重み初期化(He / Xavier)。二項分布: 二値分類の真値。ポアソン: イベント発生回数(クリック数 ・ アクセス数)。

ここを抑えていないと、線形回帰の 正規性の検定 や、ロジスティック回帰の 対数尤度 がブラックボックスになります。

3. 推定 ・ 検定 ─ A/B テストの土台

信頼区間: モデル予測の不確実性を表現。p 値 ・ 仮説検定: 機能改善が偶然でないかを判定する道具。t 検定 / カイ二乗: グループ間比較の標準ツール。

🛠 実務シナリオ

新しい推薦アルゴリズムを A/B テストで評価 → 統計的に有意な差があるか p 値で判定 → 効果サイズと信頼区間で判断 ─ この流れが日常です。

4. 回帰 ─ ML の入り口

線形回帰 は最もシンプルな ML モデル。残差 ・ 決定係数 ・ 多重共線性の理解が、後の高度なモデル(GBDT ・ NN)の解釈にも効きます。ロジスティック回帰 は分類問題のベースライン。

5. ベイズ ─ 不確実性を扱う

ベイズの定理は 事前知識 + データ = 事後分布 という更新の枠組み。実務では:

  • Bayesian A/B テスト(早期判定)
  • ナイーブベイズ分類器
  • ベイズ最適化(ハイパーパラメータ探索)
  • 深層学習の MC dropout(不確実性推定)

学習順 ─ 本サイトでの対応

  • 1〜2 群: [統計検定 4 級](/textbook/grade-4) → [3 級](/textbook/grade-3)(本サイトの Phase 2)
  • 3〜4 群: [統計検定 2 級](/textbook/grade-2)(Phase 3)
  • 5 群 ・ 多変量 ・ 時系列: [準 1 級](/textbook/grade-pre1)(Phase 3 後半)
  • ML 実装: [E 資格 教科書](/certs/e-shikaku/textbook)(Phase 4)

やらなくていいこと

  • 統計検定 1 級 の証明問題 ─ 研究者向け。AI エンジニアには過剰
  • 測度論的確率論 ─ 必要になったら学ぶでOK
  • 抽象的な確率過程理論 ─ 強化学習で部分的に出るが、応用範囲が決まれば後追いで十分

まとめ

AI エンジニアにとっての統計は 準 1 級レベル で実用上ほぼ十分。完璧主義に走らず、Phase 1〜3 で 80% を取り、後は実装で補強するのが最短ルートです。

迷ったら [3 問の級診断](/diagnose) で現在地を確認 → [Phase 1 数学基礎](/math) または [Phase 2 統計学](/textbook/grade-3) からスタート。

Related Articles

関連記事