統計検定 DS エキスパート 教科書
**統計検定 データサイエンス エキスパート(DS エキスパート)** は、日本統計学会が主催する統計検定シリーズの中で最高峰のデータサイエンス系試験です。**DS 基礎(Excel 中心)** や **DS 発展** の上位に位置し、**Python / R による高度な統計分析・機械学習・因果推論・時系列・ベイズ・MLOps まで**、データサイエンティストとして実務で必要な幅広い能力を CBT 90 分の試験で測ります。本教科書は、出題範囲を全 10 章で体系的にカバーします。
目次
- 第 1 章 · DS エキスパート ─ 試験の全体像DS シリーズの位置付け、出題範囲、難易度、推奨学習プランを整理します。
- 第 2 章 · 記述統計と探索的データ分析(EDA)数値要約・可視化・欠測値処理・外れ値処理など、分析の最初の工程を整理します。
- 第 3 章 · 確率分布と推測統計DS エキスパートで頻出する確率分布・推定・検定の応用を、選択式問題で問われやすいポイントに絞って整理します。
- 第 4 章 · 回帰と一般化線形モデル(GLM)線形回帰・ロジスティック回帰・ポアソン回帰・正則化など、回帰モデル全般の応用を整理します。
- 第 5 章 · 多変量解析と機械学習PCA / クラスタリングなどの教師なし手法と、SVM / Tree 系 / NN などの教師あり手法を整理します。
- 第 6 章 · ベイズ推論と MCMC事前分布・事後分布・MCMC・階層モデル・ベイズ的 A/B テストを整理します。
- 第 7 章 · 時系列分析ARIMA・状態空間モデル・Prophet・時系列特徴量設計を整理します。
- 第 8 章 · 因果推論RCT・DID・傾向スコア・操作変数・回帰不連続デザイン・DAG を整理します。
- 第 9 章 · データエンジニアリングと SQLSQL の中級トピック・ETL・データレイク・特徴量ストアなど、分析の前段階を整理します。
- 第 10 章 · MLOps と本番運用モデルのデプロイ・モニタリング・特徴量ストア・データドリフトなど、本番運用の必須トピックを整理します。
第 1 章 · DS エキスパート ─ 試験の全体像
DS シリーズ 3 段階の中での位置付け
統計検定の データサイエンス系 には現在 3 段階 があります。それぞれ対象者と難易度が大きく異なります。
- DS 基礎(2021 〜): Excel 中心。データの前処理・基礎的な分析・可視化。30 〜 60 時間
- DS 発展(2023 〜): Python / R での標準的な統計・回帰・機械学習。100 〜 200 時間
- DS エキスパート(2024 〜): 高度な統計モデル・因果推論・時系列・ベイズ・MLOps まで。300 時間〜
実務でデータ分析を 1 〜 3 年経験し、自走できるレベル のデータサイエンティスト / 分析エンジニアが主対象。
統計検定 2 級・準 1 級レベルの統計理論 + Python の pandas / scikit-learn の操作 + SQL の基本ができることが暗黙の前提。
単なる用語暗記では合格は難しく、「設計の判断ができるか」 が問われます。
試験形式と合格基準
- 試験形式: CBT(全国の試験会場で随時受験可)
- 問題数 / 時間: おおむね 40 問 / 90 分
- 回答方式: 選択式 + 一部数値入力。コードや論述は出題されない
- 合格基準: おおむね 100 点満点中 60 点(年度により若干変動)
- 合格率(参考): 30 〜 40% 前後と推定(統計学会未公表)
- 受験料: 一般 10,000 円 / 学割 6,000 円(参考)
出題範囲と推奨学習プラン
出題比重(目安)
- 統計推測 ・ 多変量解析(約 25%): 推定 ・ 検定 ・ 線形モデル ・ GLM ・ PCA ・ クラスタリング
- 機械学習(約 20%): 教師あり / 教師なし / 評価 ・ ハイパーパラメータ ・ Tree 系 ・ NN 概要
- ベイズ推論 ・ MCMC(約 15%): 事前 / 事後 ・ MCMC ・ 階層モデル ・ Stan / PyMC
- 時系列分析(約 10%): ARIMA ・ 状態空間 ・ Prophet
- 因果推論(約 15%): RCT ・ DID ・ 傾向スコア ・ DAG ・ IV
- データエンジニアリング ・ MLOps(約 15%): SQL ・ ETL ・ 特徴量ストア ・ デプロイ ・ モニタリング
300 時間プラン(中央値の社会人向け)
- Phase 1(1 ヶ月、60 時間): 統計検定 2 級・準 1 級の取りこぼし範囲を補強
- Phase 2(1.5 ヶ月、80 時間): 機械学習(scikit-learn を実際に動かして)+ 評価指標
- Phase 3(1 ヶ月、60 時間): ベイズ + 時系列 + 因果推論
- Phase 4(1 ヶ月、60 時間): SQL + データ基盤 + MLOps の基礎
- Phase 5(0.5 ヶ月、40 時間): 演習 + 過去問 + 弱点補強
DS エキスパートは選択式とはいえ、各論点で『この設計で何が起きるか / 何が間違いか』を判断する問題が中心。机上の理解だけでなく Jupyter で 30 分でも触る ことで、「scikit-learn の Pipeline と GridSearchCV」「statsmodels の summary 出力」など、選択肢の正誤判断に必要な土台が身につきます。
第 2 章 · 記述統計と探索的データ分析(EDA)
数値要約と可視化
EDA(探索的データ分析) は分析プロジェクトで最も時間を使う工程の 1 つ。「データを見ずにモデルを当てはめる」事故を避けるための基礎です。
- 中心傾向: 平均 ・ 中央値 ・ 最頻値 ─ 分布が歪むときは中央値を見る
- 散らばり: 分散 / SD ・ 四分位範囲(IQR) ・ MAD
- 形状: 歪度(Skewness) ・ 尖度(Kurtosis)
- ロバスト統計: 外れ値の影響を受けにくい指標(中央値・MAD・Winsorized 平均)
主要な可視化
- ヒストグラム / KDE: 1 変数の分布
- 箱ひげ図: 中央値 + 四分位 + 外れ値 ─ グループ比較に強い
- 散布図 + 回帰直線: 2 変数関係
- ヒートマップ: 相関行列 ・ クロス集計
- バイオリンプロット: 箱ひげ + 分布の形
- ペアプロット: 多変数の総当たり散布図
欠測値の取り扱い
MCAR(完全にランダム): 欠測の発生がデータと無関係。例: 通信エラー。
MAR(欠測ランダム): 観測された変数で説明できる欠測。例: 男性の身長は欠測しにくいが女性は欠測しやすい(性別で説明可能)。
MNAR(欠測非ランダム): 欠測自体が値に依存。例: 高所得者ほど所得を答えない。
代入の選択
- 単一代入: 平均 / 中央値 / 最頻値で埋める ─ 簡便だが分散を過小推定
- 回帰代入: 他変数から予測値で埋める
- 多重代入(Multiple Imputation): 複数の代入候補を生成して結果を統合(Rubin's rules)。MAR の理論上の標準
- 完全例分析: 欠測のある行を全削除 ─ サンプル減少と選択バイアスのリスク
MCAR か MAR か MNAR かを データと業務知識から推察 することが先決です。例えば『健康診断で血圧が欠測』はランダムでなく『高血圧で再測定中だった』可能性があり、平均で埋めると推定値が低めにバイアス。欠測の意味を考えずに代入 すると、分析結果ごと汚染される事故が起きます。
外れ値・スケーリング・特徴量設計
- 外れ値検出: IQR ベース(1.5 × IQR 外)、Z スコア、MAD、孤立森林
- スケーリング: 標準化(z-score) ・ Min-Max 正規化 ・ ロバストスケーリング
- 変換: 対数変換 ・ Box-Cox ・ Yeo-Johnson(正の歪度を緩和)
- カテゴリ変数: One-hot ・ Target encoding ・ Ordinal encoding ・ Embedding
- 離散化(ビニング): 連続値を区間に分けて非線形効果を捕える
- 特徴量交差: 変数の積 / 和を新しい特徴量に
標準化や正規化は 訓練データだけで fit し、テストデータには transform だけ適用 が鉄則。テストの統計量を訓練に混ぜると データリーク になり、モデルの汎化性能を過大評価します。scikit-learn の Pipeline を使えばこの種のミスを構造的に防げます。
第 3 章 · 確率分布と推測統計
主要な確率分布の関係
DS エキスパートでは「ある分布の極限がもう 1 つの分布になる」のような変換関係が頻出です。
- 二項分布 → ポアソン分布: で収束
- 二項分布 → 正規分布: 大、 が極端でなければ近似可(中心極限定理の特殊形)
- ポアソン分布 → 正規分布: 大で近似可
- 指数分布: ポアソン過程の到着間隔。記憶なし性
- ガンマ分布: 個の指数分布の和。 で指数分布
- カイ二乗分布: ( は標準正規)
- t 分布: 標準正規 / sqrt(カイ二乗 / 自由度)
- F 分布: カイ二乗の比
推定・信頼区間・検定の応用
最尤推定とフィッシャー情報量
最尤推定量(MLE) は対数尤度を最大化する 。フィッシャー情報量 が大きいほど推定の不確かさが小さい。漸近的に 。
ブートストラップ
ブートストラップ法 はサンプルから 復元抽出 を繰り返し、統計量の分布を経験的に得る方法。理論上の分布が分からない統計量でも信頼区間を作れる。ノンパラメトリック / パラメトリック / ブロックブートストラップ などの種類がある。
多重検定の補正
- ボンフェローニ補正: ( は検定数)で簡便だが保守的
- ホルム法: ボンフェローニより検出力が高い順序型補正
- Benjamini-Hochberg(FDR): False Discovery Rate を制御。ゲノム解析や A/B テストで標準
100 個の検定を で行うと、帰無仮説がすべて真でも 期待値で 5 個 が有意と判定されてしまいます。これが p ハッキングの本質。事前登録 / 多重検定補正 / メタ分析 で防ぎます。
第 4 章 · 回帰と一般化線形モデル(GLM)
線形回帰の前提と診断
- 線形性: 説明変数と従属変数が線形関係
- 独立性: 残差同士が独立
- 等分散性: 残差の分散が一定
- 正規性: 残差が正規分布(推定値の正規性は CLT で多くの場合 OK)
- 多重共線性: 説明変数間の高い相関(VIF > 10 が目安)
残差診断のプロット
- 残差 vs 予測値: 等分散性の確認(扇形なら等分散性に違反)
- Q-Q プロット: 残差の正規性確認
- 残差 vs 説明変数: 線形性の確認
- Cook の距離 / レバレッジ: 影響力の大きい点を検出
GLM ─ ロジスティック・ポアソン・他
確率分布(指数型分布族): 正規 ・ ベルヌーイ ・ ポアソン ・ ガンマなど。
線形予測子: 。
リンク関数: 。 は応答変数の期待値。
例: ロジスティック回帰 = ベルヌーイ + ロジット、ポアソン回帰 = ポアソン + ログ、線形回帰 = 正規 + 恒等。
オッズ比の解釈
ロジスティック回帰の係数 は 「 を 1 単位増やすとログオッズが 増える」。 がオッズ比。例: なら オッズ比 ≈ 2( の 1 単位増加で発生確率のオッズが約 2 倍)。
ポアソン回帰のオフセット
「単位面積あたりの発生件数」「単位時間あたりのアクセス数」のような 率(rate) を扱うときは、ポアソン回帰に オフセット項 を加えます。これによりカウントを率としてモデル化できます。
応答変数が 0/1 → ロジスティック / プロビット。 応答変数がカウント → ポアソン(分散 = 平均なら) / 負の二項(過分散なら)。 応答変数が正の連続値で右に長い裾 → ガンマ / 対数正規。 応答変数が比率 → ベータ回帰 / ロジスティック(ロジット変換後)。
正則化(Ridge・Lasso・Elastic Net)
- Ridge(L2): にペナルティ。共線性に強く、係数を 0 にはしない
- Lasso(L1): にペナルティ。係数を 0 にする(変数選択効果)
- Elastic Net: L1 + L2 のミックス。Lasso の不安定性を緩和
- ハイパーパラメータ : 大きいほど強い正則化。交差検証で選ぶ
正則化を強めると 係数が 0 寄りに圧縮 され、訓練誤差は上がるが 汎化誤差は下がる ことが多い。これがバイアス(縮小)とバリアンス(過学習抑制)のトレードオフの実践版。 は理論で決められず、必ず 交差検証 で選びます。
第 5 章 · 多変量解析と機械学習
次元削減 ・ クラスタリング
PCA(主成分分析)
分散最大化 の方向に新しい軸を取る線形変換。共分散行列の 固有値分解 で得られる。「寄与率(各主成分が説明する分散の割合)」と「累積寄与率」を見て成分数を決める。
他の次元削減
- 因子分析: 観測変数の背後の潜在因子を仮定。心理学・マーケで頻出
- MDS / Isomap / t-SNE / UMAP: 非線形次元削減。可視化で標準
- LDA(線形判別分析): 教師あり次元削減。クラス間分散 / クラス内分散を最大化
クラスタリング
- k-means: 凸クラスタ前提、k を事前に決める。エルボー法 / シルエット係数 で k 選択
- 階層的クラスタリング: 樹形図で関係を可視化。連結方式(単連結 / 完全 / 平均 / Ward)
- DBSCAN: 密度ベース。任意形状のクラスタ + 外れ値を扱える
- 混合分布モデル(GMM): 各点が確率的に複数クラスタに属する
教師あり学習の主要モデル
- 決定木: 解釈性 ◎、過学習しやすい
- ランダムフォレスト: 決定木のバギング。OOB スコアで簡易評価
- 勾配ブースティング: 弱学習器を逐次加える。XGBoost / LightGBM / CatBoost が事実上の標準
- SVM: マージン最大化。カーネル法で非線形対応
- ニューラルネット: 大規模データ + 表現学習で強い。MLP / CNN / RNN / Transformer
- k-NN: 最も単純。スケーリング必須
Kaggle 上位や実務のテーブル予測タスクの 8 割超で XGBoost / LightGBM が選ばれます。理由は (1) 自動的な変数選択 / 交互作用検出、(2) 欠測値や外れ値に頑健、(3) 非線形でも高速。深層学習はテキスト / 画像 / 音声で強い が、表データでは GBDT に追いついていません。
モデル評価と交差検証
評価指標(分類)
- Accuracy: 全体正解率。不均衡データに弱い
- Precision / Recall / F1: 正例予測の精度・再現性のバランス
- ROC-AUC: 閾値非依存。総合的な分離性能
- PR-AUC: 不均衡データで ROC より敏感
- Log Loss: 予測確率の質を直接評価
- Confusion Matrix: 4 つの真陽性 / 偽陽性パターン
評価指標(回帰)
- MSE / RMSE: 大きな誤差を強く罰する
- MAE: 外れ値に頑健
- MAPE: 相対誤差。ゼロ近傍で不安定
- : 説明できる分散の割合
交差検証
- k-Fold CV: データを k 分割。標準は k=5 / 10
- Stratified k-Fold: 分類でクラス比率を保つ
- Time Series CV: 時系列では時間順を守る(未来を訓練に使わない)
- Group k-Fold: 同じグループ(同じユーザーなど)が訓練・テストに混ざらないように
第 6 章 · ベイズ推論と MCMC
ベイズ統計の基礎
$$
事後分布 ∝ 尤度 × 事前分布。 は正規化定数で実用上は無視できることが多い(MCMC など)。
頻度論との対比
- 頻度論: パラメータは固定値、データが確率的
- ベイズ: パラメータは確率変数(分布を持つ)、データは固定
- 信頼区間 vs 信用区間: 信頼区間は『手続きの保証』、信用区間は『パラメータが入る確率』を直接表現
MCMC と階層ベイズ
MCMC の種類
- Metropolis-Hastings: 提案分布 + 採択確率。基本形
- ギブスサンプリング: 条件付き分布から順次サンプリング
- HMC(ハミルトニアン): 勾配を使う高効率手法。Stan / PyMC が標準採用
- NUTS(No-U-Turn Sampler): HMC の自動調整版
収束診断
- (Gelman-Rubin): 複数チェーン間の分散比。1.0 に近いほど良い(< 1.05 が目安)
- 有効サンプルサイズ(ESS): 自己相関を考慮した実効的なサンプル数
- トレースプロット: チェーンの混合の目視確認
階層ベイズ
階層モデル(Multilevel / Mixed-effects)は、グループごとのパラメータを 共通の上位分布から生成 すると考える方式。部分プーリング(完全プーリングと完全分離の中間)で、データが少ないグループにも合理的な推定を与えます。
頻度論の A/B テストでは『p < 0.05』判定が中心ですが、ベイズでは『B が A より優れている確率』を直接計算できます。意思決定では『何 % の確率で B が良いか』『期待損失はいくらか』が直感的で、経営層にも説明しやすい利点があります。
第 7 章 · 時系列分析
定常性と ARIMA
弱定常: 平均と分散が時間に依存せず、自己共分散が時間差のみに依存。
非定常時系列(トレンドや単位根のあるもの)は 差分 や 対数変換 で定常化してから ARIMA を当てはめる。
ARIMA(p, d, q)
- AR(p): 過去 p 期の値で説明
- I(d): d 階差分で定常化
- MA(q): 過去 q 期の誤差で説明
- SARIMA: 季節項を加えた拡張
モデル選択
- ACF / PACF: 自己相関 / 偏自己相関で p, q の目処をつける
- ADF / KPSS 検定: 単位根の有無 → d を決める
- 情報量基準(AIC / BIC): 候補モデルの比較
状態空間モデルと Prophet
状態空間モデル は『観測されない潜在状態 + 観測ノイズ』として時系列を表現する枠組み。カルマンフィルタ で線形ガウシアン版を効率的に解ける。トレンド・季節・回帰効果を 構造的時系列モデル として柔軟に組み合わせられます。
- ローカルレベルモデル: ランダムウォーク + 観測ノイズ
- ローカル線形トレンドモデル: 水準 + 傾き
- BSTS / DLM: ベイズ構造時系列
- Prophet(Meta): トレンド + 周期 + イベントを分解。実務向け、欠損や外れ値に頑健
第 8 章 · 因果推論
因果推論のフレームワーク
個人 について、処置を受けた場合の結果 と受けなかった場合の結果 の 両方 を仮定する枠組み。
因果効果: 。
根本問題: 同じ個人に同時に両方の結果は観測できない(『因果推論の根本問題』)。
DAG(因果ダイアグラム)
- バックドアパス: 処置と結果の両方に影響する変数(交絡)を通る経路
- フロントドアパス: 処置 → 結果 の直接的経路
- コライダー: 2 つの矢印が突き当たる点。コライダーで条件付けると逆にバイアスを生む
主要な因果推論手法
- RCT(ランダム化比較試験): ゴールドスタンダード。倫理的・予算的に難しい場合は観察データに頼る
- DID(差分の差分): 処置前後の変化を、処置群と対照群で比較。並行トレンドが前提
- 傾向スコアマッチング(PSM): 処置を受ける確率(傾向スコア)が近い対照を組ませる
- IPW(逆確率重み付け): 傾向スコアの逆数で重み付けして交絡を補正
- 操作変数法(IV): 処置に影響するが結果に直接影響しない変数を介して因果効果を推定
- 回帰不連続デザイン(RDD): カットオフ前後で処置確率がジャンプする状況を活用
- 合成統制法(SCM): 複数の対照地域の重み付け平均で『あり得たもう 1 つの世界』を作る
実務での使用頻度はおおむね (1) A/B テスト(RCT の特殊形) > (2) DID > (3) 傾向スコア / IPW > (4) IV / RDD / SCM。テック業界は (1) が多く、政策・経済学は (2) (3) (4) が多い、という傾向があります。
第 9 章 · データエンジニアリングと SQL
SQL 中級 ─ ウィンドウ関数と CTE
JOIN の使い分け
- INNER JOIN: 両方にマッチする行のみ
- LEFT / RIGHT OUTER JOIN: 片方を全部残す
- FULL OUTER JOIN: 両方の全行
- CROSS JOIN: 直積。意図しない巨大化に注意
- SEMI / ANTI JOIN: EXISTS / NOT EXISTS で表現
ウィンドウ関数
- ROW_NUMBER / RANK / DENSE_RANK: 順位付け
- LAG / LEAD: 前後行の値
- 移動平均: `AVG(...) OVER (ORDER BY ... ROWS BETWEEN N PRECEDING AND CURRENT ROW)`
- PARTITION BY: グループ内での集計
CTE と再帰
WITH 句(CTE) でクエリを段階的に組み立てる。RECURSIVE CTE で階層構造(組織図・カテゴリツリー)を扱える。サブクエリの可読性 / 再利用性が大きく上がります。
ETL ・ ELT ・ データレイク / ウェアハウス
- ETL(Extract → Transform → Load): 古典的な構造。事前変換
- ELT(Extract → Load → Transform): クラウド DWH 時代の主流。生データを先にロード
- データレイク: 構造化 / 半構造化 / 非構造化を保管(S3 / GCS)
- データウェアハウス(DWH): 構造化分析データの中核(Snowflake / BigQuery / Redshift)
- レイクハウス: レイクと DWH の融合(Databricks / Iceberg / Delta Lake)
- dbt: SQL ベースの T(変換)層を Git 管理
正規化と非正規化
第 3 正規形(3NF) が OLTP の標準。スター / スノーフレークスキーマ は分析用 DWH の標準で、ファクトテーブル + ディメンションテーブルで読み取り高速化。カラムナーストレージ(Parquet / ORC)は分析クエリで圧倒的に高速。
第 10 章 · MLOps と本番運用
MLOps の全体像
MLOps は ML モデルの本番運用を持続可能にする実践群。DevOps の概念を ML に拡張したもので、実験管理 / 特徴量ストア / モデルレジストリ / CI/CD / モニタリング が柱です。
- 実験管理: MLflow / Weights & Biases / Neptune ─ パラメータ・指標・成果物を記録
- 特徴量ストア: Feast / Tecton ─ 訓練 / 推論で同じ特徴量を再利用、訓練 / サービング歪みを防ぐ
- モデルレジストリ: バージョン管理 + ステージング / プロダクション昇格
- CI/CD: テスト自動化(データ品質 + モデル指標)、デプロイ自動化
- モニタリング: 予測分布 ・ レイテンシ ・ ドリフト検出
データドリフトとモデル劣化
特徴量ドリフト(Covariate Shift): が変わる(入力分布)。
ラベルドリフト(Label Shift): が変わる。
概念ドリフト(Concept Drift): が変わる(関係性そのもの)。
- 検出指標: PSI(Population Stability Index)、KS 検定、KL ダイバージェンス
- 対応: 定期再訓練 ・ オンライン学習 ・ 異常検知 ・ 旧モデルへのフォールバック
需要予測モデル ・ 不正検知モデルの多くが 2020 年初頭に 大幅に精度劣化。理由は (1) 行動パターンの激変(特徴量ドリフト)、(2) 不正の手口の変化(概念ドリフト)。急変時の即応 / 監視 / 旧モデルフォールバック の重要性が業界で再認識されました。
受験対策の最終チェック
- 第 2 章: 欠測 3 分類(MCAR/MAR/MNAR)・スケーリングの落とし穴を即答できるか
- 第 3 章: 中心極限定理・ブートストラップ・多重検定補正の使い分け
- 第 4 章: GLM の 3 要素・正則化(L1/L2)・残差診断
- 第 5 章: GBDT vs DL のテーブル/画像での使い分け、CV の落とし穴(時系列・グループ)
- 第 6 章: ベイズと頻度論の違い・・階層モデル
- 第 7 章: ARIMA の(p,d,q)・状態空間・Prophet
- 第 8 章: DAG・潜在結果・主要な因果推論手法 5 種
- 第 9 章: ウィンドウ関数・ELT/ETL・カラムナーストレージ
- 第 10 章: ドリフト 3 種・MLOps の柱 5 つ
試験当日のコツ
- 90 分 / 40 問 = 1 問 2 分。長文問題は後回し戦略
- 極端な選択肢に警戒: 『常に』『必ず』は誤答が多い
- コード片の読解: scikit-learn / pandas / statsmodels の 典型シグネチャ を頭に入れておく(.fit / .predict / .summary など)
- 実機で 1 度は触る: Jupyter で代表モデルを動かしておくと判断が速い
DS エキスパートは データサイエンティスト職 での『中堅以上』のシグナルとして強力です。本資格 + 実務経験で シニア DS / 分析リード ポジションへの昇進材料になります。さらに踏み込むなら、本サイトの[E 資格](/certs/e-shikaku)で深層学習側、または[統計検定 1 級](/textbook/grade-1)で理論側を補強する道があります。