Textbook

1級教科書

1級は数理統計学そのものを問う最上位の級です。「統計数理」では十分統計量・最尤推定・漸近理論などの理論を、「統計応用」では人文/社会/医療/理工/データサイエンスの中から選択した分野での応用力を問います。本サイトでは「統計数理」側を中心に、定理の意味を式の意図から丁寧にたどり直す ─ 教科書を読み込む前後の補助として活用してください。

第 1 章 · 推定理論の基礎
十分統計量・指数型分布族・推定量の性質といった、現代数理統計の基本道具を整理します。
第 2 章 · 仮説検定の理論
ネイマン・ピアソンの補題、尤度比検定・ワルド検定・スコア検定の三種を理論的に整理します。
- 2.1 ネイマン・ピアソンの補題
- 2.2 尤度比・ワルド・スコア検定
第 3 章 · 計算統計学
EM アルゴリズム・MCMC・ブートストラップなど、現代統計の計算手法に触れます。
- 3.1 EM アルゴリズム
- 3.2 MCMC とブートストラップ
第 4 章 · 確率過程
マルコフ連鎖・ポアソン過程・ブラウン運動という、確率論の応用に登場する 3 つの基本的な確率過程を扱います。
第 5 章 · 多変量解析の理論
準1級で直感的に導入した PCA・判別分析を、固有値分解・最適性証明という 1 級の言語で再構成します。
- 5.1 PCA の固有値分解的扱い
- 5.2 判別分析の最適性
第 6 章 · 応用統計
1 級の応用分野で問われる品質管理(管理図・工程能力)・医薬統計(臨床試験設計)の理論を概観します。
- 6.1 品質管理 ─ 管理図と工程能力
- 6.2 医薬統計 ─ 臨床試験と症例数設計

Chapter 1

第 1 章 · 推定理論の基礎

§1.1

指数型分布族と十分統計量

1 級の出題範囲を見渡すと、ほとんどの「いい性質」が指数型分布族と十分統計量という 2 つの概念のまわりで議論されていることに気づきます。本節ではこの 2 つを丁寧に整理し、続く章の最尤推定・漸近理論への基礎とします。

指数型分布族

定義 ─ 指数型分布族

確率密度(または確率質量)関数が次の形に書ける分布の族を指数型分布族(exponential family)という:

$f (x; θ) = h (x) exp (\sum_{j = 1}^{k} η_{j} (θ) T_{j} (x) - A (θ))$

$η_{j}$ を自然パラメータ、 $T_{j}$ を十分統計量、 $A (θ)$ をキュムラント関数(対数正規化定数)、 $h (x)$ をベースメジャー(基底関数)という。

「指数の中身がパラメータと観測値の積に分解される」というのが本質。具体例は驚くほど多く、正規分布・ベルヌーイ分布・二項分布・ポアソン分布・指数分布・ガンマ分布・ベータ分布など、よく使う分布の大半が指数型分布族に属します。

例 1.1 ─ ポアソン分布が指数型分布族

$Po (λ)$ の確率質量は $P (X = x) = \frac{λ ^{x} e ^{- λ}}{x !}$ 。これを変形すると

$P (X = x) = \frac{1}{x !} exp (lo g λ \cdot x - λ) = h (x) exp (η (λ) T (x) - A (λ))$

ここで $h (x) = 1/ x!$ 、 $η (λ) = lo g λ$ 、 $T (x) = x$ 、 $A (λ) = λ$ 。確かに指数型分布族の形に書ける。

なぜ指数型分布族が大切か

十分統計量がきれいに見える: $T (x)$ がそのまま十分統計量。
最尤推定がたいてい解析的に解ける: スコア方程式が線形に近い形になる。
共役事前分布が体系的に存在: ベイズ推論との相性も抜群。
漸近正規性などの一般定理が適用しやすい: 規則性の条件が自然と満たされる。

十分統計量

定義 ─ 十分統計量

統計量 $T (X)$ が母数 $θ$ の十分統計量であるとは、 $T (X) = t$ が与えられたときの $X$ の条件付き分布が $θ$ に依存しないこと。直感的に「 $T$ さえ知っていれば、 $X$ の細かい値はもう $θ$ について追加情報をもたない」。

フィッシャー・ネイマンの分解定理

定理 ─ 分解定理

$T (X)$ が $θ$ の十分統計量であるための必要十分条件は、同時密度が

$f (x; θ) = g (T (x); θ) h (x)$

の形に分解できること( $g$ は $T$ と $θ$ にだけ依存、 $h$ は $θ$ に依存しない)。

例題 1.2 ─ 正規分布の十分統計量

$X_{1}, \dots, X_{n} \sim iid N (μ, σ^{2})$ のとき、 $(μ, σ^{2})$ の十分統計量は?

解 : 同時密度の対数を取ると、 $μ$ と $σ^{2}$ への依存は $\sum X_{i}$ と $\sum X_{i}^{2}$ のみを通して入る。よって $(\sum X_{i}, \sum X_{i}^{2})$ あるいは同等に $(\overset{ˉ}{X}, \sum X_{i}^{2})$ が $(μ, σ^{2})$ の十分統計量。

完備十分統計量と UMVUE

定理 ─ レーマン・シェッフェの定理

$T$ が完備十分統計量で、 $\hat{θ} (T)$ が $θ$ の不偏推定量なら、 $\hat{θ} (T)$ は一様最小分散不偏推定量(UMVUE)である。

「ある条件のもとで、これがいちばんいい不偏推定量」と理論的に保証してくれる強力な定理。指数型分布族では完備十分統計量が自然と存在するため、UMVUE を体系的に構成できます。

ラオ・ブラックウェルの定理

定理 ─ ラオ・ブラックウェルの定理

$\hat{θ}$ が $θ$ の不偏推定量、 $T$ が十分統計量のとき、 $\tilde{θ} = E [\hat{θ} ∣ T]$ は不偏で、 $V [\tilde{θ}] \leq V [\hat{θ}]$ を満たす。

「不偏推定量を十分統計量で条件付ければ、必ず分散を下げる(または現状維持)」という、推定量改良の機械的な手順を与えます。完備性を加えれば、得られた $\tilde{θ}$ は UMVUE になる ─ レーマン・シェッフェへの架け橋です。

十分統計量とは『データの圧縮』

10 個の観測値 $X_{1}, \dots, X_{10}$ から $θ$ を推定するとき、十分統計量 $T (X)$ ─ たとえば平均 $\overset{ˉ}{X}$ ─ さえ知っていれば、元データに含まれる「 $θ$ についての情報」は失われない、というのが十分性の意味。これは情報理論の『無損失圧縮』に相当します。逆に、 $θ$ について余分な情報まで持つ統計量(例: $X_{1}$ そのまま)は分散が大きく、推定量として劣る ─ ラオ・ブラックウェルが保証するのは、この『冗長な情報を削れば必ず精度が上がる』という原理です。

ここまでが 1 級の理論の出発点。次節以降ではこの土台のうえに、最尤推定・漸近理論・尤度比検定といった「統計学を統計学たらしめる」道具立てを積み重ねていきます。

§1.2

最尤推定とフィッシャー情報量

前節で「いい不偏推定量(UMVUE)」を作る道具を学びました。本節は実務でも理論でも主役となる別系統の推定法 ─ 最尤推定(MLE) ─ と、その性能の限界を与えるフィッシャー情報量 / クラメル・ラオの下限を扱います。

尤度関数と最尤推定量

定義 ─ 尤度と最尤推定量

観測データ $X_{1}, \dots, X_{n} \sim iid f (x; θ)$ に対し、 $θ$ の関数として

$L (θ) = \prod_{i = 1}^{n} f (X_{i}; θ)$

を尤度関数という。 $L (θ)$ を最大にする $θ$ を最尤推定量(MLE)と呼び、 $\hat{θ}_{MLE}$ で表す。実用上は対数尤度 $ℓ (θ) = lo g L (θ) = \sum lo g f (X_{i}; θ)$ を最大化する。

「データを最も『もっともらしく』説明するパラメータを選ぶ」というシンプルな考え方。多くの分布で、 $\partial ℓ / \partial θ = 0$ (スコア方程式)を解くだけで $\hat{θ}_{MLE}$ が求まります。

図: ベルヌーイ尤度 $L(\theta) \propto \theta^k (1-\theta)^{n-k}$($n=10, k=7$)。MLE は山頂で $\hat\theta = 0.7$

尤度の山と推定量の精度

尤度関数の山が「とがっている」ほど、観測データは $θ$ について多くの情報を持っています(=フィッシャー情報量が大きい=分散が小さい)。逆に山がなだらかだと、複数の $θ$ が同程度にデータを説明でき、推定は不安定になります。MLE が最大化問題で求まる事実と、CRLB の下限が情報量で決まる事実は、この『山の鋭さ』という同一の幾何学から出てくるのです。

例題 1.3 ─ 正規分布の MLE

$X_{1}, \dots, X_{n} \sim iid N (μ, σ^{2})$ のとき、 $(μ, σ^{2})$ の MLE を求めよ。

解 : 対数尤度を $μ, σ^{2}$ で微分してゼロとおくと、 $\overset{μ}{^} = \overset{ˉ}{X}$ 、 $\overset{σ}{^}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$ 。 $\overset{σ}{^}^{2}$ は $n - 1$ ではなく $n$ で割る(MLE は不偏ではない例)。

スコア関数とフィッシャー情報量

定義 ─ スコアとフィッシャー情報量

1 観測あたりのスコア関数 $U (θ) = \frac{\partial}{\partial θ} lo g f (X; θ)$ 。

フィッシャー情報量

$I (θ) = E [U (θ)^{2}] = - E [\frac{\partial ^{2}}{\partial θ ^{2}} lo g f (X; θ)]$

( $n$ 観測なら $n I (θ)$ 、独立なので情報は加法的)。

フィッシャー情報量は、文字どおり「データが $θ$ について持っている情報の量」。情報量が大きいほど $θ$ を精密に推定できる、という直感どおりの量です。

クラメル・ラオの下限

定理 ─ クラメル・ラオの下限

正則条件のもとで、任意の不偏推定量 $\hat{θ}$ について

$V [\hat{θ}] \geq \frac{1}{n I ( θ )}$

が成り立つ。等号を達成する不偏推定量は有効推定量と呼ばれる。

つまり、不偏推定量の精度には絶対的な「下限」があり、それより精密な不偏推定量は存在しない、ということ。指数型分布族の十分統計量から作る不偏推定量は、しばしばこの下限を達成します。

MLE の性質(規則条件下)

定理 ─ MLE の漸近性質

1. 一致性: $\hat{θ}_{MLE} p θ_{0}$ ( $n \to \infty$ で真値に確率収束)。

2. 漸近正規性: $n (\hat{θ}_{MLE} - θ_{0}) d N (0, I (θ_{0})^{- 1})$

3. 漸近有効性: 漸近的にクラメル・ラオの下限を達成する。

「サンプルが十分大きければ、MLE は『考えうる中で最も精度の良い』不偏推定量に収束していく」 ─ これが MLE の理論的優位性です。実務でも、特に理由がなければまず MLE を試す、というのが定石。

最尤法の弱点

有限標本では不偏でない: 例 1.3 の $\overset{σ}{^}^{2}$ のように、バイアスを持つことがある。
規則条件が必要: 一様分布 $U (0, θ)$ など、台がパラメータに依存する分布(非正則族)では性質が崩れる。
閉じた解がない場合がある: ロジスティック回帰など、数値計算が必要。
MAP 推定との関係: 事前分布が一様なベイズ MAP = MLE。事前分布を入れることで正則化付き MLE になる。

§1.3

漸近理論 ─ デルタ法とスラツキー

前節で「MLE は漸近的に正規分布」「分散はフィッシャー情報量の逆数」までを学びました。本節では、その漸近正規性を変換した量にも持ち越したいときに使う、デルタ法とスラツキーの定理を扱います。1 級でも準1級でも、計算問題で頻出する道具です。

確率収束と分布収束(復習)

$X_{n} p c$ (確率収束): 任意の $ε > 0$ に対し $P (∣ X_{n} - c ∣ > ε) \to 0$ 。
$X_{n} d X$ (分布収束): $X_{n}$ の累積分布関数が $X$ の累積分布関数の連続点で各点収束。

スラツキーの定理

定理 ─ スラツキー(Slutsky)

$X_{n} d X$ 、 $Y_{n} p c$ (定数)のとき、

$X_{n} + Y_{n} d X + c, X_{n} Y_{n} d c X, X_{n} / Y_{n} d X / c$ ( $c \neq = 0$ )。

「分布収束する量と、確率収束する定数を足したり掛けたりしても、分布収束は保たれる」。 $σ$ を $\overset{σ}{^}$ で置き換えても漸近分布が同じ、と言いたいときに頻出します。

応用例 ─ t 統計量の漸近分布

$n (\overset{ˉ}{X} - μ) / σ d N (0, 1)$ 、 $\overset{σ}{^} / σ p 1$ 。スラツキーの定理より、 $n (\overset{ˉ}{X} - μ) / \overset{σ}{^} d N (0, 1)$ 。「 $σ$ を $\overset{σ}{^}$ で置き換えても漸近分布は変わらない」ことが、これで理論的に正当化される。

デルタ法

定理 ─ デルタ法

$n (\hat{θ} - θ) d N (0, σ^{2})$ 、 $g$ が $θ$ で微分可能で $g^{'} (θ) \neq = 0$ のとき、

$n (g (\hat{θ}) - g (θ)) d N (0, g^{'} (θ)^{2} σ^{2})$

「推定量を変換しても、漸近正規性は保たれる(分散は微分の 2 乗倍)」というシンプルかつ強力な道具。導出はテイラー展開 $g (\hat{θ}) \approx g (θ) + g^{'} (θ) (\hat{θ} - θ)$ から一発です。

漸近理論は『大きな $n$ での万能カード』

1 級の漸近理論(CLT・スラツキー・デルタ法)は、まとめると『標本サイズが大きい極限では、ほとんどの統計量は正規分布で扱える』という強い主張になります。複雑な分布を持つ統計量も、 $n \to \infty$ で正規に収束する ─ だから検定でも区間推定でも、 $n$ さえ大きければ正規分布の道具(z 表)で済んでしまう。これが推定・検定の理論が『正規分布中心』に組み立てられている理由です。

例題 1.4 ─ ロジット変換の漸近分散

$n (\overset{p}{^} - p) d N (0, p (1 - p))$ のとき、ロジット $g (p) = lo g (p / (1 - p))$ の漸近分散を求めよ。

解 : $g^{'} (p) = 1/ (p (1 - p))$ 。デルタ法より

$n (g (\overset{p}{^}) - g (p)) d N (0, \frac{1}{p ( 1 - p )})$

したがって $\overset{g}{^}$ の分散は約 $\frac{1}{n p ( 1 - p )}$ 。

応用 ─ 信頼区間の作り直し

デルタ法のもう一つの大事な使いみち: 元の母数の信頼区間が出ているとき、それを変換した量(オッズ比、寿命の対数、など)の信頼区間を導く ─ ような操作。「 $θ$ の区間」から「 $g (θ)$ の区間」に翻訳する、と覚えると応用範囲が見えてきます。

次章では、これらの漸近理論を仮説検定の文脈で使い、1 級の主役 ─ 尤度比検定・ワルド検定・スコア検定の三者 ─ をまとめて統一的に扱います。

Chapter 2

第 2 章 · 仮説検定の理論

§2.1

ネイマン・ピアソンの補題

「ある有意水準 $α$ のもとで、もっとも検出力の高い検定はどれか?」 ─ 仮説検定理論のもっとも基本的な問いに、明快な答えを与えるのがネイマン・ピアソン(NP)の補題です。1 級では理論的な背景として頻出。

用語の整理

単純仮説: 母数の値が一意に決まっている仮説(例: $θ = θ_{0}$ )。
複合仮説: 母数が範囲で指定される仮説(例: $θ > θ_{0}$ )。
有意水準 $α$ : 第 1 種の誤り(真の $H_{0}$ を棄却)の確率の上限。
検出力 $1 - β$ : 真の $H_{1}$ のもとで $H_{0}$ を正しく棄却する確率。
最強力検定(MP test): 与えられた $α$ のもとで、検出力が最大の検定。

ネイマン・ピアソンの補題

定理 ─ ネイマン・ピアソン

単純仮説 $H_{0} : θ = θ_{0}$ vs 単純仮説 $H_{1} : θ = θ_{1}$ の検定について、有意水準 $α$ の最強力検定は、尤度比 $Λ (x) = \frac{L ( θ _{0} ; x )}{L ( θ _{1} ; x )}$ を用いた次の検定:

$Λ (x) \leq c ⟹ H_{0} を棄却$

( $c$ は有意水準 $α$ になるよう選ぶ)。

「尤度比が小さい( $H_{0}$ よりも $H_{1}$ のほうが今のデータをよく説明する)ときに $H_{0}$ を棄却する」 ─ 直感的にも納得のいく構造で、これが理論的に「ある $α$ のもとでの最強力」と保証されているのが NP 補題のすごみです。

なぜ尤度比が最強なのか

$α$ という『誤って棄却する確率』の予算は固定されています。その限られた予算の中で、 $H_{1}$ が真のときの棄却確率(=検出力)を最大化したい ─ それは「 $H_{0}$ より $H_{1}$ のほうがありそう」と最も強く言えるデータの組合せに棄却域を割り振るのが最適、という単純な最適化の結論です。尤度比はその『どちらがより説明的か』の比較尺度そのものなので、自然に最強力になる、と読むのがいちばん腑に落ちます。

例題 2.1 ─ 正規分布の片側検定

$X_{1}, \dots, X_{n} \sim iid N (μ, 1)$ について、 $H_{0} : μ = 0$ vs $H_{1} : μ = 1$ の最強力検定を導け。

解 : 尤度比を計算すると $Λ (x) = exp (- n \overset{x}{ˉ} + n /2)$ 。これが $c$ 以下 ⟺ $\overset{x}{ˉ} \geq c^{'}$ となる(単調変換)。よって最強力検定は「 $\overset{ˉ}{X}$ がある閾値 $c^{'}$ 以上なら棄却」 ─ ふだんの z 検定と一致する。

複合仮説への拡張

実際の検定では「 $θ > θ_{0}$ 」のような複合仮説を扱うことがほとんど。NP 補題は単純仮説どうしの結果ですが、単調尤度比族(monotone likelihood ratio family)に属する分布族では、片側複合仮説に対しても一様最強力検定(UMP test)が NP 補題から構成できます。指数型分布族の多くがこの族に属し、教科書的な検定(z 検定・t 検定の片側版など)が最適性を持つことの根拠になっています。

両側複合仮説の難しさ

一方、 $H_{0} : θ = θ_{0}$ vs $H_{1} : θ \neq = θ_{0}$ のような両側仮説では、一般に UMP 検定は存在しません。「右側に外れたとき」と「左側に外れたとき」で最強力検定の形が異なるため、両方を同時に最強力にすることができないのです。代わりに、不偏性などの追加条件をつけて「不偏 UMP 検定」を構成する、というのが教科書的な解決策。

次節で扱う尤度比検定(複合仮説でも使える)は、この困難への一般的な対処法です。

§2.2

尤度比・ワルド・スコア検定

1 級でもっともよく登場する検定の枠組みが、本節で扱う 3 兄弟 ─ 尤度比検定・ワルド検定・スコア検定です。漸近的にはこれら 3 者は等価ですが、それぞれ違う計算上の特性を持つため、状況に応じて使い分けます。

3 種類の検定統計量

$H_{0} : θ = θ_{0}$ vs $H_{1} : θ \neq = θ_{0}$ を考える。3 つの検定はいずれも、 $H_{0}$ のもとで漸近的に自由度 $r$ のカイ二乗分布( $r$ は制約の次元)に従います。

1. 尤度比検定(Likelihood Ratio Test)

$Λ = \frac{sup _{θ \in Θ_{0}} L ( θ )}{sup _{θ \in Θ} L ( θ )}$ とおき、 $- 2 lo g Λ d χ^{2} (r)$ (ウィルクスの定理)。

2. ワルド検定(Wald Test)

MLE $\hat{θ}$ の漸近正規性を使って、 $W = (\hat{θ} - θ_{0})^{⊤} I (\hat{θ}) (\hat{θ} - θ_{0}) d χ^{2} (r)$ 。

3. スコア検定(Rao の Score Test)

$H_{0}$ のもとでのスコア関数を使って、 $S = U (θ_{0})^{⊤} I (θ_{0})^{- 1} U (θ_{0}) d χ^{2} (r)$ 。

3 兄弟の使い分け

尤度比検定: 制約付き / 制約なしの両方の MLE を求める必要がある。最も理論的に扱いやすく、ウィルクスの定理で安定して使える。
ワルド検定: 制約なしの MLE $\hat{θ}$ だけ計算すればよい。実装が楽で、回帰係数の有意性検定などで実務に多用される(回帰出力の z 値・t 値はこれ)。
スコア検定: $H_{0}$ のもとでの値だけ計算すればよい。MLE の数値計算が困難なとき(ロジスティック回帰の収束しない例など)でも検定が可能。

漸近的等価性

$n$ が十分大きいとき、3 つの統計量は漸近的に同じ値を取り、同じ判定を下します。「どれを使ってもいい」場面では、計算しやすいものを選べばよい、というのが結論。実務では、線形モデルの係数検定 → ワルド、入れ子モデルの比較 → 尤度比、収束しないモデル → スコア、と使い分けるのが定石です。

3 兄弟の幾何学的解釈

対数尤度 $ℓ (θ)$ を頂上 $\hat{θ}$ をもつ山として描くと、3 検定はそれぞれ違う場所を測っています。尤度比は『山頂と $θ_{0}$ での標高差』、ワルドは『山頂と $θ_{0}$ の水平距離(を分散で正規化)』、スコアは『 $θ_{0}$ での斜面の急さ』。3 つとも山頂が $θ_{0}$ に近いほど 0 に近づき、遠いほど大きくなるので、結局『山頂は $θ_{0}$ から遠い?』を別の尺度で測っているだけ ─ だから漸近的には同じ判断になるのです。

発展 ─ 一般化線形モデルでの検定

ロジスティック回帰やポアソン回帰のような一般化線形モデル(GLM)では、これら 3 つの検定がそれぞれ別の用途で日常的に使われています。

個別の係数の有意性: ワルド検定(回帰出力に直接表示される z / t 値)。
ネストしたモデルの比較: 尤度比検定(deviance の差で計算される)。
収束に問題があるモデル: スコア検定や Firth の補正など。

次章では、こうした「最尤推定が必要だが解析的に解けない」状況で活躍する計算統計学の道具 ─ EM アルゴリズム・MCMC ・ブートストラップ ─ を扱います。

Chapter 3

第 3 章 · 計算統計学

§3.1

EM アルゴリズム

「データの一部しか観測できない」「観測できないグループ分けがある」 ─ 統計学では、こうした 潜在変数モデル が頻出します。混合分布、隠れマルコフモデル、欠測データ補完など。これらの最尤推定を、巧妙な反復計算で解くのが本節の主役、EM アルゴリズム(Expectation-Maximization)です。

潜在変数モデルの困難さ

観測データを $X$ 、観測できない潜在変数を $Z$ とすると、観測データの尤度は $L (θ; X) = \sum_{Z} L (θ; X, Z)$ (連続なら積分) の形になり、和(積分)を含むため対数を取っても扱いづらい ─ これが直接最尤推定を難しくする理由。

EM アルゴリズム

アルゴリズム ─ EM

現在のパラメータ推定値を $θ^{(t)}$ とする。

E ステップ: 完全データ対数尤度の条件付き期待値を計算する: $Q (θ ∣ θ^{(t)}) = E_{Z ∣ X, θ^{(t)}} [lo g L (θ; X, Z)]$

M ステップ: $Q$ を $θ$ について最大化: $θ^{(t + 1)} = ar g max_{θ} Q (θ ∣ θ^{(t)})$

収束まで E と M を繰り返す。

重要な性質

定理 ─ EM の単調性

EM アルゴリズムの各ステップで、観測データの対数尤度は必ず非減少:

$lo g L (θ^{(t + 1)}; X) \geq lo g L (θ^{(t)}; X)$

つまり「悪化することがない」のが EM の保証。ただし大域最適に収束するわけではなく、初期値次第で局所最適にハマることがあります。実務では複数の初期値から走らせて、もっとも尤度が大きい解を採用する、という流儀が一般的。

代表的な応用例

ガウス混合モデル(GMM): $K$ 個の正規分布の混合で、各データがどの成分から来たかを潜在変数 $Z_{i}$ とする。クラスタリングの定番手法 k-means の確率版。
欠測データの補完: $X$ の一部が欠測の場合、その欠測値を潜在変数とみなして EM を回す。
隠れマルコフモデル(HMM): 観測される系列の背後に「隠れた状態列」を仮定し、Baum-Welch アルゴリズム(EM の特殊化)で推定。音声認識・自然言語処理で活躍。
因子分析: 観測変数の背後に少数の因子を仮定するモデル。

理論的な見方

EM は実は「下界(lower bound)を最大化する反復」と見ることができ、変分推論やベイズ拡張(変分 EM、ベイジアン EM)へと自然に発展します。1 級ではここまでは問われませんが、データサイエンスの実務では知っておくと役立つ視点。

EM は『鶏と卵』を順番に解くアルゴリズム

潜在変数 $Z$ がわかれば $θ$ の最尤推定はやさしい。逆に $θ$ がわかれば $Z$ の事後確率もやさしい。でも両方未知だから困る ─ それが潜在変数問題です。EM はこの『鶏と卵』を交互に解きます: $θ$ を仮置き → $Z$ の期待値を計算(E ステップ) → それを使って $θ$ を更新(M ステップ) → 繰り返し。両方が同時に良くなっていく、という巧妙な分割統治の発想です。

§3.2

MCMC とブートストラップ

現代統計学の最後の柱は、コンピュータの力を借りるシミュレーション系の手法です。本節ではベイズ推論の主役 MCMC と、ノンパラメトリックな推測の定番ブートストラップを扱います。

MCMC ─ サンプリングで事後分布を近似する

ベイズ推論で事後分布 $π (θ ∣ D)$ から直接サンプリングできれば、平均・分散・分位点が全部計算できます。しかし複雑なモデルでは閉じた形では書けない。そこで登場するのが MCMC(Markov Chain Monte Carlo) ─ 「目的の分布に収束するマルコフ連鎖を構成して、その軌跡を疑似サンプルとして使う」という発想です。

メトロポリス・ヘイスティングス法

アルゴリズム ─ メトロポリス・ヘイスティングス

目標分布 $π (θ)$ から(近似的に)サンプリングする手順:

1. 提案分布 $q (θ^{'} ∣ θ)$ から候補 $θ^{'}$ を生成。

2. 受理確率を計算: $α (θ, θ^{'}) = min (1, \frac{π ( θ ^{'} ) q ( θ ∣ θ ^{'} )}{π ( θ ) q ( θ ^{'} ∣ θ )})$

3. 確率 $α$ で $θ^{'}$ を採用、 $1 - α$ で $θ$ を維持。

受理確率の比に事後分布の値だけが現れる(規格化定数 $p (D)$ がいらない!)のが MH のすごみ。「ベイズの分母が計算できないから困る」問題を、見事に回避します。

ギブスサンプリング

アルゴリズム ─ ギブスサンプリング

多次元の $θ = (θ_{1}, \dots, θ_{p})$ について、各成分の条件付き分布 $π (θ_{j} ∣ θ_{- j}, D)$ から順にサンプリングを繰り返す。共役分布が使えるモデルでは、各条件付き分布が閉じた形で書けるため非常に効率的。

実用上のチェック項目

バーンイン期間: 初期値の影響を取り除くため、最初の数千サンプルは捨てる。
収束診断: 複数チェーンを走らせて、Gelman-Rubin の R-hat 統計量が 1 に近いか確認。
自己相関: MCMC サンプルは独立ではないので、有効サンプルサイズ ESS を見る。
現代の実装: Stan、PyMC、NumPyro などのモダンな確率的プログラミング言語が、これらをほぼ自動でやってくれる。

図: MCMC のトレースプロット。異なる初期値からの 2 連鎖が同じ分布(平均 1)に収束

MCMC の収束を『目で見る』

図のように 複数のチェーンを別々の初期値から走らせ、トレースプロットで同じ場所に集まるか を確認するのが収束診断の基本。最初の方(burn-in)は初期値に引きずられているので捨てる。両チェーンが重なり合って同じ分布をなぞっていれば、目標分布からのサンプルとみなしてよい ─ という素朴で強力な確認法です。R-hat が 1.1 未満、有効サンプルサイズが数百以上が実用的な目安。

実務での使い方:ベイズ A/B テスト

Web の A/B テストを ベイズ流 にやると、頻度主義の p 値ではなく『B 案のほうが優れている確率』を直接出力できます。これは事後分布の値を MCMC でサンプリングして数えるだけなので、「B 案が勝つ確率は 92%」のような ビジネスサイドが理解しやすい結論 が得られます。Lyft・Microsoft・Stitch Fix など多くのテック企業が、この『ベイズ A/B テスト』を本格採用しています。

ブートストラップ ─ リサンプリングで推定量の分布を見る

アルゴリズム ─ ノンパラメトリック・ブートストラップ

観測標本 $X = (X_{1}, \dots, X_{n})$ から、復元抽出で同じサイズ $n$ の擬似標本 $X^{* (b)}$ を $B$ 個作る( $b = 1, \dots, B$ )。各擬似標本から推定量 $\hat{θ}^{* (b)}$ を計算し、その経験分布を $\hat{θ}$ の標本分布の近似として使う。

「真の母集団分布の代わりに、観測データそのものを母集団とみなしてリサンプリング」という大胆な発想。複雑な推定量(中央値、相関係数、機械学習モデルの予測精度など)に対しても標準誤差や信頼区間が計算できる、という強力な汎用性が魅力。 $B$ は通常 $1000$ 〜 $10000$ 程度。

実務での使い方:機械学習モデルの精度評価

「このモデルの精度 78% って、どれくらい信頼できるの?」を答える定番手法がブートストラップです。テストデータからリサンプリングして 1000 回精度を計算 → その分布の 2.5%/97.5% パーセンタイルを取れば、`78% [73%, 82%]` のような信頼区間付きで報告できます。サンプル数が小さい医療系・希少疾患の分析では特に重宝。Python の scikit-learn にも `bootstrap` ユーティリティが組み込まれています。

Python / R でブートストラップ信頼区間を求める

import numpy as np

rng = np.random.default_rng(42)
data = np.array([4.2, 5.1, 3.8, 6.0, 4.7, 5.5, 4.0, 5.8, 4.4, 5.2])

# 中央値の 95% ブートストラップ信頼区間
B = 10000
n = len(data)
medians = np.array([
    np.median(rng.choice(data, size=n, replace=True))
    for _ in range(B)
])
lo, hi = np.percentile(medians, [2.5, 97.5])
print(f"中央値 95% CI: [{lo:.3f}, {hi:.3f}]")

boot パッケージは BCa(バイアス補正)を含む高度な区間も簡単に。

ブートストラップ信頼区間の作り方

百分位法: $\hat{θ}^{* (b)}$ の経験分布の 2.5 / 97.5 パーセンタイルを区間端点とする。
ブートストラップ-t 法: より精度の高い区間。t 統計量に類似のピボット量を使う。
バイアス補正(BCa)法: バイアスと加速度を補正した、漸近的に正確な区間。

総まとめ

ここまで、1 級の主要範囲 ─ 推定理論(指数型分布族、十分統計量、MLE、漸近理論)・検定理論(NP 補題、尤度比・ワルド・スコア検定)・計算統計学(EM、MCMC、ブートストラップ) ─ を駆け足で見てきました。これらは現代統計学のあらゆる手法の土台になる、まさに「数理統計学の核」です。

次章以降では、これらの基盤の上で 確率過程・多変量解析の理論・応用統計 という、1 級でさらに問われる発展領域へと踏み込みます。

Chapter 4

第 4 章 · 確率過程

§4.1

マルコフ連鎖

マルコフ連鎖 は、時間と状態が離散の確率過程で、『次の状態は現在の状態だけで決まり、過去には依存しない(マルコフ性)』という性質を持ちます。MCMC・隠れマルコフモデル・確率モデルの基礎理論として 1 級でも頻出。

マルコフ性と推移確率

定義 ─ マルコフ性

状態空間 $S$ 上の確率過程 ${X_{n}}$ について、すべての $n$ と $i_{0}, \dots, i_{n}, j \in S$ に対し

$P (X_{n + 1} = j ∣ X_{n} = i_{n}, \dots, X_{0} = i_{0}) = P (X_{n + 1} = j ∣ X_{n} = i_{n})$

が成り立つとき、 ${X_{n}}$ をマルコフ連鎖という。 $P (X_{n + 1} = j ∣ X_{n} = i) = p_{ij}$ を 推移確率 といい、 $p_{ij}$ を並べた行列 $P$ を推移行列という。

$n$ ステップ後の推移確率は、推移行列の $n$ 乗 $P^{n}$ の $(i, j)$ 成分。これがマルコフ連鎖の解析を 線形代数 に帰着させる強力な性質です。

定常分布と既約性・非周期性

定義 ─ 定常分布

確率分布 $π$ がマルコフ連鎖の 定常分布 であるとは、 $π^{⊤} P = π^{⊤}$ を満たすこと(つまり推移を 1 ステップ進めても分布が変わらない)。

既約(任意の状態から任意の状態に到達可能)で 非周期的 な有限マルコフ連鎖は、初期分布によらず一意の定常分布に収束する(エルゴード定理)。これが MCMC の理論的基盤です。

MCMC との繋がり

1 級第 3 章で扱った MCMC は、まさに 目標とする事後分布を定常分布に持つようなマルコフ連鎖を意図的に構成し、そこから繰り返しサンプリング する手法です。エルゴード定理が、長く走らせれば事後分布のサンプルが得られることを保証してくれる ─ MCMC が動く理論的根拠は、このマルコフ連鎖の収束理論にあります。

§4.2

ポアソン過程

ポアソン過程 は、時間連続・離散イベントの最も基本的な確率過程。電話の着信・地震の発生・Web ページのアクセス ─ 『ランダムなタイミングで起きる稀なイベント』を理想化したモデルです。

定義

定義 ─ 強度 $\lambda$ のポアソン過程

${N (t), t \geq 0}$ が以下を満たすとき、強度 $λ$ のポアソン過程という:

1. $N (0) = 0$ 2. 独立増分: 重ならない時区間でのイベント数は独立 3. 定常増分: 区間 $(s, t]$ でのイベント数は $Po (λ (t - s))$ に従う

重要な性質

期待値: $E [N (t)] = λ t$ ─ 平均すると単位時間あたり $λ$ 回
事象間隔: 隣接事象間の時間 $T$ は 指数分布 $Exp (λ)$ に従う(無記憶性)
$n$ 番目の事象時刻: $Gamma (n, λ)$ に従う
重ね合わせ: 独立な強度 $λ_{1}, λ_{2}$ のポアソン過程の合成は強度 $λ_{1} + λ_{2}$ のポアソン過程

ポアソン過程は『最大限ランダム』

『独立増分』+『定常増分』+『1 つのイベントが 1 瞬間にのみ起きる』という最低限の条件を課すと、必然的にポアソン過程になる ─ という意味で『もっとも構造のないランダムなイベント発生』を表します。だから現実の現象が一見ポアソンに従うことが多いのは『何か特別な構造がない』ことの現れと解釈できる。

発展 ─ 非定常ポアソン過程

強度 $λ$ が時間に依存する( $λ (t)$ )場合を非定常ポアソン過程という。Web サイトのアクセスは平日昼間に多く深夜に少ないので、 $λ (t)$ が時間変動するモデルが自然。応用統計では非定常ポアソンが標準的に登場します。

§4.3

ブラウン運動の入り口

ブラウン運動(Wiener 過程) は、時間連続・状態連続の確率過程。物理学で粒子のランダムな運動を記述したのが起源で、現代の金融工学(株価モデル)・確率微分方程式の中核を担っています。1 級では概念的な紹介にとどまります。

ブラウン運動の特徴付け

定義 ─ 標準ブラウン運動 $W(t)$

1. $W (0) = 0$ 2. 独立増分: 重ならない区間の増分は独立 3. 正規増分: $W (t) - W (s) \sim N (0, t - s)$ 4. 連続なパス: $t \mapsto W (t)$ は連続関数(ほぼ確実に)

図: ランダムウォークの 3 サンプルパス。ブラウン運動はこれを連続化した極限

ブラウン運動はランダムウォークの極限

離散ランダムウォーク(各ステップで ±1 の動きをする粒子)を、ステップ幅を細かく・時間刻みを小さくしていくと、極限としてブラウン運動 に収束します(Donsker の定理)。だから図のランダムウォークの形そのものが、ブラウン運動の素朴な近似です。中心極限定理の連続版とも見なせます。

応用 ─ 金融工学

株価 $S (t)$ を 幾何ブラウン運動 $d S = μ S d t + σ S d W$ でモデル化するのが Black-Scholes モデルの出発点。オプション価格の理論はブラウン運動から導かれます。

実務での使い方:オプション価格と保険数理

金融機関のクオンツ部門・保険会社のアクチュアリー は、ブラウン運動・確率微分方程式を業務道具として使います。デリバティブ価格付け・リスク管理・年金財政シミュレーションなど。1 級レベルの確率過程は、これらの専門職への入口の知識でもあります。

Chapter 5

第 5 章 · 多変量解析の理論

§5.1

PCA の固有値分解的扱い

準1級では PCA を『分散最大方向』として導入しました。1 級では、これを 共分散行列の固有値分解 として正面から扱い、最適性を証明できるレベルまで深めます。

最適化問題としての PCA

定理 ─ PCA の最適化と固有値分解の同値性

$p$ 次元データの共分散行列を $Σ$ (実対称・正値)とし、 $Σ = V Λ V^{⊤}$ をスペクトル分解(固有値 $λ_{1} \geq \dots \geq λ_{p} \geq 0$ 、固有ベクトル $v_{1}, \dots, v_{p}$ は正規直交)とする。

問題: $max_{∥ w ∥ = 1} w^{⊤} Σ w$

最適解は $w^{*} = v_{1}$ 、最大値は $λ_{1}$ 。

ラグランジュ未定乗数法で示せる: $L (w, μ) = w^{⊤} Σ w - μ (w^{⊤} w - 1)$ を $w$ で微分してゼロ → $Σ w = μ w$ → $w$ は固有ベクトルで $μ$ は固有値。最大値は最大固有値 $λ_{1}$ 。

PCA は『回転による座標変換』

固有値分解 $Σ = V Λ V^{⊤}$ は、行列 $Σ$ で表される線形変換が、新しい座標系 $V$ では 対角行列 $Λ$ (各軸方向に独立に伸縮)になることを意味します。データの座標を $x^{'} = V^{⊤} x$ と回転すると、変数間の相関が消えて、各成分は独立に扱える ─ これが PCA の幾何学的な美しさ、と数理統計学的な威力です。

次元削減の最適性

Eckart-Young の定理: $k$ 個の主成分による近似 $Σ \approx V_{k} Λ_{k} V_{k}^{⊤}$ は、Frobenius ノルムの意味で 最良の階数 $k$ 近似(打ち切り SVD と同等)。これが『PCA で次元削減すると情報損失が最小になる』ことの厳密な根拠です。

標本共分散行列の固有値分布

実データから計算した標本共分散 $\hat{Σ}$ の固有値は、真の固有値からどの程度ずれるか? 次元 $p$ が固定で標本サイズ $n \to \infty$ なら一致 しますが、 $p$ も大きいとき(高次元小標本)は、Marchenko-Pastur の法則 などで分布が記述されます。1 級でこのレベルまで問われることは少ないですが、現代の高次元統計学への入口として知っておくと視野が広がります。

§5.2

判別分析の最適性

Fisher の線形判別分析(LDA)は、準1級では『群間/群内分散の比を最大化』として導入しました。1 級では 正規分布の仮定下で誤分類率を最小化する分類器 として、最適性の意味を厳密に整理します。

ベイズ判別則

定理 ─ ベイズ最適判別

観測 $x$ に対する事後確率 $P (G_{k} ∣ x) \propto π_{k} f_{k} (x)$ を最大にする群 $k$ に分類するベイズ判別則は、誤分類率(0-1 損失の期待値)を最小化 する。

もし真の事前確率 $π_{k}$ と条件付き分布 $f_{k}$ が分かっていれば、ベイズ判別則がもっとも誤分類率の少ない分類器であることが証明できます。これが 理論的な最適分類器 です。

正規分布のもとでの LDA

$f_{k} (x) = N (μ_{k}, Σ)$ ( $Σ$ は群によらず共通)を仮定すると、ベイズ判別則は $x$ の線形関数 で表せ、Fisher の LDA と一致する。これが LDA の最適性の意味です。

LDA は『正規 + 等分散仮定』のもとでの最適分類器

実データで LDA を使うのは、暗黙のうちに『群が正規分布で、群によって平均は違うが分散は同じ』と仮定していることになります。この仮定が成り立てば LDA は最強。崩れていれば QDA(分散も群依存)・ロジスティック回帰・SVM・ランダムフォレストなどに切り替える ─ 仮定の確認が手法選択の核心です。

誤分類率の評価

理論的な誤分類率は マハラノビス距離 で書ける: 2 群の Mahalanobis 距離 $Δ = (μ_{1} - μ_{2})^{⊤} Σ^{- 1} (μ_{1} - μ_{2})$ が大きいほど誤分類率は小さい。実データではブートストラップや交差検証で誤分類率を推定することもできます。

Chapter 6

第 6 章 · 応用統計

§6.1

品質管理 ─ 管理図と工程能力

品質管理(SPC: Statistical Process Control) は、製造業の現場で工程の安定性・能力を統計的に監視する分野。1 級「統計応用」の理工分野で重要な選択トピックです。

管理図(Control Chart)

用語 ─ Shewhart の管理図

工程から定期的に標本を取り、統計量(平均・標準偏差・不良数など)を時系列で記録した図。中心線(CL)と上下管理限界線(UCL・LCL)を引き、点が範囲外に出たら『工程に異常がある』とアラート。

標準的な $\overset{ˉ}{X}$ 管理図: 中心 = $μ$ 、UCL/LCL = $μ \pm 3 σ / n$ ( $\pm 3 σ$ ルール)。

$\pm 3 σ$ は正規分布の 0.27% に相当。つまり管理状態にある工程では、点が外れるのは 1000 回に 3 回未満 ─ 外れたら『異常』と判断するのが妥当、という統計的根拠になっています。

管理図は『工程の脈拍計』

管理図の点が UCL/LCL 内で ランダムに 散らばっている状態が『健康な工程』。点が片側に偏る・連続して上昇/下降する・周期パターンを示す ─ こうした ランダムでない動き はすべて『工程に何か起きている』兆候。Western Electric ルール(8 つの異常パターン)で系統的に判定します。

工程能力指数 $C_p, C_{pk}$

定義 ─ 工程能力指数

規格上限 USL・規格下限 LSL のとき:

$C_{p} = \frac{USL - LSL}{6 σ}$ (中心が偏らない場合の能力)

$C_{p k} = min (\frac{USL - μ}{3 σ}, \frac{μ - LSL}{3 σ})$ (中心ずれを考慮)

$C_{p k} \geq 1.33$ : 工程能力は十分(製造業の標準的目標)
$C_{p k} \geq 1.67$ : 卓越した工程能力
$C_{p k} < 1.0$ : 工程改善が必要

実務での使い方:不良品 PPM とシックスシグマ

シックスシグマ運動(モトローラ・GE が広めた品質改革)では、 $\pm 6 σ$ の管理を目標 → 100 万個に 3.4 個の不良率 (PPM) を狙います。 $C_{p k} = 2.0$ の世界です。これを満たすために、工程設計の段階から実験計画法 + ANOVA + 管理図 を組み合わせるのが品質工学の中核ワークフロー。

§6.2

医薬統計 ─ 臨床試験と症例数設計

医薬統計 は新薬開発・臨床試験の設計と評価を扱う分野。1 級「統計応用」の医薬生物分野で重要な選択トピックで、規制当局(PMDA・FDA)向けの厳密な統計設計が求められます。

臨床試験のフェーズ

第 I 相: 安全性・薬物動態。少人数(20〜80 人)の健常者で実施。
第 II 相: 用量設定・有効性の予備的評価。100〜300 人の患者。
第 III 相: 既存薬との 比較対照試験。数百〜数千人の患者。承認の根拠となる。
第 IV 相: 市販後調査。長期安全性・希少副作用の検出。

ランダム化比較試験(RCT)

用語 ─ RCT(Randomized Controlled Trial)

被験者を 無作為に 介入群と対照群に割り付け、結果を比較する研究デザイン。ブラインド化(被験者・医師に割り付けを伏せる)を併用するのが標準。交絡を完全に除去できる唯一の方法 で、エビデンスの最高位。

新薬の有効性を統計的に主張するには、プラセボ対照(または既存薬対照)二重盲検 RCT が原則。これが Fisher の実験計画法の最も影響力のある応用です。

症例数設計

公式 ─ 平均差検定の症例数

2 群の平均差 $δ$ を有意水準 $α$ 、検出力 $1 - β$ で検出するために必要な 1 群あたりの症例数:

$n = \frac{2 ( z _{α /2} + z _{β} ) ^{2} σ ^{2}}{δ ^{2}}$

症例数設計は『臨床試験の事前計画の核心』

症例数が少なすぎれば本当に効果のある薬を『無効』と誤判定(検出力不足)、多すぎれば不必要な被験者を試験に晒すことになり倫理的問題。事前に効果量・分散・α・β を見積もり、必要十分な症例数を計算 ─ これが臨床試験プロトコルの最重要部分で、規制当局も詳細にチェックします。

中間解析と適応的試験

近年は 中間解析(試験途中でデータを見て早期中止を判断)・適応的デザイン(途中で割り付け比率を変える)などのモダンな設計が広がっています。中間解析を行う場合、多重比較の調整(O'Brien-Fleming 境界など) が必要 ─ これも 1 級で問われる発展トピック。

実務での使い方:アクチュアリー・PMDA キャリア

医薬統計の専門家(臨床統計家・バイオスタティスティシャン)は、製薬会社・CRO(治験受託機関)・PMDA(医薬品医療機器総合機構)で需要が高く、博士号 + 統計検定 1 級レベルの知識が標準的に求められます。世界的には FDA 認定の 規制統計家(Regulatory Biostatistician)というキャリアが確立しています。

ここまでで 1 級の主要範囲を一通り扱いました。推定理論・検定理論・計算統計・確率過程・多変量解析の理論・応用統計 ─ これらは数理統計学を実務に接続する道具立てそのものです。1 級の試験では、これらを 自分で式変形して導出する 力が問われます。本サイトで概念の地図を掴んだあとは、ぜひ正規の教科書(竹村『現代数理統計学』、稲垣『数理統計学』など)で詳細な証明を追ってみてください。それが本物の数理統計学の理解への王道です。

Recommended