2026-05-02·統計検定対策·⏱ 約 5 分

分散分析(ANOVA)の直感 ─ なぜ t 検定を3回やってはいけないのか

3 群以上の平均比較で多重比較問題を避けるための分散分析。F 統計量の意味、平方和の分解、Tukey HSD まで、2 級受験者向けに直感重視で解説。

「3 つの肥料 A, B, C で収穫量に差があるか?」「4 種類の広告でクリック率は違うか?」 ── このとき、ペアごとに t 検定を繰り返したくなりますが、それは やってはいけない 行為です。なぜでしょうか?

多重比較問題 ─ 検定を増やすほど「偶然の有意」が出る

$α = 0.05$ の検定を 1 回やれば、Type I エラー(本当は差がないのに棄却する)確率は 5% です。では 3 回やったら? 3 回すべて正しく非棄却する確率は $0.9 5^{3} \approx 0.857$ 。少なくとも 1 回誤って棄却する確率は $1 - 0.857 \approx 0.143$ 、つまり全体のエラー率は 約 14% に膨らみます。

1 - (1 - α)^{m} \approx m α (α が小さいとき)

「全体で 5% に抑える」を最初に考える

ANOVA の発想: いきなり個別ペアを見るのではなく、まず「全群が同じか?」を 1 回の検定で判定する。F 検定 1 つだけなら、全体のエラー率が 5% に抑えられる。有意なら次に個別比較に進む、という 2 段構え。

F 統計量 ─ 何の比なのか

ANOVA の F 統計量は「群間ばらつき(処理効果) / 群内ばらつき(誤差)」の比です:

F = \frac{S _{A} / ( g - 1 )}{S _{E} / ( n - g )}

$g$ 群、合計 $n$ 標本。群間ばらつきが群内ばらつきより大きければ大きいほど $F$ は大きくなります。 $H_{0} :$ 全群平均が等しい、のもとで $F \sim F_{g - 1, n - g}$ 。

「中の散らばり」と「外の散らばり」

$g$ 個のグループを箱に入れると考えます。各箱の中の散らばり(群内)と、箱同士の中央の散らばり(群間)。全部の箱の中央が揃っていれば、群間ばらつきは群内ばらつきと同程度(F ≈ 1)。逆に箱がバラバラに離れていれば、群間ばらつきが優勢(F が大)。これが ANOVA の核心です。

平方和の直交分解

全データのばらつき $S_{T} = \sum (X_{ij} - \overset{ˉ}{X}_{..})^{2}$ は、必ず以下のように分解されます:

S_{T} = S_{A} + S_{E}

$S_{A} = \sum_{i} n_{i} (\overset{ˉ}{X}_{i .} - \overset{ˉ}{X}_{..})^{2}$ ─ 群間平方和
$S_{E} = \sum_{i, j} (X_{ij} - \overset{ˉ}{X}_{i .})^{2}$ ─ 群内平方和(誤差)