2026-04-29·学習法·⏱ 約 4 分

p 値の誤解 5 選 ─ 仮説検定でやりがちな勘違いを正す

「p < 0.05 = 効果あり」と思っていませんか？統計検定や A/B テストで頻発する p 値の 5 つの誤解と、正しい解釈を整理します。

p 値は統計検定 2 級・実務 A/B テスト・科学論文ですべてに登場する基本概念です。しかし正しく理解されているかというと… 多くの実務家が日常的に誤用 しています。本記事では 5 つの代表的な誤解を、正しい解釈とセットで整理します。

❌ 『p = 0.03 だから帰無仮説が正しい確率は 3% だ』 ─ 違います。

✅ p 値は 帰無仮説 $H_{0}$ が正しいと仮定したとき、観測値以上に極端な結果が出る確率。条件付き確率 $P (data ∣ H_{0})$ であって $P (H_{0} ∣ data)$ ではありません。

💡 違いの直感

「雨が降ったとき濡れている確率」と「濡れているとき雨が降っていた確率」は別物。前者が p 値、後者がベイズの事後確率。

❌ p < 0.05 と p < 0.001 を見て、後者の方が効果が大きいと判断する ─ 違います。

✅ p 値は 効果の大きさ を表すものではなく、統計的に有意かどうか を判定する道具。サンプルサイズが大きければ、ごく小さい効果でも p < 0.001 になります。効果サイズ(Cohen's d, 相関係数, オッズ比)を必ず確認しましょう。

🛠 A/B テストでの罠

100 万ユーザーで CTR が 0.001% 改善 → p < 0.001 でも、ビジネスインパクトはほぼゼロ。逆に小規模実験で大きな効果でも p > 0.05 のまま埋もれることも。

❌ p = 0.06 だから無効、と判断 ─ 違います。

✅ p ≥ 0.05 は 効果なし ではなく、有意とは言えない(まだ判断できない)。サンプルが足りないだけかもしれません。信頼区間 を確認すると、ゼロを跨ぐ範囲が広いのか / 狭いのかが分かります。

❌ p = 0.0499 と p = 0.0501 で結論が真逆 ─ 違います。

✅ 5% は Fisher が便宜上設定した慣習。実務では:

❌ データを見ながら検定方法を変えたり、サンプルサイズを増やしたりする ─ 違います、最も危険な誤用です。

✅ 検定方法・サンプルサイズ・有意水準は データを見る前に決める。これを破ると、本来 5% であるはずの第 1 種の誤り率が 30% 以上に膨らむことが知られています(p ハッキング問題)。

p 値を正しく扱えるようになると、論文・ A/B テスト・ニュース記事の 読み方が変わります。AI エンジニアにとって必須リテラシーです。

本気で AI エンジニアを目指すなら ─ 関連スクール

以下は当サイトと提携しているスクールの紹介です。リンク経由でのお申込で運営費を支援できます（読者の皆様の追加負担はありません）。

未経験から正社員エンジニアへ。研修制度が手厚く、IT 業界未経験者でも安心してキャリアをスタート可能。AI エンジニア・データサイエンティストへの転職にも対応。

AI・データサイエンスを実践的に学べる IT 特化型の就労移行支援事業所。発達障害・精神障害をお持ちの方の IT・AI 業界への就労を専門スタッフがサポート。