統計ロードマップ
2026-04-29·学習法·⏱ 約 4

p 値の誤解 5 選 ─ 仮説検定でやりがちな勘違いを正す

「p < 0.05 = 効果あり」と思っていませんか?統計検定や A/B テストで頻発する p 値の 5 つの誤解と、正しい解釈を整理します。

p 値は統計検定 2 級・実務 A/B テスト・科学論文ですべてに登場する基本概念です。しかし正しく理解されているかというと… 多くの実務家が日常的に誤用 しています。本記事では 5 つの代表的な誤解を、正しい解釈とセットで整理します。

誤解 1 ─ 「p 値 = 仮説が正しい確率」

❌ 『p = 0.03 だから帰無仮説が正しい確率は 3% だ』 ─ 違います。

✅ p 値は 帰無仮説 が正しいと仮定したとき、観測値以上に極端な結果が出る確率。条件付き確率 であって ではありません。

💡 違いの直感

「雨が降ったとき濡れている確率」と「濡れているとき雨が降っていた確率」は別物。前者が p 値、後者がベイズの事後確率。

誤解 2 ─ 「p < 0.05 ならば効果が大きい」

❌ p < 0.05 と p < 0.001 を見て、後者の方が効果が大きいと判断する ─ 違います。

✅ p 値は 効果の大きさ を表すものではなく、統計的に有意かどうか を判定する道具。サンプルサイズが大きければ、ごく小さい効果でも p < 0.001 になります。効果サイズ(Cohen's d, 相関係数, オッズ比)を必ず確認しましょう。

🛠 A/B テストでの罠

100 万ユーザーで CTR が 0.001% 改善 → p < 0.001 でも、ビジネスインパクトはほぼゼロ。逆に小規模実験で大きな効果でも p > 0.05 のまま埋もれることも。

誤解 3 ─ 「p ≥ 0.05 なら効果はない」

❌ p = 0.06 だから無効、と判断 ─ 違います。

✅ p ≥ 0.05 は 効果なし ではなく、有意とは言えない(まだ判断できない)。サンプルが足りないだけかもしれません。信頼区間 を確認すると、ゼロを跨ぐ範囲が広いのか / 狭いのかが分かります。

誤解 4 ─ 「5% は厳格な閾値」

❌ p = 0.0499 と p = 0.0501 で結論が真逆 ─ 違います。

✅ 5% は Fisher が便宜上設定した慣習。実務では:

  • 医薬品 ・ 安全性: α = 0.01 や 0.001 を使う
  • 仮説生成段階の探索的解析: α = 0.10 でゆるく
  • 多重検定: Bonferroni 補正で α/k に下げる
  • 事前登録の臨床試験: α と検出力をプロトコルで先に固定

誤解 5 ─ 「p ハッキングは大丈夫」

❌ データを見ながら検定方法を変えたり、サンプルサイズを増やしたりする ─ 違います、最も危険な誤用です。

✅ 検定方法 ・ サンプルサイズ ・ 有意水準は データを見る前に決める。これを破ると、本来 5% であるはずの第 1 種の誤り率が 30% 以上に膨らむことが知られています(p ハッキング問題)。

正しい使い方の 5 原則

  1. 事前にプロトコルを書く(検定方法・α・サンプルサイズ)
  2. 効果サイズと信頼区間を必ず併記する
  3. 多重検定の補正(Bonferroni / FDR)を入れる
  4. 事前登録(プレレジスト)で結果報告バイアスを防ぐ
  5. ベイズアプローチも検討(事後確率の方が直感的な場合あり)

本サイトでの学習

  • [統計検定 2 級 教科書](/textbook/grade-2) ─ 仮説検定の基礎
  • [図解で学ぶ統計](/figures) ─ p 値の面積イメージ図
  • [統計計算ツール](/tools) ─ p 値計算機 ・ A/B テスト計算機
  • [2 級 演習問題](/quiz/grade-2) ─ 30 問以上の検定問題

p 値を正しく扱えるようになると、論文 ・ A/B テスト ・ ニュース記事の 読み方が変わります。AI エンジニアにとって必須リテラシーです。

Related Articles

関連記事