p 値の誤解 5 選 ─ 仮説検定でやりがちな勘違いを正す
「p < 0.05 = 効果あり」と思っていませんか?統計検定や A/B テストで頻発する p 値の 5 つの誤解と、正しい解釈を整理します。
p 値は統計検定 2 級・実務 A/B テスト・科学論文ですべてに登場する基本概念です。しかし正しく理解されているかというと… 多くの実務家が日常的に誤用 しています。本記事では 5 つの代表的な誤解を、正しい解釈とセットで整理します。
誤解 1 ─ 「p 値 = 仮説が正しい確率」
❌ 『p = 0.03 だから帰無仮説が正しい確率は 3% だ』 ─ 違います。
✅ p 値は 帰無仮説 が正しいと仮定したとき、観測値以上に極端な結果が出る確率。条件付き確率 であって ではありません。
「雨が降ったとき濡れている確率」と「濡れているとき雨が降っていた確率」は別物。前者が p 値、後者がベイズの事後確率。
誤解 2 ─ 「p < 0.05 ならば効果が大きい」
❌ p < 0.05 と p < 0.001 を見て、後者の方が効果が大きいと判断する ─ 違います。
✅ p 値は 効果の大きさ を表すものではなく、統計的に有意かどうか を判定する道具。サンプルサイズが大きければ、ごく小さい効果でも p < 0.001 になります。効果サイズ(Cohen's d, 相関係数, オッズ比)を必ず確認しましょう。
100 万ユーザーで CTR が 0.001% 改善 → p < 0.001 でも、ビジネスインパクトはほぼゼロ。逆に小規模実験で大きな効果でも p > 0.05 のまま埋もれることも。
誤解 3 ─ 「p ≥ 0.05 なら効果はない」
❌ p = 0.06 だから無効、と判断 ─ 違います。
✅ p ≥ 0.05 は 効果なし ではなく、有意とは言えない(まだ判断できない)。サンプルが足りないだけかもしれません。信頼区間 を確認すると、ゼロを跨ぐ範囲が広いのか / 狭いのかが分かります。
誤解 4 ─ 「5% は厳格な閾値」
❌ p = 0.0499 と p = 0.0501 で結論が真逆 ─ 違います。
✅ 5% は Fisher が便宜上設定した慣習。実務では:
- 医薬品 ・ 安全性: α = 0.01 や 0.001 を使う
- 仮説生成段階の探索的解析: α = 0.10 でゆるく
- 多重検定: Bonferroni 補正で α/k に下げる
- 事前登録の臨床試験: α と検出力をプロトコルで先に固定
誤解 5 ─ 「p ハッキングは大丈夫」
❌ データを見ながら検定方法を変えたり、サンプルサイズを増やしたりする ─ 違います、最も危険な誤用です。
✅ 検定方法 ・ サンプルサイズ ・ 有意水準は データを見る前に決める。これを破ると、本来 5% であるはずの第 1 種の誤り率が 30% 以上に膨らむことが知られています(p ハッキング問題)。
正しい使い方の 5 原則
- 事前にプロトコルを書く(検定方法・α・サンプルサイズ)
- 効果サイズと信頼区間を必ず併記する
- 多重検定の補正(Bonferroni / FDR)を入れる
- 事前登録(プレレジスト)で結果報告バイアスを防ぐ
- ベイズアプローチも検討(事後確率の方が直感的な場合あり)
本サイトでの学習
- [統計検定 2 級 教科書](/textbook/grade-2) ─ 仮説検定の基礎
- [図解で学ぶ統計](/figures) ─ p 値の面積イメージ図
- [統計計算ツール](/tools) ─ p 値計算機 ・ A/B テスト計算機
- [2 級 演習問題](/quiz/grade-2) ─ 30 問以上の検定問題
p 値を正しく扱えるようになると、論文 ・ A/B テスト ・ ニュース記事の 読み方が変わります。AI エンジニアにとって必須リテラシーです。
関連記事
- 2026-04-29学習法ベイズ統計と頻度論 ─ AIエンジニアはどちらを学ぶべき?頻度論とベイズの違いを実装視点で整理。それぞれが活きる場面と、本サイトでの学習順を提示します。
- 2026-04-29ロードマップAIエンジニアに必要な統計知識 完全チートシート機械学習を仕事で扱うエンジニアが『最低限おさえるべき統計』を 1 ページに圧縮。実装と直結する 12 トピックを優先度順に整理しました。
- 2026-04-29級選びG 検定 vs E 資格 ─ AI 検定はどちらを先に取るべき?JDLA の 2 大検定『G 検定』『E 資格』の違いを、目的・難易度・コスト・実務インパクトで徹底比較。AI エンジニア志望の最適な選択を提案します。