2級 教科書
2級は統計学の「実用パート」です。標本から母集団を推し量る推定、データに基づいて意思決定する仮説検定、変数間の関係を式にする回帰分析、3 群以上を比べる分散分析、頻度データを扱う分割表分析・ロジスティック回帰、ノンパラ検定・多変量解析・時系列・ベイズ統計の入口まで ─ 実務でいちばんよく使われる道具が **10 章**で揃います。3 級までで扱った確率・分布の知識を、いよいよ「現実のデータを動かす」ための武器として組み立て直します。
- 10 章
- 34 節
- ⏱ 約 84 分
- 約 41,982 字
目次
- 第 1 章 · 推定の基礎 ─ 標本から母集団へ標本から母集団のパラメータを推し量るための基本的な考え方と、不偏推定量・標準誤差・標本分布の概念を整理します。
- 第 2 章 · 仮説検定の枠組み2 級でいちばん問われる仮説検定。p 値・有意水準・第一種/第二種の誤りといった基本概念を整理します。
- 第 3 章 · 回帰分析2 変数のデータに直線をあてはめる単回帰、複数の説明変数を扱う重回帰の入口を扱います。
- 第 4 章 · 分散分析(ANOVA)3 群以上の平均を一度に比較する一元配置の分散分析(2級正式範囲)、および多重比較・二元配置(準1級発展内容)を扱います。
- 第 5 章 · 分割表分析とロジスティック回帰頻度データ・二値ラベルなどカテゴリデータの分析。独立性検定・オッズ比・マンテル-ヘンツェル法・ロジスティック回帰までを 4 節で扱います。
- 第 6 章 · ノンパラメトリック検定正規性が崩れたデータでの検定。Wilcoxon・Mann-Whitney・Kruskal-Wallis を 3 節で。
- 第 7 章 · 多変量解析の入門 ─ PCA と因子分析高次元データを低次元で要約する 2 大手法。PCA と因子分析の違いを 3 節で。
- 第 8 章 · 時系列分析の入口時系列データの基礎・自己相関・AR/MA/ARIMA モデルを 3 節で。準 1 級時系列章への橋渡し。
- 第 9 章 · ベイズ統計の入口頻度主義の対極、ベイズ統計の発想と実務的活用を 3 節で。準 1 級ベイズ章への橋渡し。
- 第 10 章 · 2 級総まとめと準 1 級への橋渡し2 級教科書 9 章の総括、よく使う公式の早見、準 1 級で広がる新世界の予告。
第 1 章 · 推定の基礎 ─ 標本から母集団へ
不偏推定量と標本分布
3 級で「標本平均は母平均の良い推定量」「標準誤差は 」と学びました。本節ではその「良い推定量」が満たすべき性質、特に不偏性を整理し、標本分散と不偏分散の違い、標本平均の標本分布をもう一段精密に扱います。
推定量と推定値
標本から母集団のパラメータ(母平均 、母分散 など)を計算する関数を推定量という。具体的な数値を入れたものを推定値と呼ぶ。
例: は推定量、ある標本での値 は推定値。
不偏性
推定量 が母パラメータ について
を満たすとき、 は の不偏推定量(unbiased estimator)であるという。
「平均的にはちょうど真の値を当てる」という性質。たくさんの標本を取って毎回 を計算すれば、その値の平均がちょうど真の になる、という意味です。
標本平均は不偏
母平均 の母集団から無作為に取った標本の標本平均 は、 の不偏推定量である:
証明は期待値の線型性から一発: 。
標本分散と不偏分散 ─ なぜ $n - 1$ で割るのか
標本のばらつきを測るとき、(標本分散)を使うと、実は母分散を過小評価してしまうことが知られています。なぜか?
理由は、平均が「真の母平均 」ではなく「標本から計算した 」になるから。 は標本に最もフィットする中心なので、各 から への偏差は への偏差より平均して小さくなり、その分だけばらつきが小さく見積もられてしまう。
を不偏分散という。 を満たし、母分散の不偏推定量となる。
ポイントは「分母が 」。これで過小評価ぶんが補正され、平均的にきっちり に当たります。実用統計ソフト(Excel・Python など)で「分散」と言うと、この不偏分散を返すものが多いので注意してください。
自由度 ─ なぜ $n - 1$?
は「自由度」と呼ばれます。 個の偏差 には「合計が必ず 」という制約が 1 つあるため、自由に動ける個数は実質 個。「情報量」が 1 つ減っているぶん、分母を 1 つ減らして補正している、と直感的に理解できます。
標本平均の標準誤差(再掲)
が独立同分布で母分散 のとき、
が未知のときは不偏分散の平方根 で代用し、 と推定します。この置き換えが、次節で登場する t 分布(母分散未知での母平均の推定・検定)につながります。
中心極限定理(精密版)
母平均 、母分散 の母集団から独立に取った標本 について、 が十分大きいとき
( で標準正規分布に収束する)。
母集団の分布が正規分布でなくても、 が十分大きければ標本平均は近似的に正規分布になる ─ という強力な定理。実務上の目安は です(母集団が偏っているときはもっと必要)。次節以降の信頼区間や検定が「正規分布で計算できる」のは、この定理のおかげです。
信頼区間 ─ 母分散が未知のとき(t 分布)
3 級で学んだ母平均の信頼区間 には、見落とせない前提がありました ─「母標準偏差 が既知」という仮定です。実務でデータを扱うとき、母分散が事前にわかっていることはまずありません。本節では、この現実的な状況で母平均の信頼区間を作る手順 ─ t 分布の出番 ─ を学びます。
$\sigma$ を $\hat{s}$ で置き換えるとどうなるか
ここまでの式の を不偏分散の平方根 で置き換えれば、 が未知でも信頼区間が作れそうな気がします。実際、 が十分大きければ で問題ありません。しかし が小さいときには、 自身が標本ごとに揺れるため、ぴったり では信頼度 95% を保てなくなります。
そこで「 ではなく で割った量がどんな分布に従うか」を考えると、それが t 分布 です。
t 分布
母集団が正規分布 に従うとき、標本平均 と不偏分散 から作る
は、自由度 の t 分布 に従う。
t 分布は標準正規分布と似た「左右対称の釣鐘型」ですが、裾(すそ)がやや厚いのが特徴。標本サイズが小さいほどその傾向が強く、 で標準正規分布 に収束していきます。「 がわからないぶんの不確かさ」が分布の裾の厚みに表れている、と覚えるとよいでしょう。
が既知なら分母は固定値ですが、未知のときは で代用するため、分母自身も標本ごとに揺れます。「分母が偶然小さく出る」と は偶然大きくなり、極端値が出やすくなる ─ それが裾の厚みの正体です。 が大きいと の揺れが小さくなるので、t は正規分布に近づきます。
母平均の 95% 信頼区間($\sigma$ 未知)
母集団が正規分布で母分散が未知のとき、母平均 の 95% 信頼区間は
ここで は自由度 の t 分布における上側 点。
正規母集団から の標本をとったところ、標本平均 、不偏分散 であった。母平均の 95% 信頼区間を求めよ。 とする。
解 : 標準誤差 。誤差幅 。区間は
。
$z$ と $t$ の使い分け
- 既知: を使う(標準正規分布)─ 教科書問題用、現実は稀。
- 未知 + 小: を使う( の自由度) ─ 主役。
- 未知 + 大( 目安): でも でもほぼ同じ。実務では大標本なら で済ませることも多い。
試験問題では 既知/未知をはっきり明示してくれます。「未知ですよ」と言われたら反射的に t 分布、と覚えれば迷いません。
母比率の信頼区間
「ある支持率は 35% プラスマイナス 3%」「製品の不良率は 2% 程度」 ─ 比率の推定は、世論調査・品質管理・マーケティング、いたるところで登場します。本節では母比率 の信頼区間の作り方を学びます。
標本比率と二項分布
母集団全体での「ある属性をもつ割合」を母比率 、ランダムに取った 個の標本でその属性をもつものの割合を標本比率 という( は属性をもつ個数)。
は二項分布 に従うので、、。これを で割った について、
は母比率 の不偏推定量、その標準誤差は 、と整理できます。
正規近似
が十分大きく、 かつ を満たすとき、
が成り立つ。すなわち 。
「ベルヌーイ試行を 回繰り返した平均」も中心極限定理で正規分布に近づく ─ という具体例が、まさにこの正規近似です。 が小さいときや が極端に や に近いときは近似が悪くなるので、目安として上の条件を満たすことを確認します。
母比率の 95% 信頼区間
が十分大きいとき、母比率 の 95% 信頼区間は
標準誤差の式に未知の が入ってしまっているので、ここでは を で代用しています。「 がそこそこ正確ならその近くで分散も近い値だろう」という近似です。
の世論調査である政策の支持者が 人だった。母比率(支持率) の 95% 信頼区間を求めよ。
解 : 。標準誤差 。誤差幅 。区間は 、つまり「支持率は 95% の信頼度で約 37〜43%」。
標本サイズはどれくらい必要?
ニュースでよく「世論調査 」「許容誤差 ±3%」と書いてあります。これは という計算から来ていて、 あたりでも誤差約 3% に収まる、ということ。「許容誤差」を半分の 1.5% にしたければ は 4 倍の 必要、という の関係はここでも効いてきます。
第 2 章 · 仮説検定の枠組み
仮説検定の考え方
「このコインは本当に公平か?」「新しい薬は従来薬より効くか?」「広告 A と B、どちらがクリック率が高い?」 ─ こういう問いに、データを使って客観的に答える枠組みが仮説検定です。2 級の中でいちばん配点が多い領域でもあります。本節ではまず考え方の骨格を押さえます。
帰無仮説と対立仮説
帰無仮説 : 「差はない」「効果はない」「公平である」など、退屈で当たり障りのない仮説。出発点として置く仮説。
対立仮説 (または ): 帰無仮説に反する、調査者が示したい仮説。
仮説検定の基本姿勢は「帰無仮説 が正しいと仮定したとき、いま得られたデータがどれくらい起こりにくいか」を計算する、という背理法的な発想です。「ありえないほど起こりにくい」なら を棄却して、 を採用します。
検定の手順
- 仮説を立てる: と を文脈に合わせて設定する。
- 有意水準 を決める: 慣例的に または 。「 が正しいのに棄却してしまう確率」の上限。
- 検定統計量を計算する: のもとで分布が分かっている量(z, t, , F など)。
- 棄却域 or p 値で判定する: 統計量が極端な値ならば を棄却。極端さを定量化するのが p 値。
p 値
が正しいと仮定した上で、現実に得られた検定統計量と「同じかそれ以上に極端な」値が観測される確率を p 値という。 なら を棄却、 なら を棄却しない。
「p 値は『 が正しい確率』ではない」 ─ ここが受験で必ず引っかけられるポイント。p 値は「 を仮定した世界で、こんなデータが見える確率」です。 そのものの真偽の確率ではないので、注意してください(ベイズ統計を学ぶとこの違いが鮮明になります)。
両側検定と片側検定
- 両側検定: ─ 「異なる」とだけ主張。棄却域は分布の左右両端。
- 右片側検定: ─ 「大きい」と主張。棄却域は右端のみ。
- 左片側検定: ─ 「小さい」と主張。棄却域は左端のみ。
「同じ有意水準 なら、両側より片側のほうが棄却されやすい」(片側のほうが棄却域が広い)。事前に「どちら向きを示したいか」が決まっているなら片側、ないなら両側、が大原則です。データを見てから方向を決めるのは反則(p ハッキング)。
Web マーケでは「新ボタン色は CV 率を上げるか?」を検証するため、ユーザーをランダムに 2 群に分けて指標を比較します。これは「2 群の比率に差があるか」の仮説検定そのもの。多くの A/B テスト基盤(Optimizely・Google Optimize など)が、内部でこの仕組みを動かしています。「p < 0.05 になったら新案を採用」という意思決定が標準です。
scipy.stats.ttest_ind / R の t.test() で 1 行で実行可能。
第 1 種の誤り・第 2 種の誤り・検出力
第 1 種の誤り(Type I error): が真なのに棄却してしまう誤り。確率は 。
第 2 種の誤り(Type II error): が偽( が真)なのに棄却できない誤り。確率は 。
検出力: 。 が真のときに正しく棄却できる確率。
と はトレードオフの関係にあります。 を厳しくする(例: )と棄却しにくくなり、第 1 種の誤りは減るが第 2 種の誤りは増える。実務では「重大な見落としを避けたいときは を抑える」「慎重に判定したいときは を厳しくする」と使い分けます。
図の点線(閾値)を右にずらせば赤い α は減りますが、橙の β は増えます。逆に左にずらせば α が増えて β が減る。「両方同時に減らしたい」なら、2 つの分布を引き離す(=効果量を大きくする)か、分布の山を細くする(=標本サイズを増やす)しかありません。これが効果量・サンプルサイズ設計の出発点です。
医療検査 では「病気を見逃したくない(β を抑える)」が優先 → 高感度な検査を採用。司法 では「無実の人を有罪にしたくない(α を抑える)」が優先 → 高い証拠水準。製造業の不良検出 ではコストとのバランス。「α と β のどちらを優先するか」は、誤りごとの被害の大きさで決まります。
、、検出力、効果量、標本サイズの 5 者の関係は、2 級でも準1級でも問われる重要トピック。標本サイズを大きくすると、ほぼあらゆる方向で改善する(誤りが減る/検出力が上がる) ─ これが「サンプルが足りないなら、まず増やす」が推奨される理由です。
母平均の検定(z 検定・t 検定)
前節で学んだ仮説検定の枠組みを、最も基本的なケース ─「ある母集団の平均値が特定の値と違うか」 ─ に適用します。前章の信頼区間と密接に対応する話です。
母平均の z 検定($\sigma$ 既知)
母分散 が既知のとき、 に対する検定統計量は
が正しいとき 。
両側検定の棄却基準は 。 なら 、 なら 。片側なら ()を使います。
母分散 の母集団から の標本を取り、 を得た。 を有意水準 で両側検定せよ。
解 : 。 なので を棄却。母平均は と異なると判断できる。
母平均の t 検定($\sigma$ 未知)
母分散が未知のとき、不偏分散 を使って
のもとで に従う。
棄却基準は (両側)。 分布の臨界値は自由度ごとに変わるので、表を参照する必要があります。実用上は「 が 30 以上なら も もほぼ同じ」と覚えておくと、概算で判定できます。
ある母集団から の標本を取り、、 を得た。 を有意水準 で両側検定せよ。 とする。
解 : 。 なので を棄却。母平均は と異なると言える。
信頼区間と検定の表裏一体性
「両側検定で棄却できないこと」と「対応する信頼区間に が含まれること」は同値です。
- が 95% 信頼区間に含まれない ⇔ の両側検定で 棄却される
- が 95% 信頼区間に含まれる ⇔ の両側検定で 棄却されない
つまり信頼区間と検定は同じことを別の言葉で言っているだけ。試験では「信頼区間を計算して、 値が入っているか?」だけで両側検定の結論が出ることもしばしばあります。
母比率の検定(参考)
母比率 の検定もほぼ同じ流れで作れます。 に対し、検定統計量は ( のもとで )。「 を仮定するので、標準誤差にも を使う」のが信頼区間との違いです。次節ではより複雑な分布表データに挑む、カイ二乗検定に進みます。
カイ二乗検定 ─ 適合度・独立性
ここまでの z 検定・t 検定は「平均に差があるか」を扱う手法でした。本節では「観測度数の分布が想定どおりか」「2 つのカテゴリ変数に関係があるか」を判定する、もう 1 つの定番ツール ─ カイ二乗検定を学びます。
カイ二乗統計量の基本形
観測度数 と期待度数 ()から計算する量
を(ピアソンの)カイ二乗統計量という。観測値と期待値の食い違いを 2 乗で測る指標。
「期待度数 」とは「 が正しいとしたらこのくらいになるはず」という値。観測 がそこから大きく外れるほど は大きくなり、 を疑う根拠になります。
適合度検定
: 「観測データが想定の分布に従う」を検定する。 統計量は自由度 のカイ二乗分布に従う( はカテゴリ数)。 なら を棄却。
サイコロを 回振ったら、 の目がそれぞれ 回出た。サイコロが公平()を有意水準 で検定せよ。 とする。
解 : 公平なら各目の期待度数は 。
。
なので は棄却できず、公平でないとは言えない。
独立性検定 ─ 分割表
分割表で「行変数と列変数が独立()」を検定する。期待度数は 。 は自由度 のカイ二乗分布に従う。
ある政策への賛否を男女別に集計したところ、次の 分割表を得た。
| | 賛成 | 反対 | 計 | |--|--:|--:|--:| | 男性 | 60 | 40 | 100 | | 女性 | 30 | 70 | 100 | | 計 | 90 | 110 | 200 |
性別と賛否の独立性を 検定で判定せよ。
解 : 期待度数は 、、、。
。
自由度 、 なので、 で は棄却。性別と賛否には関連があると判断できる。
適用上の注意
- 期待度数の目安: 各セルで が成り立つことが望ましい。期待度数が小さすぎるとカイ二乗近似が悪くなる。
- 棄却の意味: 独立性検定で棄却 = 「関連がある」とは言えるが、「どんな関連か」「因果か」までは判定できない。
- 分割表でフィッシャーの正確検定: が小さいときは、こちらが推奨されることもある(2 級では参考程度に)。
母分散の検定 ─ カイ二乗による σ² の検定
「ある工程の製品ばらつき(分散)が、規格値 に収まっているか?」 ─ こうした問いには 母分散の検定 を使います。母平均の検定が z や t 分布だったのに対し、母分散の検定では カイ二乗分布 を使うのが特徴。仮定として「母集団が正規分布」が強く効きます。
検定統計量
のとき、不偏分散 について
が帰無仮説 のもとで成り立つ。
つまり統計量 が、自由度 のカイ二乗分布に従います。標本分散が母分散の何倍になっているかを、自由度で重み付けた量、と読めます。
両側検定の棄却域
分布は左右非対称なので、両側検定の棄却域は左右別に設定します:
は「自由度 のカイ二乗分布で、上側確率 となる点」。例: 、 なら、自由度 で 、 が棄却境界です。
ある部品の長さが に従う。規格上の標準偏差は mm まで。標本 で不偏分散 が得られた。(規格を超える)を疑って片側検定 を行う。
統計量 。棄却域は より大きい領域。 なので 棄却できない。「規格を超えている」と結論する根拠は不十分。
母分散の信頼区間
左右の分母が逆転している点に注意。
正規性の重要性
母分散の検定は、母集団が正規分布から外れると検出力もタイプ I エラー率も大きくぶれます。z/t 検定は中心極限定理で多少の非正規性に強いのに対し、母分散の検定は正規性の崩れに敏感。実務では先に正規性を検証(QQ プロット・Shapiro-Wilk)してから使ってください。
二標本の検定 ─ 対応のない t / 対応のある t / F 検定
「2 群の平均に差があるか?」を判定するための t 検定は、対応の有無と分散の等性で 4 つの設計に分かれます。それぞれ自由度の取り方や統計量が違うので、状況に合った検定を選ぶことが重要。本節では 3 つの主要パターンを整理します。
(1) 等分散を仮定する 2 標本 t 検定 ─ Student の t
、 で同一分散 と仮定。プールされた不偏分散
を用いて、
(2) 等分散を仮定しない ─ Welch の t 検定
等分散を仮定せず、それぞれの標本分散をそのまま使う:
自由度は近似的に
この近似自由度は Welch-Satterthwaite の公式 と呼ばれる。
現代の統計ソフト(R の `t.test`、Python の `scipy.stats.ttest_ind` の `equal_var=False`)では、Welch の t 検定が既定値に近い扱いになっています。理由は「等分散の仮定が成り立つことの方がむしろ稀」だから。Student の t は等分散が満たされるときには Welch より少し検出力が高いものの、満たされないときに Type I エラーが膨らみます。迷ったら Welch、が安全です。
(3) 対応のある t 検定 ─ ペアデータの差を見る
同一個体・同一ペアで「前後」「左右」など 2 つの観測値 がある場合、差 について 1 標本 t 検定を行う:
「ダイエット前後の体重」のように、同じ人で 2 回測ったデータには 個人差 が大きく含まれます。対応のない t 検定だと「個人差のばらつき」がノイズに混じり、検出力が下がる。対応のある t 検定では差 を取った時点で個人差が消えるため、より小さなサンプルで効果を検出できます。
(4) 等分散性の F 検定 ─ 分散の比
それぞれ正規分布のもと、 の比
が のもとで F 分布に従う。慣例として大きい方を分子にして両側検定を行う。
F 検定は正規性に弱く(母分散の検定と同様)、現代の実務では Levene 検定や Brown-Forsythe 検定の方が好まれます。「Student と Welch のどちらを使うか?」を決めるためだけに F 検定をする必要はなく、最初から Welch を選ぶのが推奨される所以です。
選び方フローチャート
- ペアデータか? ── はい → 対応のある t 検定 / いいえ → 次へ
- 等分散と言えるか確信あるか? ── いいえ → Welch の t / はい → Student の t
- 正規性に強い不安? ── マン・ホイットニー U(2 級範囲外、参考)
新薬投与群(、平均 、不偏分散 )とプラセボ群(、平均 、不偏分散 )。等分散を仮定しない Welch の t を実行。
SE = 。。Welch-Satterthwaite で自由度 、両側 5% の臨界値 。 なので有意差なし。
第 3 章 · 回帰分析
単回帰分析
「気温が 1℃ 上がると、アイスの売上はどれくらい増えるか?」「広告費を 10 万円増やすと、売上は何万円伸びるか?」 ─ こういった「説明変数 で目的変数 を予測・説明する」ためのもっとも基本的な手法が、本節で学ぶ単回帰分析です。
回帰モデル
観測 ()に対し、
というモデルを考える。 は切片、 は傾き(回帰係数)、 は誤差項。 は平均 、分散 の独立な確率変数と仮定する。
をぜんぶ で説明し尽くせるとは普通考えません。残った「説明できないぶん」が誤差 。回帰の目的は、データから と をできるだけよく推定することです。
最小二乗法
「もっとも当てはまりがよい直線」をどう決めるか? 一般的な答えは「残差の 2 乗和を最小にする」直線。これを最小二乗法といいます。
残差そのままの和を最小化すると正負が打ち消し合ってゼロになってしまうし、絶対値だと数学的な扱いが難しくなります。2 乗にすると(1)正負がなくなり、(2)大きい誤差ほどより重く罰され、(3)微分で解析的に最小値が求まる、という三拍子そろった理由で「2 乗和」が選ばれます。
「気温と冷たい飲み物の売上」「広告費と売上」「Web 広告のクリック数とコンバージョン数」 ─ どれもまず散布図を描き、回帰直線を当てはめて関係を定量化します。傾きが「気温が 1 度上がると売上が ◯ 円増える」という意思決定可能な数字になり、来週の気温予報から来週の売上を予測できる ─ これが企業の在庫管理・人員配置の出発点です。
statsmodels.OLS / R の lm() の出力は『Excel データ分析 → 回帰』とほぼ同じ構造。
残差平方和 を最小にする の推定量は
で与えられる。 を予測値という。
回帰直線は必ず点 を通る、というのが切片の式の意味するところ。傾き の式は「共分散 ÷ の分散」 ─ 3 級で学んだ共分散・相関係数と同じ部品の組み合わせです。
決定係数 $R^2$
を決定係数という。 の全変動 のうち、回帰モデルで説明できた割合を表し、。 は完全フィット、 は無効果。
単回帰の場合は (相関係数の 2 乗)が成り立ちます。「相関 0.8 ⇒ 、つまり の分散の 64% が で説明できる」と読みます。
、、、 のとき、回帰直線 を求めよ。
解 : 、。回帰直線は 。
回帰の前提条件
最小二乗法による回帰は、いくつかの前提のもとで「良い」性質を持ちます。
- 線形性: と の関係が直線で表せる。
- 独立性: 各 が独立。
- 等分散性: の分散が の値によらず一定。
- 正規性(検定や区間推定で必要): が正規分布に従う。
実データではこれらが完全に満たされることはまずありません。残差プロットを描いて「ランダムに散らばっているか」「特定の傾向はないか」を確認するのが、実務での回帰分析の基本作法です。
回帰係数の検定と区間
「 と には本当に意味のある関係があるのか?」 ─ それは「回帰係数 が実は ではないか?」という疑問と同じです。本節では、 をもとに について検定や区間推定を行う方法を学びます。
$\hat{\beta}$ の標本分布
回帰モデルの仮定のもとで、最小二乗推定量 について
誤差 が正規分布に従うなら、 も正規分布に従う。
は の不偏推定量。分散は の散らばり()が大きいほど小さくなります。「 をよく振って観測したほうが、 を精度よく推定できる」というわけです。
回帰係数の検定
(「 は に効かない」)に対する検定統計量は
、。 のもとで 。
自由度が なのは、回帰で 2 つのパラメータ()を推定したぶん「自由度が 2 つ食われる」から、と覚えます。 なら を棄却し、「」 ─ つまり「 は に統計的に有意な影響を持つ」と結論できます。
回帰係数の信頼区間
信頼区間と t 検定の表裏一体性は、回帰係数でも成り立ちます。「 が信頼区間に含まれるかどうか」が「 が両側検定で棄却されるかどうか」と一致します。
回帰結果の読み方(実務では)
Excel・R・Python などの統計ソフトで回帰分析を実行すると、典型的に次の表が出力されます。
| 項目 | 推定値 | 標準誤差 | t 値 | p 値 | |--|--:|--:|--:|--:| | 切片 () | | | | | | () | | | | |
この場合、 で「 が 1 増えると は平均 1.5 増える」、p 値が小さい()ので「」は棄却される、と読み解ける。
重回帰への展望
本節では説明変数が 1 つの単回帰を扱いました。説明変数を複数にした重回帰モデル も、考え方の枠組みは同じ。各 について t 検定が行え、決定係数や F 検定で全体の有意性も判定できます。重回帰の本格的な扱いは準1級の主要トピックです。
本節までで単回帰の解析は終了です。次の節では、説明変数を複数にする 重回帰分析 に踏み込みます。
重回帰分析 ─ 複数の説明変数
現実のデータでは「 に影響を与える要因は 1 つではない」のが普通です。家賃なら駅徒歩・面積・築年数・階数など複数の要因が絡みます。重回帰分析 はこれらを同時にモデル化する道具で、2 級では「行列で記述された線形モデル」と「決定係数・自由度調整済み決定係数・F 検定」の 4 点を押さえます。
モデル
を仮定。 は他の変数を固定したときに が 1 増えると が平均的にどれだけ変わるかを表す 偏回帰係数。
正規方程式と行列表現
観測値を行列で並べると、。最小二乗推定量は次の閉じた形で書けます:
この式は 正規方程式 (normal equation) と呼ばれます。 は各行が観測、各列が説明変数(切片用に 1 列追加した「デザイン行列」)。 が逆行列を持たない(完全多重共線性がある)と推定が破綻します。
決定係数 R²
のばらつきのうち、モデルが説明できた割合(0〜1)。1 に近いほど当てはまりが良い。
自由度調整済み決定係数
重回帰では「変数を増やせば は必ず上がる」という性質があります。意味のない変数を増やしても は減らない、という困った挙動。これを補正したのが 自由度調整済み決定係数:
が説明変数の数。意味のない変数を増やすと は逆に下がります。モデル選択の判断材料の 1 つ。
全体の有意性 ─ F 検定
「すべての ()が同時に 0」を帰無仮説にした検定:
が大きければ「少なくとも 1 つの変数は意味がある」と判断。
個別の係数の検定 ─ t 検定
全体が有意でも、個別にどの変数が効いているかは t 検定で判定します。各 について:
多重共線性 ─ 説明変数同士が似ているとき
多重共線性 は 2 級正式範囲です(出題範囲表 線形モデル/回帰分析)。一方で次に紹介する VIF の具体的計算は準1級ワークブック範囲の発展内容となります。
説明変数同士が強く相関している(例: 身長と座高)と、 が「ほぼ特異」になり、 の標準誤差が爆発します。「個々は有意でないのに F 検定では全体が有意」という症状もこれ。指標として VIF (Variance Inflation Factor) がよく使われ、( は他変数で を回帰したときの )。VIF が 5〜10 を超えると「危険」と扱う慣例があります(VIF の計算式は準1級ワークブック範囲)。
(家賃、万円)を (面積 m²)と (駅徒歩、分)で回帰:
、、、()。
読み方: 「駅徒歩を一定にしたとき、面積 1 m² 増で家賃は平均 1,800 円高い」。 ともに t 検定で有意なら、両者とも家賃に独立に効く要因。
が m²、 が分で単位が違うと、 と の大小から「どちらが家賃により効くか」は判断できません。各変数を平均 0・分散 1 に標準化してから回帰した 標準化偏回帰係数 なら、効きの大きさを比べられます。
残差診断 ─ モデルの妥当性チェック
回帰モデルは「線形性」「等分散性」「正規性」「独立性」の 4 つを仮定しています。これらが崩れているとき、t 検定や信頼区間の結果はあてになりません。残差プロット を見ることで、これらの仮定が成り立っているかをチェックします。
4 つの仮定
- 線形性: が について線形。 残差 vs 予測値プロットで「ランダム雲」になっていればOK。曲線パターンが見えたら線形性が崩れている。
- 等分散性(homoscedasticity): が一定。 残差プロットが「ラッパ型」になっていたら不等分散。
- 正規性: 残差が正規分布。 Q-Q プロットで直線に乗ればOK。両端が外れたら裾が厚い/薄い。
- 独立性: 残差が互いに独立。 時系列データだとダービン・ワトソン統計量が 2 から離れたら自己相関の疑い。
対処の方向性
- 線形性が崩れる: 説明変数を 、、 などに変換して再度回帰。あるいは多項式回帰や GAM へ。
- 等分散性が崩れる: を などに変換。あるいは加重最小二乗(WLS)で重み付け。
- 正規性が崩れる: 残差が大きく歪んでいるなら を変換。少々の崩れなら が大きければ実害は小さい。
- 独立性が崩れる: 時系列データなら ARIMA など時系列モデルへ。クラスタデータなら混合効果モデル。
外れ値・てこ比・Cook の距離
てこ比 (leverage)・Cook の距離・標準化残差を使う詳細な回帰診断法は、統計検定 準1級ワークブック第17章「回帰診断法」 の範囲です。2級では「残差プロットでパターンの有無を確認する」までが中心ですが、本節は実務との橋渡しとして扱います。
個別観測値の影響を測る指標として:
- 外れ値: がモデルから大きく外れる観測。標準化残差が を超えたら要注意。
- てこ比 (leverage): が他のデータから大きく離れている観測。観測点 の対角成分 で測る。 で高いと判定する慣例。
- Cook の距離: 観測 を抜いたときに がどれだけ動くかを総合した指標。 なら影響が強い観測として再吟味。
外れ値は「捨てるべきもの」ではなく「説明すべきもの」。データ入力ミスなら除外、自然な現象なら残してロバスト回帰や変数変換で対応、というのが定石です。「邪魔だから消す」と研究の信頼性が崩れます。
これで 2 級教科書の主要範囲(推定・検定・回帰・分散分析)は終了です。次の章では、複数群の平均を一気に比べる 分散分析(ANOVA) に進みます。
第 4 章 · 分散分析(ANOVA)
一元配置分散分析
「3 つ以上の群の平均を比べたい」という場面はよくあります。例: 3 種類の肥料 A, B, C で収穫量に差があるか? 4 種類の広告クリエイティブでクリック率に差があるか? このときに 一元配置分散分析 (One-way ANOVA) を使います。
なぜ複数の t 検定ではダメなのか
群が 3 つ()あれば、ペアごとに t 検定を 3 回やればよさそうに見えます。しかしそれぞれの t 検定で なら、3 回の検定全体で「少なくとも 1 つを誤って棄却する確率」は まで膨らむ。これが 多重比較問題 で、ANOVA は「まず全体に差があるか?」を 1 回の検定で判定し、その後個別比較に進みます。
モデルと仮説
個の群があり、群 に 個の観測 がある。
帰無仮説 、対立仮説 : 少なくとも 1 組は異なる。
平方和の分解
全データのばらつき(全平方和 )を、「群間ばらつき(処理効果)」と「群内ばらつき(誤差)」に分解します:
ここで:
- ─ 全平均からの偏差二乗和
- ─ 群平均と全平均の差(処理効果)
- ─ 各群内のばらつき(誤差)
F 検定統計量
のもとで に従う。 が大きいほど群間差が群内差より優勢なので、 なら を棄却。
ANOVA 表
| 要因 | 平方和 | 自由度 | 平均平方 | F 値 | p 値 | |---|--:|--:|--:|--:|--:| | 群間(A) | 24.0 | 2 | 12.0 | 6.00 | 0.007 | | 誤差(E) | 54.0 | 27 | 2.0 | | | | 全体(T) | 78.0 | 29 | | | |
、自由度 、 なので「少なくとも 2 群間に差がある」と判定。
ANOVA の前提
- 正規性: 各群が正規分布
- 等分散性: 全群で分散が等しい( 共通)。Levene 検定で確認可能。
- 独立性: 観測が独立
現代では Welch の ANOVA(`oneway.test(..., var.equal=FALSE)` in R)が代替手段として推奨されます。等分散の仮定なく群間差を検定できます。サンプルサイズが大きくバランスしていれば標準 ANOVA は等分散性の崩れに比較的頑健ですが、サンプルが小さいときや不均衡なときは Welch ANOVA が安全。
多重比較 ─ どの群とどの群に差があるか
多重比較(Tukey HSD・Bonferroni・Dunnett・Holm)は、統計検定 準1級ワークブック第20章「分散分析と実験計画法」 で詳しく扱われる範囲です。2級では『一元配置 ANOVA で全体差を判定する』までが正式範囲ですが、ANOVA の結果をどう解釈するかの発展知識として本節を読むと、一気通貫で理解できます。
ANOVA で が棄却されたら、「では具体的にどの群とどの群が違うのか?」を調べたくなります。これを 多重比較 (multiple comparisons) と呼び、いくつかの方法があります。
Bonferroni 補正
個のペア比較を行うとき、各検定の有意水準を に厳しくする。これで全体の Type I エラー率が高々 に抑えられる。
例: 群でペアは 組。各 t 検定を で行う。
簡便で安全、ただし検定数が多いと過度に保守的になり検出力が下がる欠点があります。
Tukey の HSD
全ペア比較を等しい水準で行う方法。スチューデント化した範囲分布(studentized range distribution)を使う。各群のサンプルサイズが等しいときに最も効率的で、Bonferroni より検出力が高い。
Dunnett の検定
対照群(コントロール)が 1 つあり、それと他の群を比較したい場合に最も検出力が高い方法。コントロールとの比較しか興味がないので、検定数を減らせる分強い。臨床試験でよく使われます。
Holm の方法 ─ 検出力 vs 安全性のバランス
Bonferroni を順序付きで段階的に適用することで、保守性を緩めた方法。p 値を小さい順に並べ、 番目の p 値を と比較。Bonferroni より検出力が高く、解釈もしやすいので近年の論文で増えています。
FWER (Family-Wise Error Rate) は「m 個の検定で 1 つでも誤って棄却する確率」。Bonferroni、Tukey、Dunnett、Holm はこの FWER を抑える方法です。
一方、ゲノム解析のように m が数千〜数万 になる場合は FWER を抑えるのが厳しすぎ、FDR (False Discovery Rate, 偽発見率) ─ 「棄却したものの中で偽陽性の割合」 ─ を抑える Benjamini-Hochberg 法が標準です。準1級以降のトピック。
二元配置分散分析
二元配置分散分析(主効果・交互作用)は、統計検定 準1級ワークブック第20章「分散分析と実験計画法」 の範囲です。2級正式範囲は一元配置までですが、実務では二元配置以上が頻繁に登場するため、ここで概念を掴んでおくと準1級対策の予習になります。
「肥料の種類(A, B, C)と土壌(粘土・砂)の 2 つの要因が収穫量にどう効くか?」のように、2 つの因子を同時に扱うのが 二元配置分散分析 (Two-way ANOVA) です。一元配置にはない概念として 交互作用 が登場します。
モデル(交互作用なし)
因子 が 水準、因子 が 水準、各組み合わせに 1 観測。
、 の制約付き。 は因子 A の水準 の効果、 は因子 B の水準 の効果。
平方和の分解
全平方和 = A の効果 + B の効果 + 残差。各効果について個別に F 検定が行えます。
モデル(交互作用あり)
各組み合わせに 観測がある「繰り返しあり」の場合、交互作用項を加える:
が交互作用項。「A の効果が B の水準ごとに違う」「B の効果が A の水準ごとに違う」現象を表現する。
交互作用の解釈
薬 A の効果が「男性で大、女性で小」のように、ある因子の効果が別の因子の水準で変わる現象が交互作用。プロットすると 2 本の折れ線が 平行でない(交差したり広がったり) ─ これが交互作用の視覚的サインです。
交互作用が有意なときは、主効果(A 単独・B 単独)の解釈を慎重に行う必要があります。「A の主効果」と言っても、実際は B の水準で違うわけですから。
ANOVA 表(交互作用あり)
| 要因 | 平方和 | 自由度 | 平均平方 | F 値 | |---|--:|--:|--:|--:| | A | 30 | 2 | 15.0 | 7.5 | | B | 12 | 1 | 12.0 | 6.0 | | A×B | 18 | 2 | 9.0 | 4.5 | | 誤差 | 24 | 12 | 2.0 | | | 全体 | 84 | 17 | | |
A 主効果、B 主効果、A×B 交互作用、それぞれ別の F 検定で有意性を判定。
繰り返しがない()場合、交互作用と誤差を分離できません。実務では「交互作用なし」を仮定するか、繰り返しを設けるのが原則。試行錯誤の段階的な実験設計では「直交配列表」「タグチメソッド」など、効率的な実験計画法が役立ちます(QC 検定の主要トピック)。
第 5 章 · 分割表分析とロジスティック回帰
分割表とカイ二乗独立性検定
分割表(クロス集計表, contingency table) は 2 つ以上のカテゴリ変数の同時度数表。これに対する 独立性検定(カイ二乗検定の応用)を再整理します。3 級では適合度検定を扱いましたが、ここでは『2 変数の関連』を検定する側面に深く踏み込みます。
2x2 分割表と独立性
行 列のクロス表で、観測度数 、行合計 、列合計 、総計 のとき、独立 のもとでの期待度数:
検定統計量 は自由度 のカイ二乗分布に従う(大標本)。
Cramér's V ─ 関連の強さ
で、関連の強さを標準化した指標。有意性 = 関連の強さ ではないので、p 値と V を併記する。 で弱、 で中、 で強の目安。
検定で『関連あり』と判定されても、どのセルが期待度数からどれだけ外れているか は別途見る必要があります。標準化残差 が 絶対値 2 以上 のセルが寄与の主犯。実務報告では『 全体の有意 + 標準化残差マップ』をセットで提示するのが説得力ある書き方。
Fisher の正確検定
期待度数 < 5 のセル が多い小標本では、カイ二乗近似が破綻するので Fisher の正確検定(Fisher's exact test) を使います。超幾何分布に基づき、観測表以上に偏った全表の確率を厳密に合計するもの。R では `fisher.test()`、Python では `scipy.stats.fisher_exact()` で 1 行。
オッズ比と相対リスク
分割表で イベントの発生しやすさを群間で比較 する指標として、オッズ比(OR)・相対リスク(RR)・リスク差(RD)があります。それぞれ意味と使い分けが異なります。
3 つの指標
曝露 +/− × 結果 +/− の 表(セル ):
オッズ比(Odds Ratio):
相対リスク(Relative Risk):
リスク差(Risk Difference):
信頼区間 ─ 対数正規近似
対数オッズ比は近似的に正規分布:
95% CI:
対数で正規近似 → 指数で戻すのが定石。CI が 1 をまたぐ ⇔ 5% 有意で OR と 1 に差なし(独立)。
ケースコントロール vs コホート
コホート研究(曝露を起点に追跡):RR が直接計算可能で解釈も自然。 ケースコントロール研究(結果を起点に過去を遡る):RR は計算できない(分母が真の母集団でない)ので OR を代理として使う。希少疾患では OR ≈ RR の近似が成り立ち、これがケースコントロール研究で OR が好まれる理由。 Web ABテスト:CVR 比較で実質 RR、ただし慣習で OR 報告も多い。
0 セルの問題と Haldane-Anscombe 補正
セルに 0 が入ると で計算不能。全セルに +0.5 を足す(Haldane-Anscombe 補正)が標準的な対処。/tools/odds-ratio で自動適用しています。
層別分析とマンテル-ヘンツェル法
シンプソンのパラドックス(入門編 Ch7 で扱った)を回避するために、第三因子で層別 して分析する手法。マンテル-ヘンツェル法(Mantel-Haenszel) は層別された複数の 表を統合して 1 つのオッズ比を出す古典的手法です。
層別の必要性
例: 病院全体での新薬 vs 旧薬の効果が同じに見えても、重症度で層別 したら新薬が両層で勝っている、ということが起こりうる(Simpson)。これは新薬が重症患者に多く投与され、重症患者の方が回復しにくいから。交絡因子で層別することで、見かけのバイアスを除去できる。
マンテル-ヘンツェル合同オッズ比
個の層、 番目の層のセル 、層合計 :
各層のオッズ比を 重み付き調和平均 で統合した形。同質性検定(Breslow-Day)で『各層の OR が共通か』を確認してから使う。
Mantel-Haenszel 検定
層別後の全体としての関連の有無を検定する Cochran-Mantel-Haenszel(CMH)検定 も併用される。R では `mantelhaen.test()` で 1 行。臨床試験・疫学研究の標準ツール。
MH 法は古典手法で、3 値以上の因子・連続的交絡因子 には対応しにくい。現代の研究では次節の ロジスティック回帰 で交絡を共変量として投入するのが主流です。MH 法は『簡易な層別調整』として今も有用ですが、複雑な研究設計では回帰モデルの方が柔軟。
ロジスティック回帰の入口
ロジスティック回帰(logistic regression) は 二値の結果(購入する/しない、合格/不合格、生存/死亡)を、複数の説明変数 から予測・説明するモデル。回帰分析(Ch3)の発展で、医療・マーケ・与信など実務での使用頻度が極めて高い。
なぜ線形回帰では駄目か
で確率を予測すると、 が極端なときに や が出てしまい、確率として意味をなさない。ロジット関数 で確率を に変換してから線形モデルにフィット ─ これがロジスティック回帰の発想。
モデル定義
について:
逆に解くと、シグモイド関数:
パラメータ は 最尤推定 で求める(線形回帰の最小二乗の代わり)。
係数の解釈
ロジスティック回帰では、係数 は『 が 1 単位増えたときの対数オッズ比の変化』:
つまり がそのまま オッズ比。 なら『 が 1 増えるとオッズが 1.5 倍』と読む。連続値・離散値を交絡を含めて 1 モデルで扱える ─ これがマンテル-ヘンツェル法を凌駕する理由。
適合度評価
- 逸脱度(deviance): 。線形回帰の RSS に相当
- 疑似 R²(McFadden):
- Hosmer-Lemeshow 検定: 予測確率を 10 分位に分け、観測 vs 予測度数を比較
- ROC 曲線・AUC: 識別性能の標準指標(2 級〜準 1 級で出題)
- 混同行列・Precision・Recall・F1: 分類性能評価
実装例
# Python (scikit-learn)
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
model = LogisticRegression()
model.fit(X_train, y_train)
prob = model.predict_proba(X_test)[:, 1]
print(f'AUC: {roc_auc_score(y_test, prob):.3f}')
print(f'係数: {model.coef_[0]}')
print(f'オッズ比: {np.exp(model.coef_[0])}')与信・チャーン予測・薬の有効性・購入予測 ─ 二値分類が必要な場面のほぼ全てでベースラインとして使われ、係数の解釈性が高いため、ステークホルダーへの説明 にも適する。現代の Random Forest / XGBoost に精度では負けるが、最初に試すモデル として今も最強候補。準 1 級では一般化線形モデル(GLM)の枠組みでさらに深く学びます。
ここまでの 5 章で 2 級の中核(推定・検定・回帰・ANOVA・分割表/ロジ)を扱いました。続く 6-10 章では ノンパラ検定・多変量・時系列・ベイズの入口 を加えて、2 級から準 1 級への滑らかな橋渡しを完成させます。
第 6 章 · ノンパラメトリック検定
ノンパラ検定が必要な場面
ノンパラメトリック検定 は『分布の形を仮定しない』検定。正規性が崩れているとき、外れ値が多いとき、順序データのときに必須です。
正規性検定 ─ Shapiro-Wilk
Shapiro-Wilk 検定 は『正規分布から得られたか』の検定。 正規分布 / 非正規。 で最も有効。 なら正規性を疑うが、標本サイズが大きいと小さなズレでも有意になる のでヒストグラム・Q-Q プロットの目視も併用。
ノンパラ検定の利点と欠点
- 利点: 分布形を仮定しない・外れ値に頑健・順序データに使える
- 欠点: 検出力が低い(正規データでは t 検定の 95.5%)・効果量の解釈が難しい
- 選択基準: 正規性が確認できない or 標本サイズが小さい()
Wilcoxon 符号順位検定と Mann-Whitney U
2 群の比較 をノンパラで行う 2 大手法。対応のある Wilcoxon と 対応のない Mann-Whitney U。
Wilcoxon 符号順位検定(対応あり)
対のある観測 について差 を計算。 で順位付け、符号を考慮した順位和 を統計量に。
大標本で は近似的に正規分布:
Mann-Whitney U 検定(対応なし)
2 群 と を統合し順位付け。Y の順位和 から:
、。Wilcoxon の順位和検定 と等価。
Wilcoxon・MWU の 漸近相対効率(ARE) は正規データで 0.955。つまり ほぼ同等の検出力。一方、外れ値が混ざると t 検定より圧倒的に強くなる。現代の研究では『正規性を確認するくらいなら最初からノンパラを使う』 という考え方も一般化しつつあります。
Kruskal-Wallis と Friedman
3 群以上の比較 のノンパラ版。ANOVA に対応します。
Kruskal-Wallis 検定
群を統合して順位付け、各群の順位和 から:
。 は自由度 のカイ二乗分布に近似。一元配置 ANOVA のノンパラ版。
Friedman 検定
Friedman 検定 は 対応のある 3 群以上 の比較(反復測定 ANOVA のノンパラ版)。ブロック内 で順位付けする点が Kruskal-Wallis と違う。実験デザインで 被験者間の個人差 を相殺したいときに有効。
事後比較
- Dunn 検定: Kruskal-Wallis の事後ペア比較
- Conover-Iman 検定: より検出力の高い改良版
- Nemenyi 検定: 全ペア比較の保守的手法
- 事後検定では Bonferroni 補正など多重比較対応が必須
第 7 章 · 多変量解析の入門 ─ PCA と因子分析
主成分分析(PCA)の基礎
主成分分析(Principal Component Analysis) は、相関のある複数変数を 少数の独立した『主成分』 に集約する手法。データの可視化・次元削減・前処理で必須。
PCA の数学的定義
中心化したデータ行列 の 共分散行列 を 固有値分解:
固有値 を分散の大きい順に並べ、対応する固有ベクトルが 主成分の方向。第 主成分得点: 。
寄与率と累積寄与率
寄与率(contribution rate)= 。第 主成分が説明する分散の割合。
累積寄与率: 上位 個の寄与率の合計。80% または 90% に達するまでの主成分数を採用するのが慣習。
標準化の必要性
身長(cm)と体重(kg)で PCA すると、単位が違うので分散の絶対値が比較できない。標準化(平均 0・分散 1)してから PCA するのが標準。標準化済みデータの共分散行列は 相関行列 と一致するため、相関行列の固有値分解と同じ。
PCA の解釈と応用
PCA の結果をどう読むか。因子負荷量・スコアプロット・バイプロット が主要な解釈ツール。
因子負荷量(loading)
因子負荷量: 各観測変数 と各主成分 の相関係数。 で『その主成分の重要構成要素』とみなすことが多い。
例えば PC1 で身長・体重が高い負荷 → PC1 は『体格』を表す軸。
スコアプロットとバイプロット
- スコアプロット: 各サンプルを (PC1, PC2) 座標で散布図 → クラスタ・外れ値発見
- Loading プロット: 各変数を (PC1, PC2) のloading で表示 → 変数の関係
- バイプロット: 両者を重ねた図 → 変数とサンプルの関係を一望
- 市場調査・心理学・ゲノム解析で頻用
応用例
- 多変量データの可視化(高次元 → 2 次元プロット)
- 特徴選択の前処理(冗長な相関変数を圧縮)
- 画像圧縮(小さい固有値を切り捨て)
- 異常検知(主成分空間からの距離)
- 金融: 株式リターンの主成分(マーケット要因抽出)
因子分析(FA)と PCA との違い
因子分析(Factor Analysis) は『観測されない潜在因子 が観測変数を生成する』というモデル。心理学・社会学で多用されます。
因子分析モデル
: 共通因子(latent factors)、: 因子負荷行列、: 独自因子。
PCA が 総分散 の説明を目指すのに対し、因子分析は 共通分散 だけを共通因子で説明し、独自分散は別扱い。
PCA vs FA
PCA: 観測変数の 線形結合 で主成分を構成。データ要約・次元削減目的
FA: 潜在因子から観測変数を 生成するモデル。仮説検証・潜在構造の解釈目的
回転(rotation): FA の解釈を改善する手法。Varimax(直交回転)・Promax(斜交回転)が標準
実務での使い分け
『データを要約したい・次元削減したい』 → PCA 『裏に潜む因子構造を仮説的に検証したい』 → FA
両者は表面上似ていますが目的が違うので、解釈論文には『PCA か FA か』を明記するのが現代の標準。マーケ調査の 顧客心理 や ブランド評価 などは FA、画像処理の前処理は PCA、と分かれます。
第 8 章 · 時系列分析の入口
時系列データの特徴と定常性
時系列データ は『時間順に並んだ観測データ』。株価・気温・売上・GDP など実務で頻出。普通の統計と違うのは 観測値が独立でない こと。
時系列の主要成分
Trend(トレンド): 長期的な傾向
Seasonality(季節性): 周期的なパターン(年・月・週)
Cycle(循環): 不規則な周期変動(景気循環など)
Irregular(不規則): ランダムなノイズ
加法モデル 、または 乗法モデル 。
弱定常性
時系列 が 弱定常 とは:
1. が時間によらず一定 2. が時間によらず一定 3. 自己共分散 が ラグ にのみ依存(時刻 によらない)
多くの時系列モデルが定常性を前提にするので、差分・対数変換 で定常化してから分析するのが標準。
自己相関と AR モデル
時系列の 過去の値と現在値の関係 を測るのが自己相関。それをモデル化するのが AR モデルです。
自己相関関数(ACF)
自己相関関数(ACF): 。ラグ の自己相関
偏自己相関関数(PACF): 中間ラグの影響を取り除いた純粋な依存。AR モデルの次数決定で使う
Box-Jenkins 法: ACF / PACF パターンから AR / MA / ARIMA モデルを選ぶ古典手法
AR(p) モデル
過去 期の値の線形結合 + ホワイトノイズ。定常性条件: 特性方程式 の根が単位円外。
AR(1): 。 なら 平均回帰(過去から平均に引き戻される)、 で ランダムウォーク(差分が白色ノイズ)、 で発散。金利・為替・在庫 などのモデルで使われ、Vasicek 利率モデル はこの形。
MA・ARIMA・Box-Jenkins 法
AR を補完する MA モデル、両者を統合した ARIMA モデル、それらを実データに適用する Box-Jenkins 法。
MA(q) モデル
過去 期のショック(ホワイトノイズ)の線形結合。MA(q) は常に弱定常。
ARIMA(p, d, q)
AR + I(差分) + MA を組み合わせ、 階差分を取って定常化したあとに ARMA(p, q) を適用するモデル。
- → ARMA - → 1 階差分(典型例: ランダムウォーク) - 季節性込みなら SARIMA(p,d,q)(P,D,Q)
Box-Jenkins 法のフロー
- ステップ 1: 同定 ─ ACF / PACF プロットで p, d, q を推定
- ステップ 2: 推定 ─ 最尤推定で を求める
- ステップ 3: 診断 ─ 残差の自己相関を Ljung-Box 検定で確認
- ステップ 4: 予測 ─ 推定モデルで未来を予測 + 信頼区間
R: `forecast::auto.arima()` がベスト・プラクティスを自動化 Python: `statsmodels.tsa.arima.model.ARIMA`、`pmdarima.auto_arima` 現代的代替: Prophet(Facebook)・NeuralProphet・LSTM/Transformer による時系列予測
準 1 級・1 級ではより理論的に深く扱います。
第 9 章 · ベイズ統計の入口
ベイズの定理と事前/事後分布
ベイズ統計 は『事前知識をデータで更新する』という発想の統計学。頻度主義(これまで扱った手法)と並ぶ二大流派。
ベイズの定理
事後分布 = 尤度 × 事前分布 ÷ エビデンス
パラメータを 確率変数 とみなすのがベイズの大きな特徴。
事前分布の種類
- 主観事前分布: 過去の知識・専門家意見を反映
- 無情報事前分布: 一様分布など、特定の方向に偏らせない
- 共役事前分布: 事後分布が事前と同じ族(計算が解析的)
- Jeffreys 事前: パラメータ変換に不変な無情報事前
- 正則化事前: 機械学習の正則化と等価(Ridge ⇔ ガウス事前)
頻度主義: パラメータ は固定値、データが確率変数。『この区間に真値が入る確率』は語れない
ベイズ: も確率変数。『95% の事後確率で がこの範囲』と直接言える
直感的には ベイズの方が分かりやすい(信用区間の解釈)が、計算は MCMC など重い。
共役事前分布と更新
共役事前分布 は、事後が事前と同じ族になる便利な選択。手で計算できる古典的なベイズ。
ベルヌーイ-ベータ共役
事前:
尤度: 、観測 個成功
事後:
ベータ分布のパラメータが成功・失敗回数で更新される という直感的な形。Web の A/B テストで頻用。
正規-正規共役
事前:
尤度: 、 既知、 観測
事後: 、ただし
事前と標本平均の 精度加重平均。 が増えると標本平均に収束。
共役族の利点
共役事前は オンライン学習 で重宝。データが 1 つ追加されるたびに事後分布を 手で計算 できる。多腕バンディット の Thompson Sampling、スパムフィルタ(ナイーブベイズ)などで実用化。MCMC 不要で軽量。
信用区間と仮説検定のベイズ的扱い
頻度主義の信頼区間・仮説検定に対応する、ベイズ的な区間推定・モデル比較。
信用区間(Credible Interval)
事後分布の 95% を含む区間。。真の値がこの区間に含まれる確率が 95% と直接解釈できる(頻度主義の信頼区間とは意味が違う)。
HDI(Highest Density Interval): 確率密度が高い区間を選ぶ標準形。
ベイズファクター
2 つのモデル について:
Kass-Raftery の解釈基準: BF ∈ [1, 3] = 弱い証拠、[3, 20] = 中程度、[20, 150] = 強、>150 = 決定的。p 値の代替として推奨されつつあります。
実務でのベイズ
- A/B テスト: 早期停止・任意サンプルサイズで意思決定
- 階層モデル: 複数の集団を共通の超パラメータで結ぶ
- ベイズ最適化: ハイパラ探索(Optuna・GPyOpt)
- Bayesian Neural Network: 不確実性を含めた予測
- Multi-Armed Bandit: 探索と利用のトレードオフ
頻度主義 vs ベイズの『論争』は 20 世紀の話。現代では 両者の長所を使い分ける プラグマティックな立場が主流。Frequentist Properties of Bayesian Procedures(頻度主義的性質をもつベイズ手法)も研究され、統合的視点 が定着しています。準 1 級ではベイズをより深く扱います。
第 10 章 · 2 級総まとめと準 1 級への橋渡し
2 級で身に付いた力の総まとめ
2 級教科書 9 章を歩いてきて、実務統計の主要道具がすべて揃いました。
9 章の地図
- Ch1 推定の基礎: 標本から母集団へ・信頼区間
- Ch2 仮説検定: t 検定・p 値・第一種第二種の誤り
- Ch3 回帰分析: 単回帰・重回帰・残差診断
- Ch4 ANOVA: 一元配置・二元配置・交互作用
- Ch5 分割表とロジ回帰: カイ二乗・OR・MH・ロジスティック
- Ch6 ノンパラ検定: Wilcoxon・MWU・Kruskal-Wallis
- Ch7 多変量入門: PCA・因子分析
- Ch8 時系列入門: ACF・AR・ARIMA
- Ch9 ベイズ入門: ベイズの定理・共役分布・信用区間
Ch1-9 で 論文・レポート・ビジネスデータ分析の 90% はカバーできます。残り 10% が準 1 級・1 級の専門領域。まずここまでをしっかり身につける ことが、実務統計家・研究者として独り立ちする大きな目印です。
実務でよく出会うパターン集
実務でよく出会う 状況別の選択ガイド をまとめます。
目的別フローチャート
- 2 群の平均比較(連続): 正規 → t 検定 / 非正規 → MWU
- 3 群以上の平均比較: 正規 → ANOVA / 非正規 → Kruskal-Wallis
- 2 変数の関連(連続 × 連続): 線形 → ピアソン相関 / 単調 → スピアマン相関
- カテゴリ × カテゴリ: 大標本 → χ² / 小標本 → Fisher 正確検定
- 連続 → 連続予測: 線形 → 重回帰 / 非線形 → GAM・GBM
- 連続 → 二値予測: ロジスティック回帰
- 時系列予測: 短期 → ARIMA / 季節性強 → SARIMA / 複雑 → Prophet
- 多変量要約: 線形 → PCA / 潜在因子 → FA
報告のチェックリスト
- 標本サイズ・データの出どころ を明記
- 前提条件(正規性・等分散・独立性)を確認
- 効果量・信頼区間 を p 値と併記
- 多重比較補正(必要なら)
- 仮定が崩れたときの代替手法 に言及
- 外れ値の扱い を透明に
- 結論の限界 を記載
準 1 級で広がる新世界
準 1 級では、本書の入門レベルを超えた 専門領域への扉 が開きます。13 章構成で、現代統計学の主要応用分野を網羅。
準 1 級の主要トピック
- 確率分布の応用: ポアソン回帰・指数分布の応用
- ベイズ統計: MCMC・階層モデル・WBIC
- 多変量解析: 主成分・因子分析・判別分析・対応分析
- 時系列解析: ARIMA 詳細・状態空間モデル・季節調整
- 多変量解析の発展: クラスター分析・MDS・正準相関
- GLM: ポアソン・ガンマ・順序ロジット・GAM
- ANOVA: 多元配置・反復測定・混合モデル
- ノンパラ: ブートストラップ・順位検定・分割表
- 生存時間解析: Kaplan-Meier・Cox 比例ハザード
- 実験計画法: 直交配列・応答曲面法・タグチメソッド
- ブートストラップ: ノンパラ・ペアワイズ・ブロック
- 因果推論: DAG・傾向スコア・操作変数法
- 空間/ネットワーク統計: モラン I・SAR/CAR・ERGM
学習リソース
- [準 1 級 教科書](/textbook/grade-pre1) ─ 13 章で実務応用を網羅
- 統計学実践ワークブック(学術図書): 準 1 級の標準テキスト
- プログラミングと組合せ: R / Python での実装(本サイト [プログラミング教科書](/programming))
- Kaggle / SIGNATE: 実データで腕試し
2 級は 実務で『一通り戦える』レベル の認証ですが、現代統計学はここから先が広大。因果推論・ベイズ・機械学習 などは、準 1 級・1 級・E 資格・DS 検定で深く扱います。本書 9 章を足場に、専門領域 に進んでください。あなたの統計の旅、応援しています。
2級 のおすすめ参考書
当サイトは Amazon.co.jp を宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazon アソシエイト・プログラムの参加者です。