Textbook

準1級教科書

準1級は、現代統計学の主要トピックを横断的に扱う応用級です。特定の分布の性質を深く知り、ベイズ的なものの見方を取り入れ、多変量データや時系列データを扱う ─ 統計検定の最終目的が「数理統計学の理論」(1級)なら、準1級は「実務で使える統計学のフルセット」と言えます。なお、本級は出題範囲が広く、ワークブック(学術図書出版社)を軸に学ぶのが事実上の標準ルートです。本サイトはその補助教材として活用してください。

第 1 章 · 確率分布の応用
ポアソン・指数・幾何といった離散・連続分布の役割を整理し、多変量正規分布へと進みます。
- 1.1 ポアソン・指数・幾何分布
- 1.2 多変量正規分布
第 2 章 · ベイズ統計
「データを見たあとに信念をどう更新するか」 ─ ベイズの定理を出発点に、事前分布・事後分布・共役分布までを扱います。
- 2.1 ベイズの定理と事後分布
- 2.2 共役分布と MAP 推定
第 3 章 · 多変量解析の入口
重回帰、ロジスティック回帰、主成分分析という、多変量解析の三本柱を扱います。
第 4 章 · 時系列解析
時系列データ特有の概念(自己相関・定常性)と、AR・MA・ARIMA といった基本モデルに触れます。
- 4.1 AR・MA・ARIMA モデル
第 5 章 · 多変量解析の発展
因子分析・判別分析・クラスタリングなど、PCA に続く多変量解析の主要手法を扱います。
第 6 章 · 一般化線形モデル(GLM)
正規・二項・ポアソンといった応答変数を統一的に扱う枠組み GLM、および主要なモデル(ポアソン回帰など)を整理します。
- 6.1 GLM の枠組み
- 6.2 ポアソン回帰と過分散
第 7 章 · 分散分析(ANOVA)
3 群以上の平均比較・要因の効果評価のための ANOVA を、一元配置・二元配置・交互作用まで整理します。
- 7.1 一元配置分散分析
- 7.2 二元配置と交互作用
第 8 章 · ノンパラ検定と分割表
正規性を仮定しないノンパラ検定と、カテゴリデータを扱う分割表の検定法を整理します。
- 8.1 ノンパラメトリック検定
- 8.2 分割表の検定
第 9 章 · 生存時間解析
イベント発生までの時間を、打ち切りデータを考慮しながら扱う手法を整理します。医療統計・離反分析の中核技術。
- 9.1 生存関数とハザード関数
- 9.2 カプラン・マイヤー法と Cox 比例ハザード
第 10 章 · 実験計画法
限られた試行回数で要因の効果を効率的に評価する実験計画の基本概念を扱います。
- 10.1 実験計画の基本
- 10.2 直交表と一部実施計画

Chapter 1

第 1 章 · 確率分布の応用

§1.1

ポアソン・指数・幾何分布

二項分布と正規分布は 3 級で学んだ「主役分布」でしたが、現実の現象を数式で表現するには、それ以外にもいくつか重要な仲間が必要です。本節では、稀な事象の発生回数(ポアソン)、待ち時間(指数)、初成功までの試行回数(幾何)─ 3 つの分布を整理して扱います。

ポアソン分布

定義 ─ ポアソン分布

単位時間(または単位空間)あたり平均 $λ$ 回起こる稀な事象の発生回数 $X$ は、ポアソン分布 $Po (λ)$ に従う。

$P (X = k) = \frac{λ ^{k} e ^{- λ}}{k !} (k = 0, 1, 2, \dots)$

$E [X] = λ, V [X] = λ$ 。

「平均と分散が等しい」という強い特徴があります。コールセンターへの 1 時間あたりの着信数、Web サイトの 1 分あたりのアクセス数、商店の 1 日の客数 ─ こうしたものはたいていポアソン分布で近似できます。

実務での使い方:アクセス数の異常検知

Web サイトの平常時のアクセス数を $Po (λ)$ でモデル化しておくと、「平均より明らかに多い時間帯」を確率付きで検出できます(例: $P (X \geq k)$ が 0.01 未満なら異常)。サーバ運用の負荷予測・営業時間別の人員配置・故障件数の管理など、『稀に起きるイベント数』はほぼポアソンの出番です。

もう一つ重要な事実: 二項分布 $Bin (n, p)$ で「 $n$ が大きく $p$ が小さく、 $n p = λ$ が一定」のとき、ポアソン分布 $Po (λ)$ で近似できる(ポアソンの極限定理)。「 $n$ がたくさんあり、それぞれ稀にしか起こらない事象」を扱う際の典型的な近似です。

指数分布 ─ ポアソン現象の待ち時間

定義 ─ 指数分布

ポアソン過程(平均 $λ$ のポアソン分布で発生する事象列)において、隣り合う事象の間隔(待ち時間) $T$ は指数分布 $Exp (λ)$ に従う。

$f (t) = λ e^{- λ t} (t \geq 0)$

$E [T] = 1/ λ, V [T] = 1/ λ^{2}$ 。

「平均 $λ$ 件 / 単位時間」起こる現象の隙間は、平均 $1/ λ$ 単位時間。直感どおりです。指数分布は 無記憶性 という不思議な性質をもち、 $P (T > s + t ∣ T > s) = P (T > t)$ が成り立ちます ─ 「待った時間がどれだけあっても、これからの待ち時間の分布は変わらない」。

無記憶性のたとえ

電球が切れる時間が指数分布だとすると ─ すでに 1 年使った電球も、新品の電球も、『これから何年もつか』の確率分布は同じということ。人間の感覚では『古いほうが切れやすい』が自然ですが、ポアソン過程ではそうならない。これは『過去の使用が今後に影響しない』という強い理想化で、実物の電球には当てはまりませんが、放射性原子の崩壊や Web リクエストの間隔ではよい近似になります。

幾何分布 ─ 初めて成功するまで

定義 ─ 幾何分布

成功確率 $p$ のベルヌーイ試行を独立に繰り返したとき、初めて成功するまでの試行回数 $X$ は幾何分布に従う。

$P (X = k) = (1 - p)^{k - 1} p (k = 1, 2, \dots)$

$E [X] = 1/ p, V [X] = (1 - p) / p^{2}$ 。

「あたりの確率が $p = 1/5$ のくじを引き続けるとき、初めてあたるまで平均 $5$ 回」 ─ これも直感に合います。幾何分布も指数分布同様、無記憶性をもつ離散版の典型です。

分布の使い分け早見表

二項 $Bin (n, p)$ : $n$ 回中の成功回数。回数固定。
幾何 $Geo (p)$ : 初成功までの試行回数。回数が確率変数。
ポアソン $Po (λ)$ : 単位時間の発生回数。 $n \to \infty, p \to 0$ の二項極限。
指数 $Exp (λ)$ : ポアソン現象の待ち時間。連続分布。
正規 $N (μ, σ^{2})$ : 中心極限定理で多くの平均量に登場。

§1.2

多変量正規分布

「身長と体重」のように複数の正規分布的な量が同時に揺れているとき、その結合分布を扱う枠組みが多変量正規分布です。準1級・1級ともに最重要分布の一つで、主成分分析・回帰分析・判別分析など多くの応用に登場します。

多変量正規分布の定義

定義 ─ 多変量正規分布

$k$ 次元確率ベクトル $X = (X_{1}, \dots, X_{k})^{⊤}$ が、平均ベクトル $μ$ 、分散共分散行列 $Σ$ (正定値対称)の多変量正規分布 $N_{k} (μ, Σ)$ に従うとは、確率密度関数が

$f (x) = \frac{1}{( 2 π ) ^{k /2} ∣Σ ∣ ^{1/2}} exp (- \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ))$

で与えられること。

性質

周辺分布も正規: $X_{i}$ それぞれは 1 次元正規分布に従う。
線形変換は正規: $Y = A X + b$ も多変量正規分布( $Y \sim N (A μ + b, A Σ A^{⊤})$ )。
条件付き分布も正規: $X_{2} = x_{2}$ で条件付けた $X_{1}$ の分布も正規。
無相関 ⟺ 独立: 一般の確率変数では無相関と独立は別だが、多変量正規分布のときは「相関 0」なら独立が成り立つ。

等高線で見る 2 変数正規分布

2 変数正規分布の確率密度を等高線で描くと、楕円になります。楕円の中心が平均ベクトル $μ$ 、楕円の傾き(主軸の向き)が共分散行列 $Σ$ の固有ベクトル、楕円の長さが固有値です。主成分分析が「分散の大きい方向を見つける」のは、まさにこの楕円の長軸を求める操作 ─ 多変量正規分布と PCA は『同じ楕円を別の角度から見ている』のです。

2 変数正規分布の例

$k = 2$ のとき、 $(X, Y) \sim N_{2} (μ, Σ)$ の分散共分散行列は次のように書けます。

Σ = (σ_{X}^{2} ρ σ_{X} σ_{Y} ρ σ_{X} σ_{Y} σ_{Y}^{2})

$ρ$ は $X$ と $Y$ の相関係数。 $ρ = 0$ なら $X$ と $Y$ は独立(無相関 ⇔ 独立、上記性質)。 $∣ ρ ∣$ が大きいほど $Σ$ の楕円が細長くなり、データが直線的なパターンを描きます。

条件付き期待値 ─ 回帰の本質

公式 ─ 2 変数正規分布の条件付き期待値

$(X, Y) \sim N_{2} (μ, Σ)$ のとき、 $X = x$ で条件付けた $Y$ の期待値は

$E [Y ∣ X = x] = μ_{Y} + ρ \frac{σ _{Y}}{σ _{X}} (x - μ_{X})$

つまり $x$ の線形関数。これがまさに回帰直線!

$Y$ を $X$ で予測する最良(最小二乗の意味で)の予測子は、多変量正規分布のもとでは線形 ─ つまり回帰直線そのものになる、というのがこの公式の意味するところです。「なぜ最小二乗法は線形回帰を導くのか」の理論的背景がここにあります。

応用への橋渡し

多変量正規分布は、本章以降の主成分分析・判別分析・多変量回帰、さらにはベイズ統計の事後分布の議論など、準1級の主要トピックすべての土台になります。「複数次元の正規分布は 1 次元の正規分布の素直な拡張」という感覚をしっかり身につけておくと、後の学習がぐっと楽になります。

Chapter 2

第 2 章 · ベイズ統計

§2.1

ベイズの定理と事後分布

ここまで学んできた古典的な統計学(頻度主義)では、母数 $θ$ は「未知だが固定された値」と考えました。一方、本章で扱うベイズ統計学では、母数 $θ$ 自体を「確率分布をもつ確率変数」と捉え、データを観測するたびにその分布を更新していく ─ という根本的に異なる立場をとります。

ベイズの定理

定理 ─ ベイズの定理

母数 $θ$ の事前分布を $π (θ)$ 、データ $D$ の尤度を $p (D ∣ θ)$ とすると、データ観測後の母数の事後分布は

$π (θ ∣ D) = \frac{p ( D ∣ θ ) π ( θ )}{\int p ( D ∣ θ ^{'} ) π ( θ ^{'} ) d θ ^{'}} \propto p (D ∣ θ) π (θ)$

右辺の分母 $\int p (D ∣ θ^{'}) π (θ^{'}) d θ^{'} = p (D)$ はデータの周辺尤度(エビデンス)で、 $θ$ には依存しません。実用上は分母を計算せず、 $\propto$ の関係から事後分布の形を読み取ることが多いのが特徴です。

図: 事前 Beta(2,2) → 観測「9 成功 1 失敗」→ 事後 Beta(11,3)。データで信念が更新される

ベイズ更新の感覚

事前分布(灰色)は最初の信念 ─ 「成功確率はだいたい 0.5 あたりだろう」。データを観測した尤度(橙)は「9 回成功・1 回失敗だったから、たぶん 0.7 〜 1.0 あたりだろう」と主張。両者を掛け合わせた事後(青)は、その妥協点に山が来る ─ これがベイズ更新の幾何学的なイメージです。データが増えるほど、事前の影響は薄れて尤度寄りに引っ張られます。

用語のまとめ

事前分布 $π (θ)$ : データを見る前の $θ$ への信念。
尤度 $p (D ∣ θ)$ : 「 $θ$ がこの値だったら、このデータが出る確率」。
事後分布 $π (θ ∣ D)$ : データを観測した後の $θ$ への信念。
周辺尤度 $p (D)$ : データだけの確率。モデル選択の指標としても用いる。

例題 2.1 ─ 検査の陽性的中率

ある病気の有病率 $π (D) = 0.01$ 、検査の感度 $P (+ ∣ D) = 0.99$ 、偽陽性率 $P (+ ∣ D^{c}) = 0.05$ のとき、陽性と判定された人が実際に病気である確率(陽性的中率)を求めよ。

解 : ベイズの定理より

$P (D ∣ +) = \frac{P ( + ∣ D ) π ( D )}{P ( + ∣ D ) π ( D ) + P ( + ∣ D ^{c} ) π ( D ^{c} )} = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.05 \times 0.99} = \frac{0.0099}{0.0594} \approx 0.167$

つまり、陽性と出た人のうち実際に病気の人は約 $17%$ 。「有病率がそもそも低いと、陽性的中率も意外と低い」というベイズの教訓。

頻度主義 vs ベイズ

頻度主義: $θ$ は固定値。「同じ実験を多数回繰り返したらどうなるか」で議論する。p 値・信頼区間がここに属する。
ベイズ: $θ$ も確率変数。「いま手元のデータを見て、 $θ$ への信念をどう更新するか」が中心問い。事後分布を直接扱う。
実務上の使い分け: 大量データなら結果はだいたい一致。事前知識を組み込みたい・サンプルが少ない・確率的解釈をしたい、ならベイズが有利。

「事前分布は主観的すぎないか?」という批判は古くからあります。これに対しては「無情報事前分布」(一様分布など)を使う、「結果が事前にあまり依存しないことを確かめる」(感度分析)、といった対応がとられます。データ量が増えると、事後分布は事前分布の選び方によらず似た形に収束していく ─ という性質も、ベイズ統計の安心材料です。

§2.2

共役分布と MAP 推定

ベイズ更新は数式上は $π (θ ∣ D) \propto p (D ∣ θ) π (θ)$ と書くだけですが、実際に事後分布の閉じた形を計算するのは一般には非常に難しい問題です。ところが、事前分布と尤度の組み合わせを上手に選ぶと、事後分布が事前分布と同じ族の分布として閉じた形で書ける ─ こうしたペアを共役分布(conjugate prior)といいます。

代表的な共役関係

定理 ─ ベータ-二項共役性

尤度が二項分布 $Bin (n, θ)$ 、事前分布が $θ \sim Beta (α, β)$ のとき、 $X = k$ を観測したあとの事後分布は

$θ ∣ X = k \sim Beta (α + k, β + n - k)$

つまり「事前のパラメータに観測の成功数・失敗数を足す」だけ。

例題 2.2 ─ コインの偏り推定

「公平か少し怪しい」コインの表確率 $θ$ について、事前分布を $Beta (2, 2)$ (平均 0.5、ある程度バラついた事前)とおく。 $10$ 回投げて表が $7$ 回出たとき、事後分布は?

解 : ベータ-二項共役性より、事後分布は $Beta (2 + 7, 2 + 3) = Beta (9, 5)$ 。事後の期待値は $9/ (9 + 5) = 9/14 \approx 0.643$ 。事前 $0.5$ から観測値 $0.7$ の方向にじわっと動いた、と読める。

他の代表例

ベータ-ベルヌーイ / ベータ-二項: 比率の推定の定番。
ガンマ-ポアソン: 単位時間あたりの発生率 $λ$ の推定。
正規-正規( $σ^{2}$ 既知): 正規分布の平均 $μ$ の推定。
逆ガンマ-正規: 正規分布の分散 $σ^{2}$ の推定。
ディリクレ-カテゴリカル: 多カテゴリの比率の推定。

MAP 推定

定義 ─ 最大事後確率(MAP)推定

事後分布を最大化する点として求める母数の点推定値

$\hat{θ}_{MAP} = ar g max_{θ} π (θ ∣ D) = ar g max_{θ} p (D ∣ θ) π (θ)$

を最大事後確率(MAP)推定という。

MAP 推定は「事後分布の最頻値(モード)」を点として返す方法。事前分布が一様(無情報)なら、MAP は最尤推定(MLE)と一致します。逆に、事前分布として正規分布や Laplace 分布をおくと、それぞれ機械学習でいうリッジ正則化・ラッソ正則化付きの推定と等価になる ─ 「事前分布 ↔ 正則化項」という対応は、ベイズの実用的な見どころの一つ。

事後の要約 ─ 何で代表させるか

事後平均 $E [θ ∣ D]$ : 平均二乗誤差を最小化する点推定。
事後最頻値(MAP): 事後分布のピーク。
事後中央値: 外れ値に強い。
信用区間(credible interval): $95%$ の確率で $θ$ が含まれる区間。頻度主義の信頼区間と似て非なるもの(解釈がより素直)。

古典統計の信頼区間は「同じ実験を繰り返したときに区間が真の値を含む確率」、ベイズの信用区間は「真の値がこの区間に入っている確率」。後者のほうが直感的な解釈に合います ─ これがベイズの大きな魅力の一つです。

事後平均・MAP・中央値の使い分け

事後分布が左右対称(=正規分布的)ならこの 3 つは一致しますが、裾が片方に長い(歪んだ)分布だと食い違います。例えば故障時間のような『右に長い』分布なら、MAP(=モード)は小さめ、事後平均は大きめ、中央値はその間。実務では『損失をどう定義するか』で選びます ─ 二乗誤差を嫌うなら事後平均、絶対誤差なら中央値、最も起きやすい値が知りたいなら MAP、というのが教科書的な対応です。

Chapter 3

第 3 章 · 多変量解析の入口

§3.1

重回帰モデル

2 級では説明変数が 1 つの単回帰を扱いました。準1級ではいよいよ複数の説明変数を同時に扱う重回帰モデルに進みます。「気温」だけでなく「曜日」「天気」「キャンペーン有無」など、複数の要因をまとめて分析できるようになります。

重回帰モデル(行列表現)

モデル ─ 重回帰

観測 $(y_{i}, x_{i 1}, \dots, x_{ik})$ ( $i = 1, \dots, n$ )に対し

$y_{i} = β_{0} + β_{1} x_{i 1} + \dots + β_{k} x_{ik} + ε_{i}$

を重回帰モデルという。行列表現では $y = X β + ε$ 。 $X$ は $n \times (k + 1)$ の計画行列(1 列目はすべて 1)、 $β$ は $(k + 1)$ 次元の係数ベクトル。

最小二乗推定量(行列形式)

定理 ─ 最小二乗推定量

$X^{⊤} X$ が正則(列が線形独立)のとき、 $β$ の最小二乗推定量は

$\hat{β} = (X^{⊤} X)^{- 1} X^{⊤} y$

で与えられる。 $\hat{β}$ は不偏( $E [\hat{β}] = β$ )で、誤差が等分散・無相関なら最小分散の不偏線形推定量(BLUE、ガウス・マルコフ定理)。

単回帰の式 $\hat{β} = s_{x y} / s_{x}^{2}$ もこの行列式の特殊ケースになっています。 $X^{⊤} X$ の逆行列が「データの広がり方」を、 $X^{⊤} y$ が「 $y$ との連動」を表していて、両者の比が回帰係数になる、という構造です。

残差・誤差分散の推定

予測値ベクトル $\hat{y} = X \hat{β}$ 、残差ベクトル $e = y - \hat{y}$ 。残差平方和 $RSS = e^{⊤} e$ から、誤差分散の不偏推定量は

\overset{σ}{^}^{2} = \frac{RSS}{n - ( k + 1 )}

分母の自由度 $n - (k + 1)$ は「観測 $n$ 個から、推定したパラメータ $k + 1$ 個ぶんの自由度を引いたもの」。単回帰なら $n - 2$ 、重回帰なら $n - (k + 1)$ です。

決定係数と自由度調整済み $R^2$

定義 ─ 自由度調整済み決定係数

$R_{adj}^{2} = 1 - (1 - R^{2}) \cdot \frac{n - 1}{n - ( k + 1 )}$

を自由度調整済み決定係数という。説明変数を増やすだけで $R^{2}$ が見かけ上上がってしまう問題を補正する。

重回帰では「無関係な変数を 1 つ足すだけで $R^{2}$ がわずかに上がる」のがほぼ確実に起こります。これを防ぐため、 $R_{adj}^{2}$ は変数の数に応じてペナルティを課します。モデル比較では $R^{2}$ より $R_{adj}^{2}$ 、AIC や BIC を見るのが定石。

係数の検定とモデル全体の F 検定

個々の係数の検定: $H_{0} : β_{j} = 0$ を $T_{j} = \hat{β}_{j} / SE (\hat{β}_{j}) \sim t (n - k - 1)$ で検定。
全体の F 検定: $H_{0} : β_{1} = \dots = β_{k} = 0$ (全係数 $0$ )を、 $F = (R^{2} / k) / ((1 - R^{2}) / (n - k - 1)) \sim F (k, n - k - 1)$ で検定。

多重共線性 ─ 重回帰の落とし穴

用語 ─ 多重共線性

説明変数どうしが強く相関しているとき、 $X^{⊤} X$ が逆行列を持ちにくくなり、係数推定が極端に不安定になる現象。 $\hat{β}_{j}$ の標準誤差が極端に大きくなる、係数の符号が予想と逆になる、といった症状が現れる。

対処法: 相関の強い変数のうち片方を除く / 主成分分析で次元削減 / リッジ回帰で正則化。VIF(分散拡大係数)で多重共線性を診断するのも一般的。重回帰を実務で扱うときには、まず VIF を確認するのが定石です。

係数の符号が逆転する『シンプソンのパラドックス』

重回帰では「身長 → 給料」の単回帰では正の係数だった変数が、性別を加えた重回帰では負になる、ということが起きえます。これは『性別を統制した上での身長効果』を見ているためで、必ずしもバグではない ─ ただし、実務では『どの変数を入れたか』で係数の解釈が変わるので、論文・分析報告では使った変数を必ず明示する必要があります。

§3.2

ロジスティック回帰

重回帰は応答変数が連続値のときの道具でした。ところが「合格/不合格」「クリック/非クリック」「病気/健康」のような 二値の応答変数 を扱いたい場面はとても多くあります。本節では、こうしたデータに対する標準的な手法 ─ ロジスティック回帰を学びます。

なぜ重回帰ではダメなのか

応答 $y$ が $0$ または $1$ のとき、素朴に $y = β_{0} + β_{1} x + ε$ で予測すると、予測値 $\overset{y}{^}$ が $0$ より小さくなったり $1$ を超えたりしてしまいます。「確率」として解釈したいのに、 $[0, 1]$ の範囲に収まる保証がない。これを解決するのがロジット変換です。

ロジスティック回帰モデル

モデル ─ ロジスティック回帰

$Y_{i} \in {0, 1}$ について、 $P (Y_{i} = 1 ∣ x_{i}) = p_{i}$ とし、

$lo g (\frac{p _{i}}{1 - p _{i}}) = β_{0} + β_{1} x_{i 1} + \dots + β_{k} x_{ik}$

を仮定するモデルをロジスティック回帰という。左辺をロジット(対数オッズ)という。

ロジット関数 $logit (p) = lo g (p / (1 - p))$ は $(0, 1) \to (- \infty, + \infty)$ への変換。これを使うことで「確率を線形回帰の枠組みで扱う」ことができます。逆変換は $p = \frac{1}{1 + e ^{- (β_{0} + β_{1} x + \dots)}}$ というシグモイド関数で、必ず $(0, 1)$ に収まる、というわけです。

オッズ比の解釈

性質 ─ 係数の解釈はオッズ比

ロジスティック回帰の係数 $β_{j}$ について、 $x_{j}$ が 1 単位増えたときのオッズ比は $e^{β_{j}}$ 。「他の変数を固定したまま $x_{j}$ を 1 増やすと、オッズが $e^{β_{j}}$ 倍になる」と解釈する。

例題 3.2

ロジスティック回帰で「年齢が 1 歳増えたとき」の係数 $\hat{β} = 0.693$ と推定された。年齢が 1 歳上がると病気のオッズはどう変化するか?

解 : オッズ比 $= e^{0.693} \approx 2.0$ 。つまり「年齢が 1 歳上がると病気のオッズが 2 倍になる」と解釈する( $ln 2 \approx 0.693$ を覚えておくと便利)。

実務での使い方:与信スコアリング

銀行の融資審査・クレジットカードの与信枠決定では、ロジスティック回帰が長らく標準でした(近年は勾配ブースティングが台頭)。「年収 / 勤続年数 / 過去の延滞回数 / 業種」など 10〜20 個の変数からデフォルト確率を出力 → 閾値で承認/否認を決定、というフロー。ロジスティック回帰が選ばれてきたのは、係数(オッズ比)が解釈可能で『なぜ否認したのか』を顧客にも金融庁にも説明しやすいから。説明責任が問われる領域では今も主役です。

推定方法 ─ 最尤推定

重回帰では最小二乗法でしたが、ロジスティック回帰では最尤推定を使います。尤度関数は $L (β) = \prod_{i = 1}^{n} p_{i}^{y_{i}} (1 - p_{i})^{1 - y_{i}}$ この対数を取って最大化します。閉じた解はないので、ニュートン法やフィッシャースコアリング法のような反復計算で解くのが標準。実装は統計ソフトに任せて、出力の読み解きに集中するのが実務的です。

二項分布との関係

ロジスティック回帰は、応答 $Y_{i}$ が二項分布(成功確率 $p_{i}$ がモデルに依存)に従うと仮定したモデルです。これを一般化したのが一般化線形モデル(GLM)で、応答分布が指数型分布族(二項・ポアソン・ガンマ・正規など)のときに、リンク関数で平均と線形予測子をつなぐ枠組み。ロジスティック回帰は GLM の代表例で、リンク関数がロジット、応答分布が二項です。

§3.3

主成分分析(PCA)

「100 個の変数があるデータを、できるだけ情報を保ったまま 2〜3 個に圧縮したい」 ─ 多変量データの次元削減のもっとも基本的な手法が、本節で学ぶ主成分分析(PCA)です。

アイデア ─ 「ばらつきが大きい方向」を見つける

$p$ 個の変数からなるデータの分散共分散行列を $Σ$ とします。データを「ある方向 $v$ 」に射影したときの分散が最大になる方向を探す ─ それが第1主成分の方向。次に、第1主成分と直交する方向で分散が最大の方向が第2主成分、というように順次決めていきます。

図: 2 変数データに対する第 1・第 2 主成分。PC1 は分散最大方向、PC2 はそれに直交する方向

なぜ『分散最大方向』が情報なのか

データを 1 軸に圧縮するとき、その軸上で点が広がっているほどデータの違いを保持できます。逆に、軸上に点が密集して並ぶ方向は『区別がつかない』ので情報が少ない。分散の大きさ = 情報量 という直感が PCA の核心です。だから固有値が大きい順に主成分を選べば、情報を最大限残しながら次元を削減できる ─ という幾何学的に美しい結論になります。

実務での使い方:顧客セグメンテーション

EC サイトで「購買頻度・平均購入額・滞在時間・カテゴリ多様性」など 20 〜 50 の特徴量を持つ顧客データを、PCA で 2 〜 3 次元に圧縮 → クラスタリングで顧客タイプ別に分けるのが定番ワークフロー。圧縮後の散布図で『右上のクラスタが優良顧客、左下が休眠顧客』のような直感的な解釈が可能になります。マーケ施策の対象セグメント定義の出発点として広く使われます。

Python / R で PCA を実行する

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import numpy as np

# 適当なデータ(100 行 × 5 列)
X = np.random.randn(100, 5)

# 標準化してから PCA
X_scaled = StandardScaler().fit_transform(X)
pca = PCA(n_components=2)
Z = pca.fit_transform(X_scaled)

print("寄与率:", pca.explained_variance_ratio_)
print("累積寄与率:", pca.explained_variance_ratio_.cumsum())

scikit-learn の PCA / R の prcomp() がデファクト。標準化を忘れずに。

数式での定義

定義 ─ 主成分

分散共分散行列 $Σ$ の固有値分解を $Σ v_{k} = λ_{k} v_{k}$ ( $λ_{1} \geq λ_{2} \geq \dots \geq λ_{p} \geq 0$ )とおく。固有ベクトル $v_{k}$ を第 $k$ 主成分の方向、対応する固有値 $λ_{k}$ を第 $k$ 主成分の分散という。第 $k$ 主成分得点は $z_{ik} = v_{k}^{⊤} x_{i}$ 。

寄与率と累積寄与率

定義 ─ 寄与率

第 $k$ 主成分の寄与率: $\frac{λ _{k}}{\sum _{j = 1}^{p} λ _{j}}$

第 $k$ 主成分までの累積寄与率: $\frac{\sum _{j = 1}^{k} λ _{j}}{\sum _{j = 1}^{p} λ _{j}}$

「データのばらつきの何 % をその主成分で説明できるか」を表す。

例題 3.3

ある分散共分散行列の固有値が $λ_{1} = 5, λ_{2} = 3, λ_{3} = 1.5, λ_{4} = 0.5$ であった。第2主成分までの累積寄与率を求めよ。

解 : 固有値の総和 $= 10$ 。累積寄与率 $= (5 + 3) /10 = 0.80 = 80%$ 。元の 4 次元データを 2 次元に圧縮しても、ばらつきの 80% を保持できる、と読む。

PCA の実用上のポイント

標準化(z スコア化)を先に行う: 単位の異なる変数を扱うとき、PCA は分散の大きい変数に引きずられる。事前に標準化すべきかは状況による。
固有値の大きさで主成分の数を決める: 累積寄与率 70〜80% を目安にする(経験則)。スクリープロット(固有値を順に並べた折れ線図)で「肘」を探すのも定番。
主成分の解釈: 固有ベクトルの成分(loading)を見て、「どの変数が強く効いているか」を読み解く。「サイズ」「形状」のような意味のある軸が見えてくる例が多い。
回転(バリマックス回転など): 解釈を改善するために、主成分軸を回転させる手法もある(因子分析でよく使う)。

PCA は次元削減だけでなく、可視化(2 次元プロット)、ノイズ除去、特徴抽出など多用途の道具。データサイエンスの現場でも頻出するので、概念と固有値分解の対応関係をしっかり押さえておきましょう。

Chapter 4

第 4 章 · 時系列解析

§4.1

AR・MA・ARIMA モデル

売上データ・株価・気温・人口 ─ 時間に沿って観測されるデータを時系列といいます。時系列データには「過去の値が未来に影響する」「季節性がある」など、これまでの「独立同分布」を仮定する分析とは異なる構造があります。本節では、その代表的なモデル化手法 ─ AR・MA・ARIMA ─ を扱います。

定常性 ─ 時系列分析の出発点

定義 ─ 弱定常性

時系列 ${X_{t}}$ について、平均 $E [X_{t}] = μ$ が時刻によらず一定、かつ、共分散 $Cov (X_{t}, X_{t + h}) = γ (h)$ が時刻 $t$ ではなく時間差 $h$ にのみ依存するとき、 ${X_{t}}$ は弱定常(共分散定常)であるという。

「平均もばらつきも、見る時期によって変わらない」というのが定常時系列。たとえば株価は通常、トレンドがあるので定常ではありません(差分を取ると定常に近づくことが多い)。多くの古典的な時系列モデルは、定常時系列を前提に作られています。

図: 時系列の典型的な分解: 原系列 = トレンド + 季節 + 残差

なぜ『定常化してから』モデル化するのか

時系列データはトレンド・季節・ノイズが混じっていて、そのままでは『時刻に応じて法則が変わる』複雑なものです。差分を取ったり季節調整をしたりして 定常な部分(=ノイズに近い純粋なランダム成分) を取り出してから AR・MA をフィッティングする ─ これが ARIMA の基本発想。「混じっているなら分けよ」の数学的実装です。

AR モデル ─ 自分の過去を回帰

定義 ─ AR(p) モデル

$X_{t} = ϕ_{1} X_{t - 1} + ϕ_{2} X_{t - 2} + \dots + ϕ_{p} X_{t - p} + ε_{t}$

( $ε_{t}$ は平均 0、分散 $σ^{2}$ のホワイトノイズ)を $p$ 次の自己回帰モデル AR(p) という。

「いまの値は、過去 $p$ 期の値から線形に決まる(+ ノイズ)」というモデル。AR(1) は $X_{t} = ϕ X_{t - 1} + ε_{t}$ で、 $∣ ϕ ∣ < 1$ のとき定常になります。 $∣ ϕ ∣ = 1$ なら非定常で「ランダムウォーク」、 $∣ ϕ ∣ > 1$ なら発散。

MA モデル ─ 過去のショックの平均

定義 ─ MA(q) モデル

$X_{t} = μ + ε_{t} + θ_{1} ε_{t - 1} + θ_{2} ε_{t - 2} + \dots + θ_{q} ε_{t - q}$

を $q$ 次の移動平均モデル MA(q) という。MA モデルは $θ$ の値によらず常に定常。

AR が「過去の値を引きずる」のに対し、MA は「過去の ノイズ を引きずる」モデル。両者を組み合わせて表現力を上げたのが ARMA(p, q) モデル: $X_{t}$ が過去の値とノイズの両方に依存します。

ARIMA モデル ─ 非定常への対応

定義 ─ ARIMA(p, d, q)

原系列を $d$ 階差分すると定常になる(ARMA(p, q) で表せる)時系列を ARIMA(p, d, q) という。差分演算子 $\nabla X_{t} = X_{t} - X_{t - 1}$ を使って、 $\nabla^{d} X_{t} \sim ARMA (p, q)$ 。

「素のままでは定常じゃないが、差分を取れば定常になる」非定常時系列 ─ 株価や売上のトレンドのあるデータ ─ を扱う基本モデルが ARIMA。 $d = 0$ なら ARMA、 $d \geq 1$ なら差分が必要、というシンプルな構造。

モデル次数の決め方

自己相関関数(ACF): ラグ $h$ ごとの相関を見る。MA(q) なら $h > q$ で 0 に。
偏自己相関関数(PACF): 中間ラグの影響を除いた自己相関。AR(p) なら $h > p$ で 0 に。
情報量規準(AIC・BIC): いくつかの候補モデルを当てはめ、AIC が最小のものを選ぶのが定石。
残差診断: 残差にホワイトノイズらしさが残っているか(リュング・ボックス検定など)。

図: AR(1) (φ=0.7) の ACF。ラグが進むにつれて指数的に減衰

ACF の形でモデルが見える

AR(p) は ACF が ゆっくり減衰(指数的に近づく)し、PACF が p 次でストンとゼロになる。逆に MA(q) は ACF が q 次でストンとゼロ になり、PACF がゆっくり減衰。データの ACF/PACF プロットを見て『この形なら AR(2) か MA(1) かな』と仮説を立てるのが時系列モデル選択の出発点です。図のように 95% CI(±2/√n)を超えるラグを『有意』と判定します。

実務での使い方:需要予測

EC・小売・製造業で『来月の在庫を何個用意するか』を決めるのに ARIMA / SARIMA は今も現役。Python なら `statsmodels.tsa.arima` や `prophet`、R なら `forecast` パッケージで数行で実装できます。重要なのはモデル選びより『どのトレンド・季節を見せるか』のドメイン知識で、純粋な統計だけでは予測できません。新型コロナ・ボーナス時期・天候のような外部要因を説明変数として加える(ARIMAX)のが実務の落とし所です。

Python / R で ARIMA モデルを当てはめる

from statsmodels.tsa.arima.model import ARIMA
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

# 月次売上データ(リスト y)
fit = ARIMA(y, order=(1, 1, 1)).fit()
print(fit.summary())

# 12 期先まで予測
forecast = fit.forecast(steps=12)

# モデル次数の判断には ACF/PACF プロット
plot_acf(y, lags=20)
plot_pacf(y, lags=20)

現代では auto.arima() / pmdarima.auto_arima() で次数選択を自動化するのが主流。

発展トピックへの橋渡し

SARIMA: 季節性を組み込んだ ARIMA。月次・季節データの定番。
VAR: 複数の時系列を同時に扱う多変量モデル。
GARCH: ボラティリティ(分散自体が時間変化)をモデル化。金融データで頻出。
状態空間モデル / カルマンフィルタ: 時系列分析の現代的な統一的枠組み。

ここまでが時系列解析の基本。次章以降では多変量解析を更に広げ、ノンパラ手法・生存解析・実験計画法などの応用領域へと進みます。

Chapter 5

第 5 章 · 多変量解析の発展

§5.1

因子分析

PCA が「観測されたばらつきを最大限保つ」のに対し、因子分析は 観測変数の背後にある潜在因子(共通因子)を仮定 する立場のモデルです。心理測定・教育測定・マーケティング(ブランドイメージなど)で広く使われます。

因子モデル

モデル ─ 因子分析

$p$ 個の観測変数 $x$ が、 $k$ 個の共通因子 $f$ ( $k < p$ )と独自因子 $u$ から線形に説明されるとする:

$x = Λ f + u$

$Λ$ を因子負荷行列(loading matrix)、 $u$ の分散を独自分散(uniqueness)という。

PCA では「分散最大方向」を機械的に取りますが、因子分析では「共通因子で説明できる部分(共通性)と、各観測変数固有の独自分散とを分離する」のがポイント。共通性 = 1 − 独自分散。

PCA と因子分析の違い

PCA は『データを圧縮する』手法(背後の真のモデルを仮定しない記述的な手法)、因子分析は『データを生成した潜在因子を推定する』モデル(統計モデルとして仮説検定もできる)。例えば 50 個の質問項目から『学力』『性格特性』のような少数の概念を抽出したいときは因子分析の出番。試験では『PCA は記述、因子分析はモデル』という対比でよく問われます。

因子の回転

因子分析の解は本質的に 回転の自由度 を持っています(同じ共通性を保ったまま $Λ$ を別の行列に置き換えられる)。これを利用して、解釈しやすい『シンプルな構造』に近づける操作が回転:

バリマックス回転(直交): 各因子で大きい負荷量と小さい負荷量にメリハリをつける。最も標準的。
プロマックス回転(斜交): 因子間の相関を許容したうえで、より解釈しやすい構造を作る。
直交 vs 斜交: 直交回転は因子の独立性を仮定、斜交回転は因子の相関を認める。心理測定では斜交が選ばれることが多い。

実務での使い方:アンケートのスコアリング

「商品 A への 30 個の評価項目」のアンケートを因子分析にかけ、3 因子(『機能満足度』『コスパ感』『デザイン感』)に集約 → 各因子のスコアで顧客を分類、というのが市場調査の定番。SNS の口コミテキストを因子分析する場合もあり、いずれも『観測項目を少数の解釈可能な軸にまとめる』のが実務の利点です。

§5.2

判別分析

「データを与えられたとき、それがどのグループに属するか分類する」という問題を扱うのが判別分析。ロジスティック回帰と並ぶ古典的な分類手法で、特に 正規分布を仮定できる連続変数 のデータで強力です。

線形判別分析(LDA)

原理 ─ 線形判別分析(Fisher の LDA)

2 群( $G_{1}, G_{2}$ )のデータが多変量正規分布に従い、共分散行列が共通( $Σ_{1} = Σ_{2} = Σ$ )と仮定。群間分散 / 群内分散 を最大化する射影方向 $w$ を求めると、判別関数は

$w = Σ^{- 1} (μ_{1} - μ_{2})$

となる。新しい点 $x$ は $w^{⊤} x$ の値が閾値より大きいかで分類。

「群の平均が離れていて、群内のばらつきが小さい方向」を見つけるのが LDA の核心。共分散が等しい仮定が成り立てばロジスティック回帰より少ないデータで安定して動きます。

二次判別分析(QDA)

共分散行列が群ごとに違う( $Σ_{1} \neq = Σ_{2}$ )場合は二次判別分析(QDA)。判別境界が直線でなく 二次曲面 になるため、データに合わせて柔軟な境界を引けますが、推定するパラメータが増えるので過学習しやすい欠点があります。

PCA と LDA の対比

PCA は『分散最大方向』(ラベル無視)、LDA は『群を分ける方向』(ラベル使用)。同じ次元削減でも目的が違います。例えばあやめのがく長・がく幅で、PCA は単に広がりが大きい方向を選びますが、LDA は『3 種類のあやめを最もはっきり分ける方向』を選びます。教師あり vs 教師なしの典型的対比。

現代的な分類手法との対比

LDA: 仮定が成り立つとき効率的。 $n$ が小さくても安定。
ロジスティック回帰: 多変量正規を仮定せずより柔軟。確率出力。
SVM・ランダムフォレスト: 非線形境界を学習可能。 $n$ が大きいときに強い。

§5.3

クラスタリング

ラベルなしデータ(教師なし学習)から、似たデータをグループにまとめる手法がクラスタリング。次元削減と並んで多変量データ探索の主役です。

k-means 法

アルゴリズム ─ k-means

クラスタ数 $k$ を事前に指定。 1. 初期の重心 $c_{1}, \dots, c_{k}$ を選ぶ 2. 各データを最も近い重心のクラスタに割り当てる 3. 各クラスタの平均を新しい重心とする 4. 重心が変わらなくなるまで 2-3 を繰り返す

目的関数は クラスタ内の点と重心の距離の 2 乗和(WCSS)で、これを最小化する。初期値依存性 があるため、複数回ランダムに開始して最良の結果を採るのが定石(k-means++ という賢い初期化法もある)。

k-means は『EM アルゴリズムの特殊例』

1 級で扱う EM アルゴリズムを、ガウス混合モデル(GMM)で『各成分の分散が等しい固定値』に制限すると、ちょうど k-means が出てきます。k-means は GMM の確率版を、最も荒っぽく単純化したもの ─ という理論的位置づけを覚えておくと、ソフトクラスタリング(GMM)に発展する道筋が見えます。

階層的クラスタリング

k-means が「クラスタ数を最初に決める」のに対し、階層的クラスタリングは『最も近いペアから順に併合(または分割)していく』方法で、結果を樹形図(デンドログラム)で表します。クラスタ数を後から自由に決められる柔軟性が利点です。

ウォード法: クラスタ間の分散の増加を最小化。最も標準的。
最短距離法(単連結): 鎖状クラスタを作りやすい。
最長距離法(完全連結): 球状クラスタを作りやすい。
群平均法: 平均距離。バランスが良い。

クラスタ数の選び方

エルボー法: k を増やしながら WCSS をプロットし、『肘』のある k を採用。
シルエット係数: 各点について『同クラスタ内の距離 vs 隣接クラスタへの距離』の比で評価。1 に近いほど良い。
ギャップ統計量: WCSS をランダムデータと比較し、有意に小さくなる k を選ぶ。

実務での使い方:RFM 分析と顧客セグメンテーション

EC・小売の顧客データに対し、最終購買日(Recency)・購買頻度(Frequency)・購買金額(Monetary) の 3 変数で k-means を回し、4〜8 クラスタに分類。出てくるのは『優良固定客』『離反兆候顧客』『新規大型客』のような典型像。各セグメントごとに別のマーケ施策を打つ ─ これが CRM の基本ワークフローで、20 年以上使われ続けている古典的かつ現役の手法です。

Chapter 6

第 6 章 · 一般化線形モデル(GLM)

§6.1

GLM の枠組み

重回帰は応答変数 $Y$ が 正規分布 に従うことを暗黙に仮定した手法でした。実務ではしかし、 $Y$ が二値(成功/失敗)・カウント・確率・正値だけなど 正規分布では扱えない 場合のほうが多い。一般化線形モデル(GLM) は、これらを統一的に扱う枠組みです。

GLM の 3 つの構成要素

確率分布の仮定: $Y$ が指数型分布族(正規・二項・ポアソン・ガンマなど)のいずれかに従う
線形予測子: $η = β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k}$
リンク関数 $g$ : $g (μ) = η$ で平均 $μ = E [Y]$ と線形予測子を結ぶ

代表的な GLM の組合せ

| 応答 $Y$ の分布 | 標準リンク関数 | 名前 | |---|---|---| | 正規 $N (μ, σ^{2})$ | 恒等 $g (μ) = μ$ | 線形回帰 | | 二項 $Bin (n, p)$ | ロジット $g (p) = lo g \frac{p}{1 - p}$ | ロジスティック回帰 | | ポアソン $Po (λ)$ | 対数 $g (λ) = lo g λ$ | ポアソン回帰 | | ガンマ | 逆数 $g (μ) = 1/ μ$ | ガンマ回帰 |

リンク関数の役割

応答の取りうる範囲を、線形予測子の取りうる範囲(全実数)に翻訳する のがリンク関数の役割。確率は $[0, 1]$ 、カウントは $\geq 0$ など制約があるので、ロジット(確率→実数)・対数(正値→実数)で翻訳して、自由に線形モデルを組めるようにする ─ これが GLM の発想です。

推定 ─ 最尤推定

GLM の係数は 最尤推定 で求めます。指数型分布族の性質より、対数尤度が凸関数になるため、ニュートン・ラフソン法(または Iteratively Reweighted Least Squares = IRLS)で安定して大域最適に収束します。実装は R の `glm()`、Python の `statsmodels.GLM` などで一発。

§6.2

ポアソン回帰と過分散

カウントデータ(0 以上の整数)を扱う代表的な GLM がポアソン回帰。「Web ページのアクセス数」「店舗あたりの来客数」「事故件数」など、頻出のデータタイプです。

ポアソン回帰モデル

モデル ─ ポアソン回帰

$Y_{i} \sim Po (λ_{i})$ について、対数リンクを使い

$lo g λ_{i} = β_{0} + β_{1} x_{i 1} + \dots + β_{k} x_{ik}$

を仮定するモデル。係数 $β_{j}$ について、 $x_{j}$ が 1 単位増えると $λ$ は $e^{β_{j}}$ 倍になる。

ポアソン分布は 平均 = 分散 が成り立つので、回帰モデルとしては自然な選択。「広告費を増やすと、平均クリック数は何倍になるか」のような問題で典型的に使われます。

過分散(overdispersion)

用語 ─ 過分散

実データで分散が平均よりも大きい( $V [Y] > λ$ )場合を過分散という。ポアソン回帰の前提が崩れているため、標準誤差が過小評価され、p 値が小さく出すぎる(誤った有意判定の原因)。

準ポアソン回帰(quasi-Poisson): 分散を $ϕ λ$ ( $ϕ > 1$ )とし、過分散パラメータ $ϕ$ も同時に推定。
負の二項回帰: ポアソンよりも分散が大きい『負の二項分布』を仮定。過分散の標準的対処法。
ゼロ過剰モデル(ZIP/ZINB): ゼロが想定以上に多いデータ用(『来客 0 人の日が多い』など)。

過分散はなぜ起きるのか

ポアソン分布は『平均 = 分散』という強い縛りを持っています。実データでは多くの場合、観測しきれない要因(店舗の立地、季節、担当者など)がばらつきを増やすため、分散が平均より大きくなります。これは『モデルに含めていない変数のせいで、ばらつきが膨らんでいる』状態 ─ 完全に解決するには変数を増やすのが本質ですが、それができないときの応急処置が準ポアソンや負の二項です。

実務での使い方:保険料率の算定

自動車保険・医療保険の保険料は『契約者あたりの事故件数』をポアソン回帰で予測して計算するのが伝統的なアプローチ。年齢・走行距離・車種・地域などを説明変数に、事故件数を目的変数として推定 → 期待事故件数を保険料に反映、というフロー。実務では過分散がほぼ常に存在するため、負の二項回帰 が標準的に使われています。

Chapter 7

第 7 章 · 分散分析(ANOVA)

§7.1

一元配置分散分析

「3 種類の肥料 A・B・C で育てた野菜の平均収穫量に差はあるか」「4 つの広告デザインで CV 率に差はあるか」 ─ こうした 3 群以上の平均差 を検定するのが分散分析(ANOVA)です。

なぜ t 検定の繰り返しではダメか

3 群を比較するために A vs B、A vs C、B vs C と 3 回 t 検定をすると、全体としての第 1 種の誤りが膨らむ(α=0.05 を 3 回繰り返すと、少なくとも 1 回は誤判定する確率は約 14%)。これを多重検定の問題といい、ANOVA の出番になります。

一元配置 ANOVA の検定統計量

定理 ─ 一元配置 ANOVA

$k$ 群があり、各群の標本サイズを $n_{j}$ 、群平均を $\overset{ˉ}{X}_{j}$ 、全体平均を $\overset{ˉ}{X}$ とする。

群間平方和: $SSB = \sum_{j = 1}^{k} n_{j} (\overset{ˉ}{X}_{j} - \overset{ˉ}{X})^{2}$ 群内平方和: $SSW = \sum_{j = 1}^{k} \sum_{i} (X_{ij} - \overset{ˉ}{X}_{j})^{2}$

検定統計量

$F = \frac{SSB / ( k - 1 )}{SSW / ( n - k )}$

は $H_{0}$ (全群の平均が等しい)のもとで自由度 $(k - 1, n - k)$ の F 分布に従う。

図: F 分布(d₁=4, d₂=20)と棄却域(α=0.05、F>2.87)

F 統計量は『群間ばらつき / 群内ばらつき』

F の分子は『群と群がどれだけ離れているか』、分母は『各群内でデータがどれだけばらついているか』。群差(=信号)が群内ばらつき(=ノイズ)に対して大きいほど F は大きくなり、 $H_{0}$ を棄却しやすい。t 検定の F 版と覚えると見通しが良くなります。

前提条件

各群が正規分布に従う
各群の分散が等しい(等分散性、ホモジェニアス)
観測が独立

等分散の仮定が崩れた場合は Welch の ANOVA、正規性が崩れた場合は Kruskal-Wallis 検定(ノンパラメトリック版)を使うのが標準的な対応です。

多重比較

ANOVA で『どこかに差がある』と判定された後、『どの群とどの群に差があるか』を特定するのが多重比較。代表的な手法に Tukey の HSD 検定・Bonferroni 補正・Scheffé 法など。各手法は『第 1 種の誤りをどう抑えるか』のアプローチが違います。

§7.2

二元配置と交互作用

2 つ以上の要因(因子) が同時に効いているデータでは、二元配置以上の ANOVA を使います。要因 A(肥料の種類)と要因 B(水やり頻度)が両方ある場合に、それぞれの効果と『組合せの効果』を分離できます。

主効果と交互作用効果

A の主効果: B を平均化した上での A の各水準の効果差
B の主効果: A を平均化した上での B の各水準の効果差
交互作用効果(A×B): 「A の効果が B の水準によって変わる」ような効果

交互作用とは『単純な足し算では説明できない効果』

肥料 A と多めの水やりが個別ではそれぞれ +5 cm の効果でも、『肥料 A × 多めの水やり』が +20 cm のように 足し算を超える 効果を持つとき、交互作用があるといいます。逆もあって、片方ずつなら良いのに、組合せると効果が打ち消し合うこともある(例: 薬の併用副作用)。主効果だけ見ていると重要なパターンを見逃すので、二元配置では必ず交互作用を確認します。

二元配置 ANOVA の構造

分解 ─ 全変動の分解

$SST = SS_{A} + SS_{B} + SS_{A B} + SSE$

それぞれの平方和を自由度で割って F 比を作り、3 つの検定を同時に実行: A の主効果・B の主効果・A×B の交互作用効果のそれぞれが有意かを判定する。

実務での使い方:マーケ施策効果の検証

「広告クリエイティブ × 配信媒体」の二元配置 ANOVA で、『どのクリエイティブが効くか』『どの媒体が効くか』『相性の良い組合せはあるか』を同時検証。例:動画クリエイティブ × YouTube が突出して効いた(交互作用)というインサイトが得られれば、リソース配分を最適化できます。A/B テストの上位互換として使われます。

実験計画法(後の章)では、限られた試行回数で多くの要因を効率的に検証する方法を扱います。ANOVA は実験計画法の理論的基盤になります。

Chapter 8

第 8 章 · ノンパラ検定と分割表

§8.1

ノンパラメトリック検定

正規分布の仮定が成り立たない(分布が歪んでいる、外れ値が多い、サンプルサイズが小さい)場合に使われるのがノンパラメトリック検定。データの 値そのもの ではなく順位や符号に基づいて検定を行います。

Wilcoxon の符号順位検定

用途 ─ 対応のある 2 群の比較(ノンパラ版)

対応のある 2 群のデータの差 $D_{i} = X_{i} - Y_{i}$ について、 $H_{0} : D_{i}$ の中央値 $= 0$ を検定。差の絶対値で順位を付け、正の差・負の差それぞれの順位和を統計量とする。

対応のある t 検定の正規性を仮定しない代替。順位を使うので外れ値の影響をほぼ受けない のが利点。

Mann-Whitney の U 検定

用途 ─ 独立 2 群の比較(ノンパラ版)

2 群のデータをまとめて昇順に並べ、各群のデータの順位を求める。一方の群の順位和に基づく統計量 $U$ を使って、 $H_{0}$ :『2 群の分布が同一』を検定する。

Mann-Whitney は『どちらが上に来やすいか』を測る

2 群のデータをペアワイズに比較し、『1 群目の値のほうが大きいペア』の数 vs 『2 群目のほうが大きいペア』の数を数える ─ これが U 統計量の本質。t 検定が『平均値の差』を見るのに対し、Mann-Whitney は『確率的に大きい・小さい』を見る、という違いです。

Kruskal-Wallis 検定

用途 ─ 3 群以上の比較(ノンパラ版)

ANOVA のノンパラメトリック版。 $k$ 群のデータをまとめて順位付けし、群ごとの順位和に基づく統計量を計算 → 自由度 $k - 1$ のカイ二乗分布に従う(漸近的に)。

ANOVA の正規性が成り立たないとき(分布が歪み・外れ値あり)に使う
有意なら多重比較(Dunn の検定など)で群ペアを特定

実務での使い方:アンケートのスコア比較

5 段階評価(1 = 不満, 5 = 満足)のような順序尺度データを比較するとき、t 検定や ANOVA は厳密には不適切(等間隔とは限らない)。Mann-Whitney や Kruskal-Wallis を使うのが推奨です。実務では『5 段階を平均で比較』してしまう例も多いですが、本来はノンパラ検定が正しい使い方。

§8.2

分割表の検定

「性別 × 賛成/反対」「商品 A/B × 購入/非購入」のような 2 つのカテゴリ変数のクロス集計表(分割表) において、変数間に関連があるかを検定する手法をまとめます。

カイ二乗独立性検定

検定 ─ カイ二乗独立性

$r \times c$ の分割表について、観測度数 $O_{ij}$ と期待度数 $E_{ij} = (行合計_{i} \cdot 列合計_{j}) / n$ から

$χ^{2} = \sum_{i, j} \frac{( O _{ij} - E _{ij} ) ^{2}}{E _{ij}}$

$H_{0}$ :『行と列が独立』のもとで自由度 $(r - 1) (c - 1)$ のカイ二乗分布に従う。

図: カイ二乗分布の自由度別の形状(k=2, 5, 10)

期待度数がすべて 5 以上 という前提があり、満たさない場合は次の Fisher 正確検定を使うのが標準。

Fisher の正確検定

用途 ─ 小サンプルの 2×2 分割表

2×2 分割表で期待度数が 5 未満のセルがあるとき、超幾何分布 に基づいて p 値を直接計算する方法。漸近的な近似に頼らないため、サンプルが少なくても正確。

計算が組合せ的で重いため、伝統的には 2×2 だけで使われましたが、現代の計算能力ではより大きい分割表でも可能(`fisher.test` で `simulate.p.value=TRUE`)。

McNemar 検定

用途 ─ 対応のある 2×2 分割表

同じ被験者を 2 時点で測定 した二値データ(治療前後で陽性/陰性、など)に使う検定。

変化のあったペアのみ( $Y$ が陽性→陰性、または陰性→陽性のセル)に注目し、 $χ^{2} = (b - c)^{2} / (b + c)$ ( $b, c$ は変化セルの度数)で自由度 1 のカイ二乗で検定。

対応の有無で検定が変わる

独立な 2 群の比較 ならカイ二乗 / Fisher、同じ被験者の前後比較 なら McNemar、と覚えるのが鉄則。McNemar が『変化したペアのみ見る』のは、変化していないペアは結果に何の情報も与えないから ─ 対応のある t 検定が『差 $D_{i}$ 』を見るのと同じ発想です。

実務での使い方:A/B テストの厳密版

Web の A/B テストで「ボタン色 A vs B での CV 率」を比較するときの統計検定は、本質的には 2×2 分割表のカイ二乗検定(または Z 検定)。サンプルが大きい(数千人以上)ので普通はカイ二乗で十分ですが、新サービスの初期 A/B テストなど N が小さいケース では Fisher 正確検定が使われます。

Chapter 9

第 9 章 · 生存時間解析

§9.1

生存関数とハザード関数

「がん患者の生存時間」「機械の故障までの時間」「サブスク契約の継続期間」 ─ こうした イベント発生までの時間 を扱うのが生存時間解析。普通の回帰と違って、まだイベントが起きていないデータ(打ち切り) をどう扱うかが核心です。

生存関数とハザード関数

定義 ─ 生存関数 $S(t)$ とハザード関数 $h(t)$

生存関数: $S (t) = P (T > t)$ ─ 時刻 $t$ までイベントが起きない確率。 $S (0) = 1$ 、 $S (\infty) = 0$ で単調非増加。

ハザード関数: $h (t) = \frac{f ( t )}{S ( t )}$ ─ 時刻 $t$ まで生存していた条件のもとで、その瞬間にイベントが起こる『率』。

生存関数は『どれだけ長持ちするか』、ハザード関数は『どの時期に死にやすいか』を表す異なる視点。例えば若年期は事故、高齢期は病気で死亡率が上がる『バスタブ型』のハザードはハードウェアでも見られます。

打ち切り(censoring)

用語 ─ 打ち切り

観察期間中に イベントが発生しなかった 観測単位を打ち切り(censored)という。「研究終了時にまだ生きている」「途中で連絡が取れなくなった」といった理由で発生。打ち切りを単に除外すると バイアスが生じる(長生きする人ほど打ち切られやすい!)ので、専用の手法で扱う必要がある。

なぜ打ち切りデータを除外できないのか

「研究終了時に生きていた患者」を除外して『死亡時刻の平均』を計算すると、短命な患者ばかりを集計してしまうため、平均寿命を著しく過小評価することになります。だから打ち切りデータも『この時点ではまだ生きていた』という情報として活用するのが、生存解析の工夫です。

§9.2

カプラン・マイヤー法と Cox 比例ハザード

生存解析の主役となる 2 つの手法を扱います: ノンパラメトリックな生存曲線推定の カプラン・マイヤー法 と、共変量を組み込んだ回帰の Cox 比例ハザードモデル。

カプラン・マイヤー法

推定 ─ カプラン・マイヤー(KM)推定量

イベントが発生した時刻 $t_{1} < t_{2} < \dots$ について、 $d_{j}$ を時刻 $t_{j}$ でのイベント数、 $n_{j}$ を時刻 $t_{j}$ 直前のリスク集合(まだイベント未発生・未打ち切り)とすると、

$\hat{S} (t) = \prod_{t_{j} \leq t} (1 - \frac{d _{j}}{n _{j}})$

図: カプラン・マイヤー法による 2 群比較。小縦線は打ち切り。治療群が対照群より高い生存率

階段関数の形をしており、イベントが起こるたびにステップ・ダウンします。打ち切りデータも『リスク集合からの離脱』として正しく扱われる、というのが KM の精緻なところ。

ログランク検定

2 つの群の生存曲線が 同じか異なるか を検定するのがログランク検定。各時点でのイベント数の差を集計し、カイ二乗統計量で検定する。臨床試験の比較で必ず使われる手法です。

Cox 比例ハザードモデル

モデル ─ Cox 比例ハザード

ハザード関数を以下のようにモデル化:

$h (t ∣ x) = h_{0} (t) exp (β_{1} x_{1} + \dots + β_{k} x_{k})$

$h_{0} (t)$ はベースラインハザード(共変量 = 0 のときのハザード)。 $β_{j}$ は 共変量 $x_{j}$ が 1 単位増えたときのハザード比 $e^{β_{j}}$ として解釈。

ベースラインハザード $h_{0} (t)$ の形を仮定しなくても係数 $β$ を推定できる(部分尤度を使う)── というのが Cox の優れた性質。ハザード比 という直感的な解釈ができるため、医療統計の標準ツールになっています。

ハザード比の読み方

Cox モデルで「年齢の係数 $\hat{β} = 0.04$ 」と推定されたら、ハザード比は $e^{0.04} \approx 1.04$ 。つまり『年齢が 1 歳上がると、瞬間死亡率が 4% 増える』。10 歳差なら $1.0 4^{10} \approx 1.48$ 倍 ─ という風に、係数からリスク変化を読み解きます。ロジスティック回帰のオッズ比と同じ感覚で読めるのが Cox の良さです。

実務での使い方:サブスクの離反予測(チャーン分析)

Netflix・Spotify・SaaS のサブスク離反分析 は、本質的に生存時間解析です。『契約してからキャンセルまでの時間』を生存時間、『キャンセル』をイベントとして KM/Cox を回す → 『離反しやすい時期』『離反を加速させる要因(年齢・利用頻度・プラン種別)』を特定。マーケ施策(キャンペーン・割引クーポン)を最適なタイミングで打つための分析として広く使われています。

Chapter 10

第 10 章 · 実験計画法

§10.1

実験計画の基本

実験計画法(Design of Experiments, DoE) は、限られたリソース(時間・コスト)で多くの要因の効果を効率的に検証するための統計学の応用分野です。Fisher が農業実験で確立した古典的な分野ですが、現代でも製造業・医薬品開発・マーケティングで現役です。

Fisher の 3 原則

反復(Replication): 同じ条件で複数回測定し、誤差分散を推定する
無作為化(Randomization): 試行の順序を無作為にし、外的要因による偏りを防ぐ
局所管理(Local Control / Blocking): 既知の外的要因(畑のブロック、工場のロットなど)で層別し、その影響を分散分析で取り除く

この 3 原則を守ることで、得られたデータから 因果効果 を推測できる ─ ということが Fisher の最大の発見でした。現代の A/B テスト・ランダム化臨床試験(RCT)の理論的基盤です。

なぜ無作為化が大事なのか

「新薬を病気の重い患者にだけ投与した」「肥料 A を肥沃な畑にだけ撒いた」 ─ こうした 割り当てに偏り があると、効果の差が薬の効果なのか患者の重症度の差なのかを区別できなくなります(交絡)。無作為化はあらゆる未知の交絡変数を平均的に等しく分散させる魔法の道具。観察研究と RCT を分ける最大の要素です。

ブロック化

ブロック因子(畑の区画・実験日・実験者など)で実験を層別すると、ブロック内の差異を取り除いた上で要因効果を評価できます。一元配置の発展形 = 乱塊法(Randomized Block Design)。

完全ブロック計画: すべての処理を各ブロックで 1 回ずつ実施
ラテン方格: 2 つのブロック因子を同時に統制(行と列で別ブロック)。同じ処理が各行・各列に 1 つずつ

§10.2

直交表と一部実施計画

$k$ 個の要因(各 2 水準) の組合せをすべて試すと $2^{k}$ 通り。 $k = 7$ で 128 通りになり実施困難です。そこで 要因の重要な部分だけを効率的にサンプリングする のが直交表・一部実施計画。

直交表(Orthogonal Array)

用語 ─ 直交表

$L_{n} (2^{k})$ のように表記される表で、 $n$ 行(=実験回数)・ $k$ 列(=要因)。各列で水準の出現回数が等しく、任意の 2 列の組合せでも各組合せの出現回数が等しい(直交性)。

$L_{8} (2^{7})$ は『2 水準 7 因子の実験を 8 回で済ませる』直交表で、品質工学(田口メソッド)で頻出。全 128 通りを 8 通りに圧縮 できる優れた設計です。ただし得られる情報は『主効果 + 一部の交互作用』に限られます。

直交表は『効率と情報のトレードオフ』

全部試せば(完全実施)すべての交互作用まで分かるが回数が多い。直交表で実験回数を減らすと、得られる情報も減る ─ どの交互作用を諦めるかは目的次第です。初期スクリーニング(主効果が大きい因子を絞り込む)では直交表、詳細解析(主要因の交互作用まで見る)では完全実施計画というように、段階的に使い分けるのが実務の流儀です。

応答曲面法と最適化

因子が 連続値(温度・圧力・配合比など)のとき、応答 $y$ を因子の 2 次関数 で近似し、最適点を探す手法を応答曲面法といいます。中心複合計画(CCD)・Box-Behnken 計画などが代表的で、製品開発・プロセス最適化で使われます。

実務での使い方:製品開発の品質工学

トヨタ・パナソニックなどの製造業では、製品の頑健性(ばらつきの少なさ) を高めるため、田口メソッド(直交表 + SN 比)を使った品質工学が広く行われています。例えば自動車のエンジンで『燃焼条件 7 因子 × 2 水準』を 8 回の実験で評価し、最適条件を発見。実験コストを 1/16 に圧縮 しながら、製品の品質を世界トップレベルに保つ ─ という日本的なエンジニアリング文化を支えてきた統計手法です。

これで準1級の主要範囲は終わりです。確率分布の応用、ベイズ統計、多変量解析、時系列解析、GLM、ANOVA、ノンパラ手法、生存時間解析、実験計画法 ─ 統計学の実務応用の主要分野を一通り歩き終えました。1 級では、これらの背景にある 理論的な道具立て ─ 十分統計量・最尤推定・漸近理論・確率過程 ─ をより精密に扱っていきます。

Recommended

準1級のおすすめ参考書

当サイトは Amazon.co.jp を宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazon アソシエイト・プログラムの参加者です。

事実上の必読書

日本統計学会公式認定統計検定準1級対応統計学実践ワークブック

学術図書出版社

準1級合格者の多くが「これ一冊を繰り返した」と語る、出題範囲を網羅した実質的な公式テキスト。

Amazon で見る →

本番形式に慣れる

日本統計学会公式認定統計検定準1級公式問題集

実務教育出版

ワークブックで学んだ内容を過去問で確認できる王道ルート。準1級の典型的な出題パターンを掴む。

ワークブックの解説で物足りない数理面を補強できる一冊。基礎理論をしっかり押さえたい人へ。

Amazon で見る →

目次

ポアソン分布

指数分布 ─ ポアソン現象の待ち時間

幾何分布 ─ 初めて成功するまで

分布の使い分け早見表

多変量正規分布の定義

性質

2 変数正規分布の例

条件付き期待値 ─ 回帰の本質

応用への橋渡し

ベイズの定理

用語のまとめ

頻度主義 vs ベイズ

代表的な共役関係

他の代表例

MAP 推定

事後の要約 ─ 何で代表させるか

重回帰モデル(行列表現)

最小二乗推定量(行列形式)

残差・誤差分散の推定

決定係数と自由度調整済み $R^2$

係数の検定とモデル全体の F 検定

多重共線性 ─ 重回帰の落とし穴

なぜ重回帰ではダメなのか

ロジスティック回帰モデル

オッズ比の解釈

推定方法 ─ 最尤推定

二項分布との関係

アイデア ─ 「ばらつきが大きい方向」を見つける

数式での定義

寄与率と累積寄与率

PCA の実用上のポイント

定常性 ─ 時系列分析の出発点

AR モデル ─ 自分の過去を回帰

MA モデル ─ 過去のショックの平均

ARIMA モデル ─ 非定常への対応

モデル次数の決め方

発展トピックへの橋渡し

因子モデル

因子の回転

線形判別分析(LDA)

二次判別分析(QDA)

現代的な分類手法との対比

k-means 法

階層的クラスタリング

クラスタ数の選び方

GLM の 3 つの構成要素

推定 ─ 最尤推定

ポアソン回帰モデル

過分散(overdispersion)

なぜ t 検定の繰り返しではダメか

一元配置 ANOVA の検定統計量

前提条件

多重比較

主効果と交互作用効果

二元配置 ANOVA の構造

Wilcoxon の符号順位検定

Mann-Whitney の U 検定

Kruskal-Wallis 検定

カイ二乗独立性検定

Fisher の正確検定

McNemar 検定

生存関数とハザード関数

打ち切り(censoring)

カプラン・マイヤー法

ログランク検定

Cox 比例ハザードモデル

Fisher の 3 原則

ブロック化

直交表(Orthogonal Array)

応答曲面法と最適化

準1級 のおすすめ参考書

準1級のおすすめ参考書