2級 公式集
大学専門レベル。推定・検定・回帰分析など。受験者数が最も多い。
記述統計・推定量
母分散の不偏推定量。標本分散の分母を $n$ ではなく $n-1$ とすることで $E[s^2] = \sigma^2$ を満たす。
標本平均のばらつきの大きさ。母標準偏差を $\sqrt{n}$ で割った値で、n を増やすと縮む。
確率分布
単位時間あたり平均 λ 回起こる稀な事象の発生回数の分布。$E[X] = V[X] = \lambda$。
成功確率 $p$ のベルヌーイ試行で、初めて成功するまでの試行回数 $X$ の分布。$E[X] = 1/p$。
ポアソン過程における事象間の待ち時間の分布。$E[X] = 1/\lambda$, $V[X] = 1/\lambda^2$。無記憶性をもつ。
区間 $[a,b]$ 上で確率密度が一定となる連続分布。$E[X] = (a+b)/2$, $V[X] = (b-a)^2/12$。
標本分布
独立な標準正規乱数の2乗和は自由度 $k$ のカイ二乗分布に従う。分散の推定や適合度検定で使う。
標準正規 $Z$ と自由度 $k$ のカイ二乗 $Y$ が独立のとき $T$ は自由度 $k$ の t 分布に従う。母分散未知の母平均推定に使う。
独立な2つのカイ二乗変数の自由度で割った比の分布。2つの分散の比較や回帰の有意性検定に用いる。
母集団の分布によらず、標本平均は $n$ が十分大きいとき近似的に正規分布に従う。大標本理論の基礎。
推定
母分散が未知で不偏分散 $s^2$ を用いる場合の母平均の信頼区間。自由度 $n-1$ の t 分布を使う。
正規母集団における母分散の信頼区間。カイ二乗分布の上側・下側パーセント点を用いる。
正規母集団の母分散 $\sigma^2$ の $(1 - \alpha) \times 100\%$ 信頼区間。左右で分母の自由度の選び方が逆になる点に注意。
仮説検定
帰無仮説 $H_0: \mu = \mu_0$ の検定統計量。$|Z| > z_{\alpha/2}$ で両側 $\alpha$ 棄却。
母分散未知での母平均の検定。不偏分散 $s^2$ を使い、自由度 $n-1$ の t 分布で棄却判定。
2群の母平均の差の検定。等分散を仮定し、プールした分散 $s_p^2$ を使う。自由度は $n_1 + n_2 - 2$。
帰無仮説 $H_0: p = p_0$ の検定統計量。正規近似を用いるので $np_0, n(1-p_0)$ が十分大きいことが必要。
観測度数 $O_i$ と期待度数 $E_i$ の乖離を測る統計量。自由度は $(\text{カテゴリ数}) - 1 - (\text{推定パラメータ数})$。
分割表で行変数と列変数が独立かを検定。期待度数は $E_{ij} = (行計)(列計)/(総計)$。
正規母集団のもとで母分散 $\sigma_0^2$ を検定するための統計量。自由度 $n - 1$ のカイ二乗分布に従う。両側棄却域は $\chi^2_{n-1, 1-\alpha/2}$ と $\chi^2_{n-1, \alpha/2}$。
等分散を仮定しない 2 標本の平均差検定。自由度は Welch-Satterthwaite の近似式で求める。Student の t 検定より頑健で実務では既定値に近い。
Welch の t 検定で使う近似自由度。両群の分散と標本サイズが等しいときには $n_X + n_Y - 2$ に一致する。
2 標本の等分散性を検定する。慣例として大きい方を分子にする。正規性に弱いため、Levene 検定が代替されることが多い。
回帰分析
最小二乗法による単回帰直線の傾き。切片は $\hat{\alpha} = \bar{y} - \hat{\beta} \bar{x}$ で求まる。
回帰モデルが従属変数の分散をどれだけ説明できたかの指標。$0 \leq R^2 \leq 1$、単回帰では $R^2 = r^2$。
重回帰で説明変数 $k$ 個を増やしても見かけ上 $R^2$ が上がる問題を補正した指標。意味のない変数を増やすと逆に下がる。
重回帰の最小二乗推定量。$X$ はデザイン行列(切片用に 1 列追加)。$X^\top X$ が逆行列を持たない(完全多重共線性)と推定不能。
他の説明変数で $x_j$ を回帰したときの $R_j^2$ から計算。VIF が 5〜10 を超えると多重共線性の疑いが強い。係数の標準誤差が膨張する。
分散分析
$g$ 群、合計 $n$ 標本のとき、群間平方和 $S_A$ と誤差平方和 $S_E$ から計算。$F_0 > F_{g-1, n-g, \alpha}$ で $H_0:$ すべての群平均が等しい、を棄却。
全平方和 $S_T$ は群間 $S_A = \sum_i n_i (\bar{X}_{i.} - \bar{X}_{..})^2$ と群内 $S_E$ に直交分解できる。これが ANOVA の数学的根拠。
多重比較
$m$ 個の検定を行うとき、各検定の有意水準を $\alpha/m$ に厳しくすれば、全体の Type I エラー率(FWER)が高々 $\alpha$ に抑えられる。簡便だが保守的。
2級 のおすすめ参考書
当サイトは Amazon.co.jp を宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazon アソシエイト・プログラムの参加者です。