2級 教科書
2級は統計学の「実用パート」です。標本から母集団を推し量る推定、データに基づいて意思決定する仮説検定、変数間の関係を式にする回帰分析 ─ 実務でいちばんよく使われる道具がそろう級。3級までで扱った確率・分布の知識を、いよいよ「現実のデータを動かす」ための武器として組み立て直します。
目次
- 第 1 章 · 推定の基礎 ─ 標本から母集団へ標本から母集団のパラメータを推し量るための基本的な考え方と、不偏推定量・標準誤差・標本分布の概念を整理します。
- 第 2 章 · 仮説検定の枠組み2 級でいちばん問われる仮説検定。p 値・有意水準・第一種/第二種の誤りといった基本概念を整理します。
- 第 3 章 · 回帰分析2 変数のデータに直線をあてはめる単回帰、複数の説明変数を扱う重回帰の入口を扱います。
第 1 章 · 推定の基礎 ─ 標本から母集団へ
不偏推定量と標本分布
3 級で「標本平均は母平均の良い推定量」「標準誤差は 」と学びました。本節ではその「良い推定量」が満たすべき性質、特に不偏性を整理し、標本分散と不偏分散の違い、標本平均の標本分布をもう一段精密に扱います。
推定量と推定値
標本から母集団のパラメータ(母平均 、母分散 など)を計算する関数を推定量という。具体的な数値を入れたものを推定値と呼ぶ。
例: は推定量、ある標本での値 は推定値。
不偏性
推定量 が母パラメータ について
を満たすとき、 は の不偏推定量(unbiased estimator)であるという。
「平均的にはちょうど真の値を当てる」という性質。たくさんの標本を取って毎回 を計算すれば、その値の平均がちょうど真の になる、という意味です。
標本平均は不偏
母平均 の母集団から無作為に取った標本の標本平均 は、 の不偏推定量である:
証明は期待値の線型性から一発: 。
標本分散と不偏分散 ─ なぜ $n - 1$ で割るのか
標本のばらつきを測るとき、(標本分散)を使うと、実は母分散を過小評価してしまうことが知られています。なぜか?
理由は、平均が「真の母平均 」ではなく「標本から計算した 」になるから。 は標本に最もフィットする中心なので、各 から への偏差は への偏差より平均して小さくなり、その分だけばらつきが小さく見積もられてしまう。
を不偏分散という。 を満たし、母分散の不偏推定量となる。
ポイントは「分母が 」。これで過小評価ぶんが補正され、平均的にきっちり に当たります。実用統計ソフト(Excel・Python など)で「分散」と言うと、この不偏分散を返すものが多いので注意してください。
自由度 ─ なぜ $n - 1$?
は「自由度」と呼ばれます。 個の偏差 には「合計が必ず 」という制約が 1 つあるため、自由に動ける個数は実質 個。「情報量」が 1 つ減っているぶん、分母を 1 つ減らして補正している、と直感的に理解できます。
標本平均の標準誤差(再掲)
が独立同分布で母分散 のとき、
が未知のときは不偏分散の平方根 で代用し、 と推定します。この置き換えが、次節で登場する t 分布(母分散未知での母平均の推定・検定)につながります。
中心極限定理(精密版)
母平均 、母分散 の母集団から独立に取った標本 について、 が十分大きいとき
( で標準正規分布に収束する)。
母集団の分布が正規分布でなくても、 が十分大きければ標本平均は近似的に正規分布になる ─ という強力な定理。実務上の目安は です(母集団が偏っているときはもっと必要)。次節以降の信頼区間や検定が「正規分布で計算できる」のは、この定理のおかげです。
信頼区間 ─ 母分散が未知のとき(t 分布)
3 級で学んだ母平均の信頼区間 には、見落とせない前提がありました ─「母標準偏差 が既知」という仮定です。実務でデータを扱うとき、母分散が事前にわかっていることはまずありません。本節では、この現実的な状況で母平均の信頼区間を作る手順 ─ t 分布の出番 ─ を学びます。
$\sigma$ を $\hat{s}$ で置き換えるとどうなるか
ここまでの式の を不偏分散の平方根 で置き換えれば、 が未知でも信頼区間が作れそうな気がします。実際、 が十分大きければ で問題ありません。しかし が小さいときには、 自身が標本ごとに揺れるため、ぴったり では信頼度 95% を保てなくなります。
そこで「 ではなく で割った量がどんな分布に従うか」を考えると、それが t 分布 です。
t 分布
母集団が正規分布 に従うとき、標本平均 と不偏分散 から作る
は、自由度 の t 分布 に従う。
t 分布は標準正規分布と似た「左右対称の釣鐘型」ですが、裾(すそ)がやや厚いのが特徴。標本サイズが小さいほどその傾向が強く、 で標準正規分布 に収束していきます。「 がわからないぶんの不確かさ」が分布の裾の厚みに表れている、と覚えるとよいでしょう。
が既知なら分母は固定値ですが、未知のときは で代用するため、分母自身も標本ごとに揺れます。「分母が偶然小さく出る」と は偶然大きくなり、極端値が出やすくなる ─ それが裾の厚みの正体です。 が大きいと の揺れが小さくなるので、t は正規分布に近づきます。
母平均の 95% 信頼区間($\sigma$ 未知)
母集団が正規分布で母分散が未知のとき、母平均 の 95% 信頼区間は
ここで は自由度 の t 分布における上側 点。
正規母集団から の標本をとったところ、標本平均 、不偏分散 であった。母平均の 95% 信頼区間を求めよ。 とする。
解 : 標準誤差 。誤差幅 。区間は
。
$z$ と $t$ の使い分け
- 既知: を使う(標準正規分布)─ 教科書問題用、現実は稀。
- 未知 + 小: を使う( の自由度) ─ 主役。
- 未知 + 大( 目安): でも でもほぼ同じ。実務では大標本なら で済ませることも多い。
試験問題では 既知/未知をはっきり明示してくれます。「未知ですよ」と言われたら反射的に t 分布、と覚えれば迷いません。
母比率の信頼区間
「ある支持率は 35% プラスマイナス 3%」「製品の不良率は 2% 程度」 ─ 比率の推定は、世論調査・品質管理・マーケティング、いたるところで登場します。本節では母比率 の信頼区間の作り方を学びます。
標本比率と二項分布
母集団全体での「ある属性をもつ割合」を母比率 、ランダムに取った 個の標本でその属性をもつものの割合を標本比率 という( は属性をもつ個数)。
は二項分布 に従うので、、。これを で割った について、
は母比率 の不偏推定量、その標準誤差は 、と整理できます。
正規近似
が十分大きく、 かつ を満たすとき、
が成り立つ。すなわち 。
「ベルヌーイ試行を 回繰り返した平均」も中心極限定理で正規分布に近づく ─ という具体例が、まさにこの正規近似です。 が小さいときや が極端に や に近いときは近似が悪くなるので、目安として上の条件を満たすことを確認します。
母比率の 95% 信頼区間
が十分大きいとき、母比率 の 95% 信頼区間は
標準誤差の式に未知の が入ってしまっているので、ここでは を で代用しています。「 がそこそこ正確ならその近くで分散も近い値だろう」という近似です。
の世論調査である政策の支持者が 人だった。母比率(支持率) の 95% 信頼区間を求めよ。
解 : 。標準誤差 。誤差幅 。区間は 、つまり「支持率は 95% の信頼度で約 37〜43%」。
標本サイズはどれくらい必要?
ニュースでよく「世論調査 」「許容誤差 ±3%」と書いてあります。これは という計算から来ていて、 あたりでも誤差約 3% に収まる、ということ。「許容誤差」を半分の 1.5% にしたければ は 4 倍の 必要、という の関係はここでも効いてきます。
第 2 章 · 仮説検定の枠組み
仮説検定の考え方
「このコインは本当に公平か?」「新しい薬は従来薬より効くか?」「広告 A と B、どちらがクリック率が高い?」 ─ こういう問いに、データを使って客観的に答える枠組みが仮説検定です。2 級の中でいちばん配点が多い領域でもあります。本節ではまず考え方の骨格を押さえます。
帰無仮説と対立仮説
帰無仮説 : 「差はない」「効果はない」「公平である」など、退屈で当たり障りのない仮説。出発点として置く仮説。
対立仮説 (または ): 帰無仮説に反する、調査者が示したい仮説。
仮説検定の基本姿勢は「帰無仮説 が正しいと仮定したとき、いま得られたデータがどれくらい起こりにくいか」を計算する、という背理法的な発想です。「ありえないほど起こりにくい」なら を棄却して、 を採用します。
検定の手順
- 仮説を立てる: と を文脈に合わせて設定する。
- 有意水準 を決める: 慣例的に または 。「 が正しいのに棄却してしまう確率」の上限。
- 検定統計量を計算する: のもとで分布が分かっている量(z, t, , F など)。
- 棄却域 or p 値で判定する: 統計量が極端な値ならば を棄却。極端さを定量化するのが p 値。
p 値
が正しいと仮定した上で、現実に得られた検定統計量と「同じかそれ以上に極端な」値が観測される確率を p 値という。 なら を棄却、 なら を棄却しない。
「p 値は『 が正しい確率』ではない」 ─ ここが受験で必ず引っかけられるポイント。p 値は「 を仮定した世界で、こんなデータが見える確率」です。 そのものの真偽の確率ではないので、注意してください(ベイズ統計を学ぶとこの違いが鮮明になります)。
両側検定と片側検定
- 両側検定: ─ 「異なる」とだけ主張。棄却域は分布の左右両端。
- 右片側検定: ─ 「大きい」と主張。棄却域は右端のみ。
- 左片側検定: ─ 「小さい」と主張。棄却域は左端のみ。
「同じ有意水準 なら、両側より片側のほうが棄却されやすい」(片側のほうが棄却域が広い)。事前に「どちら向きを示したいか」が決まっているなら片側、ないなら両側、が大原則です。データを見てから方向を決めるのは反則(p ハッキング)。
Web マーケでは「新ボタン色は CV 率を上げるか?」を検証するため、ユーザーをランダムに 2 群に分けて指標を比較します。これは「2 群の比率に差があるか」の仮説検定そのもの。多くの A/B テスト基盤(Optimizely・Google Optimize など)が、内部でこの仕組みを動かしています。「p < 0.05 になったら新案を採用」という意思決定が標準です。
from scipy import stats
a = [85, 88, 90, 78, 92, 86, 89, 84, 91, 87]
b = [80, 82, 79, 85, 83, 81, 78, 84, 80, 82]
# 等分散を仮定しないウェルチの t 検定(推奨)
t, p = stats.ttest_ind(a, b, equal_var=False)
print(f"t = {t:.3f}, p = {p:.4f}")
# 有意水準 0.05 で有意なら p < 0.05scipy.stats.ttest_ind / R の t.test() で 1 行で実行可能。
第 1 種の誤り・第 2 種の誤り・検出力
第 1 種の誤り(Type I error): が真なのに棄却してしまう誤り。確率は 。
第 2 種の誤り(Type II error): が偽( が真)なのに棄却できない誤り。確率は 。
検出力: 。 が真のときに正しく棄却できる確率。
と はトレードオフの関係にあります。 を厳しくする(例: )と棄却しにくくなり、第 1 種の誤りは減るが第 2 種の誤りは増える。実務では「重大な見落としを避けたいときは を抑える」「慎重に判定したいときは を厳しくする」と使い分けます。
図の点線(閾値)を右にずらせば赤い α は減りますが、橙の β は増えます。逆に左にずらせば α が増えて β が減る。「両方同時に減らしたい」なら、2 つの分布を引き離す(=効果量を大きくする)か、分布の山を細くする(=標本サイズを増やす)しかありません。これが効果量・サンプルサイズ設計の出発点です。
医療検査 では「病気を見逃したくない(β を抑える)」が優先 → 高感度な検査を採用。司法 では「無実の人を有罪にしたくない(α を抑える)」が優先 → 高い証拠水準。製造業の不良検出 ではコストとのバランス。「α と β のどちらを優先するか」は、誤りごとの被害の大きさで決まります。
、、検出力、効果量、標本サイズの 5 者の関係は、2 級でも準1級でも問われる重要トピック。標本サイズを大きくすると、ほぼあらゆる方向で改善する(誤りが減る/検出力が上がる) ─ これが「サンプルが足りないなら、まず増やす」が推奨される理由です。
母平均の検定(z 検定・t 検定)
前節で学んだ仮説検定の枠組みを、最も基本的なケース ─「ある母集団の平均値が特定の値と違うか」 ─ に適用します。前章の信頼区間と密接に対応する話です。
母平均の z 検定($\sigma$ 既知)
母分散 が既知のとき、 に対する検定統計量は
が正しいとき 。
両側検定の棄却基準は 。 なら 、 なら 。片側なら ()を使います。
母分散 の母集団から の標本を取り、 を得た。 を有意水準 で両側検定せよ。
解 : 。 なので を棄却。母平均は と異なると判断できる。
母平均の t 検定($\sigma$ 未知)
母分散が未知のとき、不偏分散 を使って
のもとで に従う。
棄却基準は (両側)。 分布の臨界値は自由度ごとに変わるので、表を参照する必要があります。実用上は「 が 30 以上なら も もほぼ同じ」と覚えておくと、概算で判定できます。
ある母集団から の標本を取り、、 を得た。 を有意水準 で両側検定せよ。 とする。
解 : 。 なので を棄却。母平均は と異なると言える。
信頼区間と検定の表裏一体性
「両側検定で棄却できないこと」と「対応する信頼区間に が含まれること」は同値です。
- が 95% 信頼区間に含まれない ⇔ の両側検定で 棄却される
- が 95% 信頼区間に含まれる ⇔ の両側検定で 棄却されない
つまり信頼区間と検定は同じことを別の言葉で言っているだけ。試験では「信頼区間を計算して、 値が入っているか?」だけで両側検定の結論が出ることもしばしばあります。
母比率の検定(参考)
母比率 の検定もほぼ同じ流れで作れます。 に対し、検定統計量は ( のもとで )。「 を仮定するので、標準誤差にも を使う」のが信頼区間との違いです。次節ではより複雑な分布表データに挑む、カイ二乗検定に進みます。
カイ二乗検定 ─ 適合度・独立性
ここまでの z 検定・t 検定は「平均に差があるか」を扱う手法でした。本節では「観測度数の分布が想定どおりか」「2 つのカテゴリ変数に関係があるか」を判定する、もう 1 つの定番ツール ─ カイ二乗検定を学びます。
カイ二乗統計量の基本形
観測度数 と期待度数 ()から計算する量
を(ピアソンの)カイ二乗統計量という。観測値と期待値の食い違いを 2 乗で測る指標。
「期待度数 」とは「 が正しいとしたらこのくらいになるはず」という値。観測 がそこから大きく外れるほど は大きくなり、 を疑う根拠になります。
適合度検定
: 「観測データが想定の分布に従う」を検定する。 統計量は自由度 のカイ二乗分布に従う( はカテゴリ数)。 なら を棄却。
サイコロを 回振ったら、 の目がそれぞれ 回出た。サイコロが公平()を有意水準 で検定せよ。 とする。
解 : 公平なら各目の期待度数は 。
。
なので は棄却できず、公平でないとは言えない。
独立性検定 ─ 分割表
分割表で「行変数と列変数が独立()」を検定する。期待度数は 。 は自由度 のカイ二乗分布に従う。
ある政策への賛否を男女別に集計したところ、次の 分割表を得た。
| | 賛成 | 反対 | 計 | |--|--:|--:|--:| | 男性 | 60 | 40 | 100 | | 女性 | 30 | 70 | 100 | | 計 | 90 | 110 | 200 |
性別と賛否の独立性を 検定で判定せよ。
解 : 期待度数は 、、、。
。
自由度 、 なので、 で は棄却。性別と賛否には関連があると判断できる。
適用上の注意
- 期待度数の目安: 各セルで が成り立つことが望ましい。期待度数が小さすぎるとカイ二乗近似が悪くなる。
- 棄却の意味: 独立性検定で棄却 = 「関連がある」とは言えるが、「どんな関連か」「因果か」までは判定できない。
- 分割表でフィッシャーの正確検定: が小さいときは、こちらが推奨されることもある(2 級では参考程度に)。
第 3 章 · 回帰分析
単回帰分析
「気温が 1℃ 上がると、アイスの売上はどれくらい増えるか?」「広告費を 10 万円増やすと、売上は何万円伸びるか?」 ─ こういった「説明変数 で目的変数 を予測・説明する」ためのもっとも基本的な手法が、本節で学ぶ単回帰分析です。
回帰モデル
観測 ()に対し、
というモデルを考える。 は切片、 は傾き(回帰係数)、 は誤差項。 は平均 、分散 の独立な確率変数と仮定する。
をぜんぶ で説明し尽くせるとは普通考えません。残った「説明できないぶん」が誤差 。回帰の目的は、データから と をできるだけよく推定することです。
最小二乗法
「もっとも当てはまりがよい直線」をどう決めるか? 一般的な答えは「残差の 2 乗和を最小にする」直線。これを最小二乗法といいます。
残差そのままの和を最小化すると正負が打ち消し合ってゼロになってしまうし、絶対値だと数学的な扱いが難しくなります。2 乗にすると(1)正負がなくなり、(2)大きい誤差ほどより重く罰され、(3)微分で解析的に最小値が求まる、という三拍子そろった理由で「2 乗和」が選ばれます。
「気温と冷たい飲み物の売上」「広告費と売上」「Web 広告のクリック数とコンバージョン数」 ─ どれもまず散布図を描き、回帰直線を当てはめて関係を定量化します。傾きが「気温が 1 度上がると売上が ◯ 円増える」という意思決定可能な数字になり、来週の気温予報から来週の売上を予測できる ─ これが企業の在庫管理・人員配置の出発点です。
import numpy as np
import statsmodels.api as sm
x = np.array([1, 2, 3, 4, 5, 6, 7, 8])
y = np.array([2.1, 3.9, 6.2, 8.0, 10.1, 11.8, 14.0, 15.9])
# 切片を含めるため定数列を追加
X = sm.add_constant(x)
model = sm.OLS(y, X).fit()
print(model.summary()) # 係数・p値・R² がまとめて表示statsmodels.OLS / R の lm() の出力は『Excel データ分析 → 回帰』とほぼ同じ構造。
残差平方和 を最小にする の推定量は
で与えられる。 を予測値という。
回帰直線は必ず点 を通る、というのが切片の式の意味するところ。傾き の式は「共分散 ÷ の分散」 ─ 3 級で学んだ共分散・相関係数と同じ部品の組み合わせです。
決定係数 $R^2$
を決定係数という。 の全変動 のうち、回帰モデルで説明できた割合を表し、。 は完全フィット、 は無効果。
単回帰の場合は (相関係数の 2 乗)が成り立ちます。「相関 0.8 ⇒ 、つまり の分散の 64% が で説明できる」と読みます。
、、、 のとき、回帰直線 を求めよ。
解 : 、。回帰直線は 。
回帰の前提条件
最小二乗法による回帰は、いくつかの前提のもとで「良い」性質を持ちます。
- 線形性: と の関係が直線で表せる。
- 独立性: 各 が独立。
- 等分散性: の分散が の値によらず一定。
- 正規性(検定や区間推定で必要): が正規分布に従う。
実データではこれらが完全に満たされることはまずありません。残差プロットを描いて「ランダムに散らばっているか」「特定の傾向はないか」を確認するのが、実務での回帰分析の基本作法です。
回帰係数の検定と区間
「 と には本当に意味のある関係があるのか?」 ─ それは「回帰係数 が実は ではないか?」という疑問と同じです。本節では、 をもとに について検定や区間推定を行う方法を学びます。
$\hat{\beta}$ の標本分布
回帰モデルの仮定のもとで、最小二乗推定量 について
誤差 が正規分布に従うなら、 も正規分布に従う。
は の不偏推定量。分散は の散らばり()が大きいほど小さくなります。「 をよく振って観測したほうが、 を精度よく推定できる」というわけです。
回帰係数の検定
(「 は に効かない」)に対する検定統計量は
、。 のもとで 。
自由度が なのは、回帰で 2 つのパラメータ()を推定したぶん「自由度が 2 つ食われる」から、と覚えます。 なら を棄却し、「」 ─ つまり「 は に統計的に有意な影響を持つ」と結論できます。
回帰係数の信頼区間
信頼区間と t 検定の表裏一体性は、回帰係数でも成り立ちます。「 が信頼区間に含まれるかどうか」が「 が両側検定で棄却されるかどうか」と一致します。
回帰結果の読み方(実務では)
Excel・R・Python などの統計ソフトで回帰分析を実行すると、典型的に次の表が出力されます。
| 項目 | 推定値 | 標準誤差 | t 値 | p 値 | |--|--:|--:|--:|--:| | 切片 () | | | | | | () | | | | |
この場合、 で「 が 1 増えると は平均 1.5 増える」、p 値が小さい()ので「」は棄却される、と読み解ける。
重回帰への展望
本節では説明変数が 1 つの単回帰を扱いました。説明変数を複数にした重回帰モデル も、考え方の枠組みは同じ。各 について t 検定が行え、決定係数や F 検定で全体の有意性も判定できます。重回帰の本格的な扱いは準1級の主要トピックです。
これで 2 級教科書の主要範囲は終わりです。推定・検定・回帰 ─ この 3 本柱が 2 級の真髄であり、また実務統計学の中心でもあります。次の準1級では、ベイズや多変量・時系列など、より発展的な領域に進みます。
2級 のおすすめ参考書
当サイトは Amazon.co.jp を宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazon アソシエイト・プログラムの参加者です。