3級 教科書
3級は大学基礎レベル。4級で学んだデータの整理に、分散・標準偏差・確率分布・推定の考え方を加えていきます。「データのばらつきを数式で扱う」「ランダムさを確率で表現する」という、統計学の本格的な道具立てを身につける段階です。
目次
- 第 1 章 · 記述統計 ─ データを数値で要約する標本平均・分散・標準偏差を式で扱い、共分散と相関係数で 2 変数データの関係も読み取れるようになります。
- 第 2 章 · 確率と確率変数サイコロや袋から玉を取り出すような身近な試行を起点に、条件付き確率・独立性・期待値といった概念に進みます。
- 第 3 章 · 確率分布二項分布と正規分布という、3 級の山場となる 2 つの分布を扱います。
- 第 4 章 · 推定の入口標本から母集団の特徴を推し量る、推定の基本的な考え方に触れます。
第 1 章 · 記述統計 ─ データを数値で要約する
標本平均と分散・標準偏差
4 級では「平均」と「ばらつき(範囲・四分位範囲)」を扱いました。3 級ではばらつきを、もう一段だけ精密に扱う言葉 ─ 分散と標準偏差 ─ を学びます。これらは推定や検定など、統計学のあらゆる場面で土台となる量です。
標本平均
個のデータ に対し、 を標本平均という。総和の記号 は「足し合わせる」の略記。
は「」を短く書いたものです。3 級以降では数式表現が一気に増えるので、この 記号には早めに慣れておきましょう。
偏差と分散
ばらつきを「平均からどれだけズレているか」で考えます。各データ の平均からのズレを偏差といい、 で計算します。
ところが偏差をそのまま足すと、正と負がちょうど打ち消し合って必ず になってしまいます。そこで偏差を 2 乗してから平均をとります。これが分散です。
を標本分散という。偏差の 2 乗の平均で、データのばらつきの大きさを表す。
データ の標本分散を求めよ。
解 : 平均は 。偏差は 、その 2 乗和は 。標本分散 。
標準偏差
分散はデータを 2 乗しているため、もとのデータと単位が合いません(例: 身長(cm)の分散は cm² )。そこで分散の正の平方根をとった量を使います。
を標本標準偏差という。もとのデータと同じ単位でばらつきを表現できる。
例題 1.1 のデータの標本標準偏差を求めよ。
解 : 。「平均 のまわりに、平均すると ぐらいの幅でばらついている」と読み取れる。
計算で便利な公式
分散の計算では、次の変形が手計算で重宝します。
「2 乗の平均から、平均の 2 乗を引く」と覚えます。 をそれぞれ 2 乗して平均し、最後に を引くだけなので、偏差を一つひとつ計算しなくてよく、暗算と相性が良いのが特長です。
標本分散と不偏分散(参考)
ここで紹介した分母 の量は標本分散と呼びます。一方、母集団の分散 を推定したいときには、分母を にした不偏分散 を使います。3 級では「データそのもののばらつきを記述するなら 、母集団の分散を推定するなら 」とおおまかに区別しておけば十分です(2 級で深掘りします)。
共分散と相関係数 ─ 2 変数データを読む
ここまでは「ある 1 種類のデータ」だけを扱ってきました。実際には「身長と体重」「気温とアイスの売上」のように、2 種類のデータが対になって与えられることが多くあります。こうした 2 変数データの関係を測るための道具が、共分散と相関係数です。
散布図で関係を眺める
2 変数データ を平面上の点として描いた図を散布図といいます。散布図を眺めるだけでも、 が増えると も増える(正の関係)、 が増えると が減る(負の関係)、関係が見えない(無相関)、といった大まかな傾向はつかめます。共分散と相関係数は、この「見た目」を数値化したものです。
共分散
2 変数データ に対し、 を共分散という。
符号で大きく性格が変わるのが共分散の特長です。
- 正のとき: と が同じ方向に動く傾向(正の関係)。
- 負のとき: と が逆方向に動く傾向(負の関係)。
- に近いとき: 一方の増減が他方の増減と無関係(無相関)。
ただし共分散は単位の影響を強く受けます。たとえば身長を「m」で測るか「cm」で測るかで、共分散の値は 倍も変わってしまいます。「同じ符号の傾向」を見るには便利でも、「強さ」を客観的に比較するには使いにくいわけです。
相関係数 ─ 単位を消す
そこで、共分散をそれぞれの標準偏差で割って単位を消した量を使います。これが相関係数です。
を(ピアソンの)相関係数という。
相関係数 は必ず の範囲に収まります。値の意味は次のとおりです。
- : 強い正の相関(右上がりの直線に近い)。
- : 強い負の相関(右下がりの直線に近い)。
- : ほぼ無相関(直線的な関係はない)。
- 目安: で強い相関、〜 で中程度、 以下で弱い相関、と表現することが多い。
ある 5 人の数学と物理のテストの点数が、それぞれ , , , , であった。相関係数 を求めよ。
解 : 。 なので、数学と物理の点数には強い正の相関があると判断できる。
相関と因果は別もの
相関係数を扱う上で必ず押さえておきたい注意があります。相関があるからといって、因果関係があるとは限らない、ということです。
有名な例として「アイスの売上と水難事故の件数には強い正の相関がある」というものがあります。これは「アイスを食べると水難事故が増える」のではなく、「気温が高い日にはアイスもよく売れ、水遊びをする人も多くなる」という、共通の原因(気温)があるためです。こうしたものを擬似相関と呼びます。
相関係数はあくまで「直線的な関係の強さ」を測る道具で、原因と結果を区別する力はありません。データを見るときは、「なぜそういう関係が出るのか」をいつも一歩立ち止まって考えるクセをつけましょう。
標準化 ─ 比較できる形に直す
「数学の 70 点」と「英語の 70 点」、どちらが優秀でしょうか? もし数学の平均が 60 点・標準偏差 10、英語の平均が 80 点・標準偏差 5 なら、答えは大きく変わります。異なるテストや異なる単位の値を、共通の物差しに乗せて比較するための変換が、本節で学ぶ標準化です。
標準化の定義
データ に対し、 を の標準化(z スコア)という。 はデータの平均、 は標準偏差。
標準化の中身を分解すると、次の 2 ステップを連続で行っていることがわかります。
- 平均を引く: ─ データの中心を に揃える。
- 標準偏差で割る: ─ ばらつきの単位を揃え、 単位がちょうど「1 標準偏差ぶん」になるようにする。
標準化したデータの性質
標準化したデータ は、必ず
を満たす(平均は 、標準偏差は )。
つまり、どんな単位・どんなスケールのデータでも、標準化を通せば「平均 0・標準偏差 1」という共通の物差しに揃います。これによって異なるデータどうしを公平に比較できるようになります。
ある人の点数が、数学 点(クラス平均 、標準偏差 )、英語 点(クラス平均 、標準偏差 )であった。どちらの科目で相対的によい成績だったか?
解 : 数学の z スコア 、英語の z スコア 。同じ 80 点でも、数学のほうが英語より「クラス内でずっと上位」だったとわかる(数学は平均から 2 標準偏差ぶん上、英語は 0.5 標準偏差ぶん上)。
偏差値 ─ z スコアを使いやすく
受験勉強で必ず登場する偏差値も、実は z スコアを少し変換しただけのものです。
を偏差値という。これにより、平均 ・標準偏差 の物差しでデータを表現できる。
- 偏差値 50: 平均ちょうど(z = 0)。
- 偏差値 60: 平均から 1 標準偏差上(z = 1)、上位 約16%。
- 偏差値 70: 平均から 2 標準偏差上(z = 2)、上位 約2.3%。
- 偏差値 40: 平均から 1 標準偏差下、下位 約16%。
「上位 16% / 2.3%」といった具体的な割合は、データが正規分布(後の章で学ぶ釣鐘型の分布)に従うときの目安です。テストの点数のような分布はおおむね正規分布に近いので、この対応表は実用上よく使われます。
本章のまとめ
ここまでで 3 級の記述統計の主要部分が出そろいました。
- 1 変数の中心: 平均
- 1 変数のばらつき: 分散 、標準偏差
- 2 変数の関係: 共分散 、相関係数
- スケール調整: 標準化 、偏差値
これらの道具は次章以降の確率変数・確率分布の話、そして 2 級以降の推定・検定でも繰り返し登場する基礎的な共通言語です。
第 2 章 · 確率と確率変数
確率の基本法則と条件付き確率
4 級では「同様に確からしい」を出発点に、確率を場合の数の比として求めました。3 級では、複数の事象が絡む状況をきれいに扱うための法則を整理し、3 級以降の主役となる条件付き確率を導入します。
確率の基本法則(復習 + 整理)
。 と が排反()なら、。
。「少なくとも〜」型の問題で、直接数えるのが大変なときに威力を発揮する。
条件付き確率 ─ 「もし〜とわかったら」
「サイコロを振った人がこっそり覗いて、『偶数が出た』とだけ教えてくれた。さて、その目が である確率は?」 ─ 何の情報もないときの確率は ですが、「偶数だ」と知ってからの確率は です(偶数は の 3 通りで、そのうち は 1 通りだから)。このように 「ある事象が起こったとわかったうえでの確率」 を条件付き確率といいます。
事象 が起こったという条件のもとで、事象 が起こる条件付き確率を
と定める。
サイコロを 1 回振ったとき、偶数が出たとわかった。その目が である確率は?
解 : 「偶数」、「 の目」とすると、、。
。
乗法定理 ─ 同時に起こる確率
条件付き確率の定義式を変形すると、「 も も起こる確率」を求める式が得られます。
袋に赤玉 3 個、白玉 2 個が入っている。1 個ずつ続けて 2 個を取り出す(もとに戻さない)とき、 個目が赤、 個目が白である確率を求めよ。
解 : 「1 個目が赤」、「2 個目が白」。。1 個目を赤と取った後、袋には赤 2、白 2 が残るので 。
。
独立事象 ─ 「条件を知っても確率が変わらない」
事象 と が独立であるとは、 が成り立つこと。これは と同値。
「 が起こったと知ろうが知るまいが、 が起こる確率は変わらない」 ─ それが独立性の本質です。コインを 2 枚別々に投げる、別の人がそれぞれくじを引く、毎日のサイコロの目、といったケースは独立として扱えます。
2 つの独立な試行で、、 のとき、 も も起こる確率は?
解 : 独立だから 。
全確率の法則とベイズの定理(さわり)
条件付き確率を使うと、有名な「全確率の法則」「ベイズの定理」が記述できます。3 級の試験では計算問題として問われることがあるので、形だけでも押さえておきましょう。
互いに排反で全体を覆う事象 について、任意の事象 の確率は
で計算できる。
ある病気の有病率が 、検査の感度(病気の人が陽性と出る確率)が 、特異度の補数(病気でない人が誤って陽性と出る確率)が のとき、無作為に選んだ人が検査で陽性となる確率は?
解 : 「病気」()、「病気でない」()、「陽性」とおく。
、すなわち約 。
ベイズの定理は「結果から原因の確率を逆算する」道具で、 という形をしています。例題 2.4 の状況で「陽性だった人が実際に病気である確率」を求めるのが、ベイズの定理の典型的な使いみち。これは準1級・1級の主要テーマでもあります。
次節では、こうした確率の枠組みの中で「数値をとる量」として扱う確率変数の話に進みます。期待値・分散がいよいよ「ランダムな量」に対して定義される、抽象度が一段上がるところです。
確率変数と期待値・分散
前節までの確率は「事象が起こる/起こらない」を扱っていました。本節からは、もう少し抽象度の高い「ランダムな数値」 ─ 確率変数 ─ を導入し、その平均(期待値)とばらつき(分散)を考えます。
確率変数とは
試行の結果に応じて値が決まる変数を確率変数といい、 などの大文字で表す。 がとびとびの値しかとらないとき離散確率変数、連続的な値をとるとき連続確率変数という。
たとえば「サイコロを 1 回振って出た目」は離散確率変数で、、 です。「明日の最高気温」は連続確率変数で、無限個の実数値をとります。3 級の中心は離散確率変数。連続版は次章の正規分布で扱います。
期待値
離散確率変数 がとり得る値を 、対応する確率を とする。 の期待値を
で定める。期待値は の「ならしたときの平均値」を表す。
公平なサイコロを 1 回振ったとき、出る目 の期待値を求めよ。
解 : 。サイコロの「平均的な値」は となる(〜 の中央値ではないことに注目)。
ある宝くじは、当選確率 で 100 万円、外れ( 円)が確率 。1 枚あたりの期待賞金を求めよ。
解 : 円。1 枚 円で売られていれば、買い手の平均的な「儲け」は 円。逆に主催者は損をする計算になる(現実の宝くじはたいてい逆向き)。
分散
期待値だけでは「平均的にどのへんの値か」しかわかりません。「ふつうそこからどれくらいズレるか(ばらつき)」を測るのが、確率変数の分散です。考え方は記述統計の分散と同じく、「平均からのズレの 2 乗」の平均をとります。
計算には次の変形がよく使われます(記述統計と同じ形)。
確率分布が のとき と を求めよ。
解 : - - -
標準偏差
を確率変数 の標準偏差という。
分散はデータを 2 乗しているため、もとの と単位が合いません。それを揃えるために平方根をとったものが標準偏差で、 と同じ単位でばらつきを語れます。例題 2.7 なら 。
線形変換 ─ $aX + b$ の期待値・分散
のように、確率変数を定数倍したり定数を足したりした新しい確率変数 を考えると、期待値・分散は次の規則に従って一気に計算できます。
つまり「平均は同じ向きに動く」、「分散は定数 には影響されず、 の 2 乗倍 で効く」。
、 のとき、 の期待値と分散を求めよ。
解 : 、。 は分散には効かないことに注意。
この線形変換則は、次節の二項分布や正規分布の標準化、さらには 2 級以降の推定・検定の式変形でも繰り返し登場します。「期待値は普通の代数計算、分散は で割増し」と覚えておきましょう。
第 3 章 · 確率分布
二項分布
コインを 10 回投げて表が何回出るか。10 問の選択式テストで、当てずっぽうで何問正解するか。同じ試行を独立に何度も繰り返すとき、成功回数の分布として現れるのが本節の主役、二項分布です。
ベルヌーイ試行
結果が「成功」「失敗」の 2 つしかない試行をベルヌーイ試行という。成功確率を ()とし、失敗確率は 。
コインを 1 回投げる(表 = 成功)、サイコロで 6 が出るかどうか(成功確率 )、ある問題に正解できるか ─ ぜんぶベルヌーイ試行です。これを 回独立に繰り返したときの成功回数を とおきます。
二項分布の定義
成功確率 のベルヌーイ試行を独立に 回繰り返したときの成功回数 は二項分布 に従うという。確率関数は
なぜこの形になるかは樹形図で考えると見えます。 回中ちょうど 回成功する「並び方」は 通り、それぞれの並びの確率は 。掛け合わせて足したものが、上の式です。
公正なコインを 5 回投げて、表がちょうど 3 回出る確率を求めよ。
解 : 。。
二項分布の期待値と分散
のとき、
「平均は 試行回数 × 成功確率」「分散は 平均 × 失敗確率」と暗記してしまうのが楽です。直感的にも、コインを 10 回投げれば表は平均 5 回(= )、ばらつきは ぐらい、と納得できます。
のとき、 と を求めよ。
解 : 、。標準偏差は 。
二項分布の形と正規分布へのつながり
二項分布の確率分布をグラフにすると、 が大きくなるほど 左右対称な釣鐘型(つりがねがた)に近づいていきます。具体的には が十分大きく も も大きければ、二項分布は次節で扱う正規分布 で近似できる、ということが知られています(ラプラス・ド・モアブルの定理)。
この事実が「データ分析でよく出てくるあの釣鐘型(正規分布)」と「コインの試行(二項分布)」をつなぎます。次の 3.2 で、いよいよ正規分布そのものに踏み込みます。
正規分布と標準化
「身長」「テストの点数」「測定誤差」 ─ 自然界や社会のさまざまな量は、データを集めると左右対称の釣鐘型のヒストグラムを描きます。この形を理想化したものが本節の主役、正規分布です。統計学のあらゆる場面に登場する、もっとも重要な分布のひとつ。
正規分布の形
確率変数 が次の確率密度関数に従うとき、 は正規分布 に従うという。
は分布の中心(平均、期待値)、 はばらつき(分散)。
式は複雑ですが、3 級では「 で中心が決まり、 で幅が決まる、左右対称の釣鐘型」とイメージできれば十分です。 が大きいほど、釣鐘の裾が広く・てっぺんが低くなります。
「身長」「測定誤差」のように、たくさんの小さな独立要因が足し合わさって決まる量は、近似的に正規分布になります(中心極限定理)。この『多くのランダム要因の和』という構造が自然界・社会のあちこちで起きるからこそ、正規分布はあらゆる場面に登場するのです。
経験則(68 - 95 - 99.7 ルール)
正規分布で覚えておきたい便利な目安があります。 のとき:
- から の範囲: 約 のデータが入る
- から の範囲: 約
- から の範囲: 約
のとき、 となる確率を求めよ。
解 : 。区間 は 。経験則より約 、つまり 。
標準化 ─ 正規分布の主役技
について、 とおくと、 は標準正規分布 に従う。
「平均を引いて標準偏差で割る」という変換、1.3 節で学んだ標準化と同じ式です。これによって、どんな正規分布も という共通の物差しに翻訳できます。標準正規分布表(あるいはアプリの 値計算)を一つだけ用意しておけば、ありとあらゆる正規分布の確率を計算できる、というのが標準化の威力です。
工場の品質管理では、製品の寸法を毎日測定し 値を計算します。 となるサンプル(=母集団の 0.3% 未満)が出たら「異常」のサインとして警報を出す、というのが管理図(control chart)の基本ロジックです。マーケティング分析でもユーザーの行動指標を で標準化し、「平均から外れすぎた異常顧客」を発見するのに使われます。
from scipy import stats
# X ~ N(50, 10²) のとき P(X <= 60) を求める
mu, sigma = 50, 10
print(stats.norm.cdf(60, loc=mu, scale=sigma)) # 0.8413...
# z 値で確率を求める(標準正規分布)
print(stats.norm.cdf(1.0)) # 0.8413...
# 上側 2.5% 点(95% 信頼区間で使う z 値)
print(stats.norm.ppf(0.975)) # 1.9600scipy.stats.norm と R の pnorm/qnorm が標準的な対応物。
のとき となる確率を求めよ。
解 : 。表より 、つまり約 。
標準正規分布表の読み方
標準正規分布表は、 や を ごとに並べた数表です。試験会場では持ち込み可なので、形式に慣れておきましょう。代表的な値は次のとおり ─ よく出るので暗記推奨。
- ⇒ 両側合計
- ⇒ 片側
- ⇒ 両側合計
、、 ─ これらの値は次章の信頼区間や、2 級以降の検定で何度も登場します。最低限 は反射的に思い出せるようにしておきたいところです。
第 4 章 · 推定の入口
母平均の信頼区間
ここまでの章は「すでに分かっている分布があるとき、そこから何が起こりやすいか」を考える方向の話でした。本節からは逆向き ─ 「標本のデータから、未知の真の値(母平均)を推し量る」推定の入口を扱います。
母集団と標本
知りたい対象全体を母集団といい、その平均・分散を母平均 ・母分散 という。実際に調査して得られた限られたデータを標本といい、そこから計算した値が標本平均 ・標本分散 。
全国の高校 1 年生の身長(母集団)を全員測るのは不可能なので、500 人をランダムに選んで身長を測る(標本)。この 500 人の平均 から、未知の本当の平均 を推し量る ─ これが推定です。
標本平均の標本分布
母平均 、母分散 の母集団から無作為に 個の標本を取ったとき、標本平均 について
が成り立つ。標本平均の標準偏差 を標準誤差(SE)という。
標本平均の期待値はちょうど母平均と一致します。「平均的にはちゃんと当たる推定量」ということ。一方、標本平均自体は標本ごとに揺れるばらつきを持ちますが、 を大きくするほどその揺れは縮みます( で割られているのがポイント)。
中心極限定理(さわり)
母集団の分布の形によらず、 が十分大きいとき、標本平均 は近似的に正規分布 に従う。
つまり、もとの母集団の分布が正規分布でなくても、たくさん集めた標本の平均は近似的に正規分布になる ─ これが中心極限定理。「だから標本平均は正規分布で扱ってよい」という、推定や検定の理論的な土台になっています。
1 回の試行は何が出るかバラバラでも、たくさん平均すれば「平均値は安定して真ん中に集まる」。これは私たちが日常的に「サンプル数が多ければ信頼できる」と感じる感覚そのものです。中心極限定理は、その『平均は釣鐘型に収束する』という事実を数学的に保証してくれる定理です。
母平均の 95% 信頼区間($\sigma$ 既知)
標本平均 を中心に、誤差 ぶんの幅を取った区間を考えます。
この区間が真の母平均 を含む確率は約 。
は標準正規分布で に相当する値(前節 3.2 で出てきた値です)。信頼度 を に上げたければ の代わりに 、 なら を使います。
「95% の確率で母平均がこの区間にある」と言いたくなりますが、厳密には間違いです。母平均は固定の数値で、確率的に動くのは『私たちが取る区間のほう』。正しくは「同じ手順で繰り返し標本を取って区間を作ると、その 95% は母平均を含む」という意味です。図の『赤い 1 本』が、たまたま外してしまった区間にあたります。
母標準偏差 の母集団から の標本を取ったところ、標本平均 であった。母平均 の 95% 信頼区間を求めよ。
解 : 標準誤差 。誤差幅 。区間は
。
「真の母平均は、95% の信頼度で約 〜 の間にあると考えられる」と読む。
信頼区間の正しい解釈
「95% 信頼区間に が入る確率は 95%」という説明は、厳密にはやや不正確です。正しくは「同じ手続きを多数回繰り返すと、得られる区間の約 95% が真の を含む」というのが信頼区間の意味です。
実用上はあまり気にせず「95% の信頼度で はこの区間にある」と読むことが多いですが、頭の片隅に入れておくと、検定の話に入ったときに混乱しません。次の 2 級では「母分散が未知の場合(t 分布)」「比率の信頼区間」「母平均の検定」など、推定・検定が一気に拡張されていきます。
3級 のおすすめ参考書
当サイトは Amazon.co.jp を宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazon アソシエイト・プログラムの参加者です。