4級 教科書
統計というのは「たくさんの数字を集めたとき、そこから何が読み取れるか」を考える学問です。4級ではその入口として、データの整理のしかた・確率の基本・場合の数の数え方を学びます。本書は **10 章構成**で、データ整理・場合の数・確率・相関・実生活の統計・確率分布の入口・集合と事象・期待値と分散・標本と母集団・3 級への橋渡しまで網羅します。中高生でも読み進められるよう、難しい式はなるべく少なく、身近な例から順に説明していきます。
- 10 章
- 29 節
- ⏱ 約 48 分
- 約 23,857 字
目次
- 第 1 章 · データを読み取る身長・テスト点数・気温など、たくさんの数字から「全体の傾向」と「散らばり具合」を読み取る方法を学びます。
- 第 2 章 · 場合の数「何通りあるか」を数え上げるための基本的な考え方。樹形図・順列・組合せを扱います。
- 第 3 章 · 確率の基本サイコロ・コイン・くじといった身近な例を通じて、確率という考え方に親しみます。
- 第 4 章 · 2 つのデータの関係 ─ 相関と散布図1 つの変数だけでなく、2 つの変数の関係を見る。散布図・相関係数の読み方、そして『相関と因果は違う』を実例で押さえます。
- 第 5 章 · 実生活と統計 ─ 4 級の総まとめここまで学んだ知識を使って、ニュースや日常の数字をどう読むか。総合演習的な章。
- 第 6 章 · 確率分布の入口 ─ 二項分布と正規分布場合の数と確率の理解の上に、3 級以降で頻出する 2 つの代表的な確率分布の『直感』をつかみます。式は最小限、図とイメージで先取りします。
- 第 7 章 · 集合と事象 ─ ベン図で確率を整理する確率の基礎をもう一段固める章。集合・事象・余事象を、ベン図と日常例から学びます。
- 第 8 章 · 期待値と分散の入口確率変数の特徴を表す 2 大指標『期待値』と『分散』を、計算と直感の両面から学びます。
- 第 9 章 · 標本と母集団 ─ 推定の考え方への入口全数調査と標本調査の違い、標本平均の性質、推定の考え方を直感レベルで先取り。
- 第 10 章 · 4 級の総まとめと 3 級への橋渡し4 級で身に付けた力を整理し、3 級で何が新しく登場するかをイメージで掴みます。
第 1 章 · データを読み取る
代表値 — 平均・中央値・最頻値
あるクラスのテストの点数が 人分並んでいたとして、それを一つひとつ眺めても「このクラスはよくできている」「点数の差が大きい」といったことはなかなか見えてきません。そこで便利なのが、たくさんの数字を一つの数字で代表させる考え方です。これを代表値と呼びます。
代表値として特によく使われるのが、平均値・中央値・最頻値の3つです。順番に見ていきましょう。
平均値
もっとも基本的な代表値が平均値です。 個のデータをすべて足して、データの個数 で割ります。
データ に対し、 を平均値という。
5 人のテストの点が のとき、平均点を求めよ。
解 : (点)。
中央値
平均値は便利ですが、大きく外れた値(外れ値)があると、その値に引っ張られて「みんなの真ん中」とはズレた数字になることがあります。その補正役が中央値です。
データを小さい順に並べたとき、ちょうど真ん中にくる値を中央値(メディアン、)という。データ数 が奇数のときは中央の値そのもの、偶数のときは中央にある 2 つの値の平均をとる。
次のデータの中央値を求めよ: 。
解 : データは既に昇順で (偶数)だから、中央 2 つ と の平均 が中央値。
中央値は、外れ値の影響を受けにくいという大切な性質をもっています。たとえば の平均は約 ですが、中央値は です。たった 1 つの極端な値で平均はこれほど動く一方、中央値はびくともしません。
最頻値
データの中で最も多く出現する値を最頻値(モード、)という。
次のデータの最頻値を求めよ: 。
解 : 各値の出現回数は が 1 回、 が 2 回、 が 1 回、 が 3 回、 が 1 回。最も多い が最頻値。
3 つの代表値の使い分け
どの代表値を使うかは、データの性質によって選びます。ざっくりとした目安は次のとおりです。
- 平均値: データがきれいに対称的に分布しているとき、全体の中心を知るのに最適。
- 中央値: 外れ値がある、あるいは分布がかたよっているときに、「ふつうの人」の値として信頼できる。
- 最頻値: 「もっともよくある値」を知りたいとき、特にデータが整数やカテゴリのときに便利。
たとえば世帯年収のように一部の人の収入が飛び抜けて高いデータでは、平均よりも中央値のほうが「ふつうの人」の実感に近い数字になります。ニュースでよく「平均年収」と「中央値」が別々に報じられるのは、この違いがあるからです。
代表値とは、たくさんあるデータを たった 1 つの数字に圧縮した要約 です。本を「短く一言で説明する」のと同じで、要約の仕方が複数あって、それぞれ得意・不得意があります。だから問題によって使い分ける ─ という発想が統計の入口です。
EC サイトの単価分析 では平均よりも中央値が好まれます ─ 高額商品の影響で平均は実態より高く出るためです。ECサイトの口コミ評価 は最頻値(=もっとも多い星の数)を見ると「だいたい何点をつけられがちか」がわかります。クラスのテスト分析 では平均で全体水準、中央値でばらつき、最頻値で典型値を同時に確認します。
データのばらつき — 範囲と四分位数
代表値だけを見ていると、同じ「平均 70 点」でも実はまったく違うクラスを同じように扱ってしまうことがあります。たとえば一方のクラスは 60〜80 点の狭い範囲に全員が入っていて、もう一方のクラスは 30〜100 点まで大きくばらついているかもしれません。この「散らばり」を数値で表すのがばらつきの指標です。
範囲(レンジ)
データの最大値から最小値を引いた値を範囲(レンジ)という。。
範囲はもっとも簡単なばらつきの指標です。ただし、最大値と最小値という 2 点だけで計算しているため、たった 1 つの外れ値があるだけで大きく変わってしまうという弱点もあります。
範囲は『端から端まで』、四分位範囲は『真ん中の 50%』、分散・標準偏差は『全員の平均からのズレ』を見ます。同じ「散らばり」でも、外れ値の影響を受けやすいかどうか・計算のしやすさが違うので、データの特徴に応じて使い分けます。
四分位数
範囲の弱点を補うのが四分位数という考え方です。データを小さい順に並べて、等しい個数ずつ 4 つに区切る位置にくる値のことです。
データを昇順に並べて 4 等分したとき、(第1四分位数、下位 25% の位置)、(第2四分位数 = 中央値)、(第3四分位数、上位 25% の位置)をまとめて四分位数という。
10 人のテストの点を小さい順に並べると であった。、中央値、 を求めよ。
解 : 中央値は (偶数)なので中央 2 つ 。下半分 の中央値 、上半分 の中央値 。
四分位範囲(IQR)
を四分位範囲(Inter-Quartile Range)という。データの中央 50% がどれくらい広がっているかを表す指標。
IQR は、上下 25% ずつ(つまり端の外れ値)を無視して計算しているため、外れ値に対して頑健です。範囲よりも「そのデータの本来の広がり」を表すのに向いています。
箱ひげ図
五つの値 を図にして、データ全体のばらつきを一目でわかるようにしたものを箱ひげ図といいます。「箱」の部分が から まで、「ひげ」の部分が最小値から ・ から最大値までを表し、「箱」の中の線が中央値を示します。
2 つのクラスの点数を並べて箱ひげ図にすれば、平均はほぼ同じでも「片方は全員が近い点」「もう片方はばらばらの点」が視覚的にはっきりわかる、というのが箱ひげ図の便利さです。
度数分布表とヒストグラム
ここまでは小さなデータを直接扱ってきました。しかし数十、数百ものデータになると、すべての値を眺めるだけでは分布の形が見えてきません。そこで活躍するのが、データを区間ごとに整理する度数分布表と、それを視覚化するヒストグラムです。
度数分布表
データをいくつかの区間(階級)に分け、各階級に属するデータの個数(度数)をまとめた表を度数分布表という。各階級の中央の値を階級値、度数を全体で割った値を相対度数という。
たとえば 50 人のテストの得点を 20 点きざみに分けると、次のような度数分布表が作れます。
ある 50 人のクラスのテスト得点を整理すると次のようになった。
| 階級(点) | 階級値 | 度数 | 相対度数 | |:--|--:|--:|--:| | 0 以上 20 未満 | 10 | 2 | 0.04 | | 20 以上 40 未満 | 30 | 8 | 0.16 | | 40 以上 60 未満 | 50 | 18 | 0.36 | | 60 以上 80 未満 | 70 | 17 | 0.34 | | 80 以上 100 以下 | 90 | 5 | 0.10 | | 計 | | 50 | 1.00 |
この表から「40〜60 点に最もたくさんいる」「80 点以上は少数派」といった情報が一目でわかる。
階級値・相対度数・累積度数
度数分布表まわりで覚えておきたい用語は次の 4 つです。
- 階級値: 各階級の中央の値。例 1.5 では「20 以上 40 未満」の階級値は 。
- 度数: 各階級に含まれるデータの個数。
- 相対度数: 度数 ÷ 全体の度数。各階級の「占める割合」で、合計するとちょうど になる。
- 累積度数 / 累積相対度数: その階級までの度数(または相対度数)の合計。中央値や四分位数の位置を考えるときに便利。
ヒストグラム
度数分布表を、横軸に階級・縦軸に度数(または相対度数)をとって表した棒グラフをヒストグラムという。隣り合う棒の間に隙間を空けず、データが連続していることを表現する。
ヒストグラムを描くと、棒グラフ全体の形からデータの性格が読み取れます。
ヒストグラムが扱うのは「点数」「身長」のような連続的な量で、20 点と 21 点の間にも値が存在しえます。だから棒どうしを密着させて『データが連続的につながっている』ことを示すのです。一方カテゴリ(血液型・性別など)は隣接させる意味がないので、棒グラフでは隙間を空けます。
- 山が一つで左右対称: データがバランスよく分布している(身長や体重などでよく見られる)。
- 右(または左)にすそが長い: 大きい値(または小さい値)に偏った分布。所得データなど。
- 山が二つある: 性質の違う 2 つのグループが混ざっている可能性(例: 男女混合のデータ)。
- 極端に外れた階級: 外れ値の存在。
度数分布表からの代表値
もとのデータが手元になく、度数分布表しかないときでも、代表値はおおよそ計算できます。
- 平均(近似): 。
- 中央値が含まれる階級: 累積相対度数がはじめて を超える階級。
- 最頻値が含まれる階級: 度数が最大の階級(その階級値を最頻値の代用とする)。
例 1.5 の度数分布表からテスト平均を近似的に求めよ。
解 : 。実データから計算した平均と少しズレるが、おおよその目安にはなる。
このように、度数分布表とヒストグラムは「分布の形」と「代表値の概算」の両方を効率よく与えてくれる、データ分析の基本道具です。3 級以降の確率分布の話にも、この「分布の形を見る」感覚が直接つながっていきます。
第 2 章 · 場合の数
樹形図と数え上げの基本
「コインを 2 枚同時に投げたとき、表と裏の出方は何通りあるか?」「3 人の生徒を一列に並べる方法は何通りか?」 ─ こうした「何通りあるか」を考える問題を、場合の数の問題といいます。確率を計算するためには、まずこの「何通りあるか」を正確に数えられないといけません。
樹形図 ─ 全部書き出す
もっとも素朴で間違いの少ない方法が、樹形図(じゅけいず)です。1 つ目の選択肢から順に枝分かれを書いていき、最後の葉の数を数えれば、それがそのまま場合の数になります。
コインを 2 枚同時に投げたときの表裏の出方は何通りあるか、樹形図で考えよ。
解 : 1 枚目を「表 / 裏」の 2 通りに分け、2 枚目を「表 / 裏」の 2 通りに分けると、枝の先(葉)は 4 つ。「表表」「表裏」「裏表」「裏裏」の 4 通り。
樹形図の良いところは、「どの組み合わせが起こるか」を一つずつ見える形にできること。慣れてくると、樹形図を全部書かなくても枝の本数だけ数えれば十分になります。次に紹介する積の法則は、その「枝の数を数える」操作を式にしたものです。
場合の数の問題で迷ったら、まず樹形図を書ける範囲で書くのがコツ。3〜4 段までなら樹形図がいちばん確実で、間違いに気づきやすい。一方で 10 人を並べる(=3,628,800 通り)などは樹形図では絶対に書ききれない ─ そこで公式の出番。「樹形図で構造を理解 → 公式で大量の場合をまとめて処理」が王道の流れです。
積の法則
事象 A の起こり方が 通り、それぞれに対して事象 B の起こり方が 通りあるとき、A と B が組み合わさって起こる場合の数は 通り。
シャツが 3 枚、ズボンが 2 本ある。シャツとズボンを 1 つずつ選ぶ組み合わせは何通りか。
解 : シャツの選び方が 3 通り、それぞれに対してズボンの選び方が 2 通りなので、 通り。
から までの数字を使って、3 桁の数を作る方法は何通りあるか(同じ数字の重複を許す)。ただし、最上位は にしないこととする。
解 : 100 の位は 〜 の 9 通り、10 の位と 1 の位はそれぞれ 〜 の 10 通り。 通り。
和の法則
事象 A と事象 B が同時には起こらないとき、A または B のどちらかが起こる場合の数は 通り。
サイコロを 1 回投げて、 以下または 以上の目が出る場合の数を求めよ。
解 : 「 以下」は の 2 通り、「 以上」は の 2 通り。両方が同時に起こることはない(排反)ので、和の法則より 通り。
「積」と「和」のどちらを使うかは、「A と B が同時に起こるか(積)」「A または B が起こるか(和)」を意識すれば判断できます。慣れない間は、無理に式で考えず樹形図を書いて確かめるのが確実です。
順列と組合せ
前節で「並べる」「選ぶ」場合の数の基本を見ました。実用ではこれらが組み合わさって登場するので、専用の記号 と を導入してまとめて扱います。
順列 ─ 並べる
異なる 個の中から 個を取り出して順番に並べる並べ方の総数を順列といい、 で表す。式は 。
5 人の中から 2 人を選んで一列に並べる方法は何通りか。
解 : 通り。最初の 1 人目の決め方が 5 通り、2 人目はそこから 4 通り、と積の法則で考えても同じ結果になる。
のとき、すなわち「全員を並べる」ときの順列を階乗と呼び、 と書きます。 です。
4 人を一列に並べる並び方は何通りか。
解 : 通り。
組合せ ─ 選ぶ
異なる 個の中から 個を順番を区別せずに選ぶ選び方の総数を組合せといい、 または で表す。式は 。
6 個の異なる果物から 3 個を選ぶ選び方は何通りか。
解 : 通り。
「並べる」と「選ぶ」の違い
順列と組合せの違いは「順番を区別するかどうか」です。たとえば「5 人から 2 人選ぶ」だけなら 通り、「5 人から 2 人選んで班長と副班長を決める」なら 通り。後者は「順番(役割)を区別する」ので、選んだあとに 倍だけ並べ方が増えます。
─ つまり「組合せの数 × = 順列の数」。「選んでから並べる」と覚えるとわかりやすい。
応用例 ─ 男女混合の選び方
男子 3 人、女子 3 人の中から 2 人を選ぶとき、男女 1 人ずつとなる選び方は何通りか。
解 : 男子 3 人から 1 人を選ぶ 通り、女子 3 人から 1 人を選ぶ 通り。積の法則で 通り。
順列と組合せは確率計算の基礎中の基礎です。次の章で確率を扱うとき、「全体の場合の数」「事象の起こる場合の数」を求めるために繰り返し使うことになるので、ここでしっかり手を動かして慣れておきましょう。
第 3 章 · 確率の基本
確率という考え方
前章までで「全部で何通りあるか」を数える練習をしてきました。ここからはいよいよ、その「何通り」をもとに「ある出来事がどれくらい起こりやすいか」を数値で表す ─ 確率の話に入ります。
「同様に確からしい」とは
サイコロを投げると 1〜6 の目のいずれかが出ます。このとき「どの目もまったく同じくらい出やすい」と考える、これが「同様に確からしい(equally likely)」という考え方です。サイコロが歪んでいなければ、各目の出やすさは ずつ。コイン(表と裏で同様に確からしい)、トランプ(52 枚から 1 枚引くとき各カード)など、多くの基本問題はこの考え方をベースにしています。
確率の定義
全事象の各場合が同様に確からしいとき、事象 が起こる確率は
\;P(A) = \dfrac{\text{A が起こる場合の数}}{\text{起こりうる全体の場合の数}}\;
で定義する。
1 個のサイコロを投げて、 以上の目が出る確率を求めよ。
解 : 全体は 通り(1〜6 の目)、 以上は の 通り。。
袋に赤玉 個、白玉 個が入っている。1 個取り出すとき、赤玉である確率を求めよ。
解 : 全体は 個、赤は 個。。
確率の取りうる値
任意の事象 について が成り立つ。 は「絶対に起こらない事象」、 は「必ず起こる事象」を表す。
確率は割合と同じく 以上 以下の数値です。 なら「だいたい 10 回に 3 回は起こる感じ」と直感的に解釈できます。 表示にすれば です。
確率は数学的には簡単でも、人間の感覚は実はかなり弱いことが知られています。たとえば「降水確率 30%」を『3 割は降る』ではなく『傘を持つほどでもない』と感じてしまったり、「10 人に 1 人が当たるくじ」を 9 回外すと「次は当たる気がする」と感じたり ─ どちらも人間の典型的な錯覚です。だからこそ、確率は 数値にして冷静に見る のが大事 ─ これが統計学を学ぶ意義の一つです。
確率は実生活のあらゆる意思決定に使われています。天気予報(降水確率)・機器の故障率(製造業の品質管理)・医療検査の陽性率(陽性的中率)・スパムフィルタ(その単語が含まれた=スパムである確率)─ ぜんぶ「確率による意思決定」です。 や といった数字に冷静に反応できると、実務での判断が精度よくできるようになります。
確率の加法定理
「A または B が起こる確率」は単純に足せばよい場合と、足してから重複を引く必要がある場合があります。
特に と が同時には起こらない(排反事象)とき、 なので
。
から までの整数から つを無作為に選ぶ。「偶数」または「 の倍数」が出る確率を求めよ。
解 : 偶数は で 5 個、 の倍数は で 3 個、両方(つまり の倍数)は で 1 個。。
余事象と独立事象
確率の基本ができたところで、実戦でよく使う 2 つの強力な道具 ─ 余事象と独立事象 ─ を学びます。「少なくとも 1 回は…」のような問題が、これらを使うと驚くほどスッキリ解けるようになります。
余事象 ─ 起こらない方を考える
事象 が「起こらない」事象を の余事象といい、 または と書く。常に が成り立つ。
余事象の威力は「少なくとも 1 回は…」型の問題に現れます。「少なくとも 1 回は起こる」を直接数えるのは大変ですが、その余事象「1 回も起こらない」を数えるのは案外楽、というケースが多いのです。
硬貨を 3 枚同時に投げるとき、少なくとも 1 枚が表になる確率を求めよ。
解 : 直接「1 枚以上表」を数えると(1 枚, 2 枚, 3 枚)で場合分けが必要だが、余事象「3 枚とも裏」は 。よって求める確率は 。
サイコロを 2 回投げて、少なくとも 1 回は の目が出る確率を求めよ。
解 : 余事象「2 回とも 6 以外」の確率は 。求める確率は 。
独立事象 ─ お互い影響しない事象
事象 が起こったかどうかが、事象 の起こりやすさに影響を与えないとき、 と は独立であるという。 と が独立のとき、 が成り立つ。
コインの 1 投目と 2 投目、別々のサイコロの目、別々の人がくじを引く ─ こういった「相手のことを覚えていない」試行はだいたい独立です。確率の問題で「同時に起こる確率」を求めるとき、独立なら「掛け算」と覚えればたいていうまくいきます。
当たりが のくじを 2 回独立に引くとき、2 回とも当たる確率を求めよ。
解 : 独立だから 。
袋に赤玉 個、白玉 個が入っている。続けて 2 個の玉を取り出す(もとに戻さない)。1 個目が赤、2 個目が白である確率を求めよ。
解 : 1 個目が赤の確率は 。1 個目を赤と確定すると、袋には赤 2、白 2 の計 4 個。2 個目が白の確率は 。掛け合わせて 。
注 : この問題では「もとに戻さない」ため、1 個目と 2 個目は独立ではない(1 個目で取った色によって、2 個目の確率が変わる)。それでも「掛け算」が使えるのは、 という条件付き確率の式が成り立つから(3 級で本格的に扱う)。
実戦のコツ
- 「少なくとも〜」を見たら余事象: 直接数えにくいケースほど余事象が効く。
- 「同時に」「両方とも」を見たら掛け算: 独立なら単純な積、独立でないなら条件付き確率まで踏み込む。
- 「どれかが」「またはが」を見たら足し算: ただし重複を引くのを忘れない。
- 確率の合計はいつも 1: という対称性は、検算にも使える。
ここまでで 4 級の主要範囲はおおむね終わりです。データの整理(代表値・ばらつき)、場合の数、そして確率 ─ この 3 つが基礎の柱になります。3 級では、ここから確率変数や確率分布へと一段階進みます。
第 4 章 · 2 つのデータの関係 ─ 相関と散布図
散布図の読み方
散布図(scatter plot) は、2 つの量を縦軸・横軸に取って点で表したグラフ。気温 × アイス売上、勉強時間 × テスト点数 ─ 2 つの関係を一目で確認できます。
3 つの関係のパターン
- 正の相関: 一方が増えると他方も増える(右肩上がり)
- 負の相関: 一方が増えると他方は減る(右肩下がり)
- 相関なし: バラバラに散らばる(関係が見えない)
強い相関: 点が直線に沿ってきれいに並ぶ。弱い相関: 全体的な傾向はあるが点が散らばる。相関なし: 雲のように広がる。視覚的に判断する練習が大切。
相関係数 ─ 関係の強さを数字で
散布図を見るだけでは『どれくらい強い関係か』を客観的に比較しづらい。そこで使うのが 相関係数 r。
相関係数の値の読み方
−1 ≤ r ≤ 1
- : 完全な正の相関(点が右肩上がりの直線上にぴったり) - : 強い正の相関 - : 中程度の正の相関 - : ほぼ相関なし - : 完全な負の相関
4 級では計算式は出ませんが、散布図 + 数値 r からどれくらいの強さか判断する 問題がよく出ます。
外れ値の影響
1 つだけ大きくズレた点(外れ値)があると、相関係数は 大きく動きます。なので散布図を見ずに相関係数だけ信用するのは危険。まず散布図を描いて目視確認 が鉄則。
統計学者アンスコムが作った 同じ平均・分散・相関係数を持つ 4 つのデータ集合 が有名。数値だけ見るとそっくりだが散布図を描くと全く違う形をしている。「数字だけで判断するな、可視化せよ」 という統計の基本原則を表す古典的事例。
相関と因果の違い
強い相関がある = 因果関係がある とは限りません。これは統計を学ぶ人が一度は通る重要な落とし穴です。
古典的な例
- アイスの売上と水難事故: 両方とも夏に増えるだけ(共通原因 = 気温)
- 靴のサイズと収入: 両方とも年齢に関係(子どもは靴も収入も小さい)
- 消防車の数と火災の被害額: 両方とも火災規模に関係
見せかけの相関(疑似相関)が起きる 3 パターン
- 共通原因(交絡): A と B の両方を C が引き起こす
- 逆向きの因果: B → A なのに A → B と思い込む
- 偶然: サンプルが小さいと意味のない相関が出ることがある
実験(無作為化比較試験) が王道だが、現実には倫理・コストで難しい(『タバコは肺がんの原因か?』を実験するわけにいかない)。準実験的手法(回帰分析・操作変数法・因果推論)で『可能な限り因果に近い結論』を出す。詳しくは [因果推論ミニ教科書](/causal-inference) で。
次の章へ
次の章では『ニュースを批判的に読む』を総まとめ。アンケート・グラフ・%トリックなど、統計知識を実生活でどう活かすかを学びます。
第 5 章 · 実生活と統計 ─ 4 級の総まとめ
アンケートの結果を読む
ニュースで見るアンケート結果。正しい結論を引き出せるか が、統計を学んだ甲斐の見せ所です。
標本調査(=一部を見て全体を推測する)
国民全員に聞くのは大変なので、一部 1,000 人 くらいに聞いて全体を推測するのが普通。これを 標本調査 といいます。本サイトの『統計調査士 教科書』で深掘りできます。
アンケートで気を付けるポイント
- サンプル数(何人に聞いた?): 100 人より 10,000 人の方が信頼度高
- 回答者の偏り: 街頭調査だと若者中心になりがち
- 質問の聞き方: 誘導的な聞き方は結果を歪める
- 選択肢の作り方: 5 段階か 4 段階かで結果が変わる
支持率調査の例
「支持率 50% ± 3%」という表記をよく見ます。±3% は 誤差(ばらつき) の幅。100 回調査すれば 95 回は 47%〜53% の範囲に入る という意味。1 回の調査だけでは『ぴったり』の値ではない、という統計の基本姿勢。
ニュースの統計を批判的に読む
統計を学ぶ最大の利点は 数字に騙されなくなる こと。よくある誤解パターンを覚えておきましょう。
1. 平均値の罠
「日本の平均年収は 460 万円」 ─ でも中央値は 420 万円。極端な高所得者で平均が引き上げられている ので、『普通の人の年収』を表すには中央値の方が適切。
2. % の比較トリック
「感染者数が 1 日で 50% 増加!」 ─ でも昨日 4 人 → 今日 6 人なら 50% 増加だが、規模感は小さい。絶対数も併記されているか を確認する習慣を。
3. グラフの軸の操作
- 縦軸の途中省略: 小さな差を大きく見せる
- 3D グラフ: 円グラフを 3D にすると手前のカテゴリが大きく見える
- 年単位 / 月単位の切替: 都合のよい単位で印象を操作
- 対数軸の使用: 急上昇を緩やかに見せる
4. 因果の混同
「A をする人は B になりやすい」と聞いたら、3 つの可能性 を疑う:
- 本当に A → B(因果)
- B → A(逆の因果)
- C が両方を引き起こす(共通原因)
ニュースを見たら自問する 5 つの質問: 1. 何人を対象にした調査?(サンプル数) 2. 対象は偏っていないか?(代表性) 3. 平均? 中央値? 4. 比較対象は妥当か? 5. 相関を因果と混同していないか?
この 5 つを確認するだけで、ニュースの 80% は冷静に読めるようになります。
次のステップへ ─ 3 級・統計検定へ
4 級の範囲は『データの整理 + 確率の基本』。これは統計学の 基礎の基礎 であり、ここから先には豊かな世界が広がっています。
3 級で学ぶこと
- 確率変数と期待値: 確率を扱う『道具』が揃う
- 正規分布: 統計学の中心となる釣り鐘型分布
- 標本平均の分布(中心極限定理): なぜ統計的推測が成り立つか
- 信頼区間と仮説検定の入口: データから結論を出す方法
おすすめの進路
- [3 級 教科書](/textbook/grade-3) ─ 確率分布・推定の入り口
- [3 級 演習問題](/quiz/grade-3) ─ 一問一答で力試し
- [動かして学ぶ統計](/explore) ─ 分布をスライダーで体感
- [ブログ: 統計検定 何級から始めるべき?](/blog/which-grade-to-start)
完全に理解してから次へ、では時間がかかりすぎます。6 割理解したら次へ進み、後で戻ってくる のが効率的。3 級の学習中に 4 級の概念が「あ、こういうことか」と腑に落ちることが多々あります。
第 6 章 · 確率分布の入口 ─ 二項分布と正規分布
確率変数とは何か
ここまでサイコロやコインで『何が出るか』『確率はいくらか』を考えてきました。これを 1 つの 数値の世界 にまとめると見通しがよくなります ─ それが 確率変数(かくりつへんすう) です。
確率変数の例
- サイコロ 1 個の出目: 1, 2, 3, 4, 5, 6 のどれかを取る確率変数
- コインを 5 回投げて表が出た回数: 0, 1, 2, 3, 4, 5 のどれかを取る確率変数
- 新生児の身長: 50cm 前後の連続値を取る確率変数
- 1 ヶ月の通勤遅延回数: 0, 1, 2, … の整数値を取る確率変数
確率変数は、現実のあらゆる『結果がランダムなもの』を、扱いやすい 数値の枠組み に翻訳してくれる装置です。何度も観測すると 平均値 や 散らばり が見えてくる ─ これが統計学の出発点です。
離散型と連続型
離散型(りさんがた): とりうる値が 数えられる(整数値が並ぶ)。サイコロの目・コインの表回数・電話の問合せ件数。
連続型(れんぞくがた): とりうる値が 連続的(間に無限の値がある)。身長・体重・気温・血液の検査値。
確率分布の表し方
確率変数がどんな値をどれくらいの確率で取るか、を表したものが 確率分布。離散型は『棒グラフ』のような表で、連続型は『滑らかな曲線』で表します。これから登場する 二項分布 は離散型、正規分布 は連続型の代表選手です。
二項分布 ─ コイン投げの分布
二項分布(にこうぶんぷ) は『成功か失敗かのどちらか が起こる試行を、独立に何回か繰り返したときに、成功が何回起こるかの分布』。コイン投げの『表が何回出るか』が典型例です。
二項分布の典型例
- コインを 10 回投げて表が出る回数(成功確率 1/2)
- サイコロを 6 回振って 6 が出る回数(成功確率 1/6)
- 100 人にアンケートして『はい』と答えた人数(成功確率 = 母集団比率)
- 製品 50 個のうち不良品の個数(成功確率 = 不良率)
ふくらむポイント:平均と散らばり
回試行で 1 回あたりの成功確率 なら、平均(期待値)= 。
コイン 10 回 → 平均 5 回表。サイコロ 60 回 → 平均 10 回 6 が出る。直感どおり の値になります。
ならガタガタ、 なら滑らかな山型、 なら 正規分布にそっくりの曲線 に。これは次節で扱う 中心極限定理 の入口で、3 級・2 級でも繰り返し登場する重要な現象です。
正規分布 ─ 自然界・社会のあらゆる場面で出現
正規分布(せいきぶんぷ) は、統計でいちばん有名な分布です。身長・体重・テストの点数・誤差 ─ あらゆる現象が(条件次第で)この分布になります。別名『ガウス分布』『ベルカーブ』。
正規分布の特徴
- 左右対称の山型(平均 μ を中心に左右ミラー)
- 平均 = 中央値 = 最頻値 がすべて一致
- ばらつきは標準偏差 σ で表される
- 約 68% が ±1σ 以内、95% が ±2σ 以内、99.7% が ±3σ 以内(68-95-99.7 ルール)
データのばらつきを表す値。(シグマ)と書きます。 が大きい = ばらついている、小さい = 平均に集中している。3 級で式を学びますが、4 級では『ばらつきを表す数字』と直感的に覚えれば十分です。
68-95-99.7 ルール
正規分布なら、平均から ±1σ の範囲に約 7 割 のデータが入る。±2σ なら 95%(20 人中 19 人くらい)。±3σ なら 99.7%(1000 人中 997 人)。実生活でも便利な目安で、品質管理(±3σ から外れたら異常)・テストの偏差値(±1σ で偏差値 60-40)・株価の値動きなどに使われます。
標準正規分布(ひょうじゅん せいきぶんぷ)
平均 0、標準偏差 1 の正規分布を 標準正規分布 といいます。 と書きます。一般の正規分布 は 標準化(平均を 0 にして σ で割る)で標準正規分布に変換でき、表で確率を引けます。3 級では実際の計算を扱います。
中心極限定理の入口 ─ なぜ正規分布があちこちにあるか
なぜ正規分布が これほど多くの場面で出てくる のでしょうか? その鍵は 中心極限定理(ちゅうしん きょくげん ていり, Central Limit Theorem, CLT) という数学の定理です。難しい式は 2 級で扱いますが、直感だけ はここで掴んでおきましょう。
CLT のひとことまとめ
身長は 遺伝・栄養・運動・睡眠・病気の有無 … という小さな要因の合計で決まる。テスト点数は その日の体調・問題との相性・前日の勉強時間 … の合計。そういった小さな影響を多数足し合わせると、原因の分布がどんな形でも、合計の分布は正規分布に近づく ─ これが CLT の本質です。
CLT が伝えること
- 自然現象に正規分布が多い のは、無数の小さな要因の合計だから
- 標本平均は正規分布に従う(母集団がどんな分布でも、サンプルが大きければ)
- 統計的推測(推定・検定)の理論的基盤 が、ここから組み上がる
- 3 級・2 級で扱う 信頼区間・仮説検定 はすべて CLT の上に立つ
結びに ─ 4 級から 3 級へ
ここまでで 4 級の主要範囲を扱いました。データの整理 → 場合の数 → 確率 → 相関 → 実生活 → 確率分布の入口 ─ 6 章で統計の基本道具がそろいました。次の 3 級 では、ここで触れた標準偏差・分散・確率分布を 数式で 扱い、推定(母集団を推し量る)と 検定(仮説をデータで判定する)の入口まで進みます。
- [3 級 教科書へ進む](/textbook/grade-3) ─ 推定・検定の本格入門
- [用語集](/glossary) ─ 出会った言葉を確認
- [統計図解集](/figures) ─ 概念を SVG で見直す
- [統計計算ツール](/tools) ─ 信頼区間・p 値などをすぐ試す
第 7 章 · 集合と事象 ─ ベン図で確率を整理する
集合と事象の言葉
Ch3 で確率の基本を学びましたが、複数の事象が絡む確率を扱うには 集合の言葉 が便利です。
事象を集合とみなす
全事象 : 起こりうる結果すべて。サイコロなら
事象 A: 起こりうる結果の一部。例『偶数の目』 =
余事象 (エー・シー): A 以外の結果。『偶数の目の余事象』 =
和事象と積事象
和事象 : A または B が起こる(どちらでも or 両方)
積事象 : A かつ B が同時に起こる
排反: (同時には起こらない)
ベン図では『A の輪と B の輪が重なる部分』が積事象、『どちらか塗られた部分すべて』が和事象。重なりがあるかないか(独立か排反か)を視覚化できる強力な道具です。
確率の加法定理
和事象の確率を計算する公式 ─ 加法定理 は、ベン図で『重複を 2 回数えないようにする』発想から来ています。
加法定理(一般形)
単純に とすると、A∩B の部分を 2 回数えてしまう。これを 1 回ぶん引くのが正しい計算。
と が排反()なら、 なので、。これが Ch3 で学んだ 加法定理(排反版) の正体です。
余事象を使うと楽になる例
『少なくとも 1 回 6 が出る』ような問題は、余事象 = 1 回も 6 が出ない を計算したほうが圧倒的に楽です。サイコロを 3 回振って少なくとも 1 回 6 が出る確率は、。直接『1 回・2 回・3 回出る確率の和』を計算するより簡単。
条件付き確率の入口
条件付き確率(じょうけんつき)は、『ある事象が起こったとわかっているとき、別の事象が起こる確率』。これは 3 級・2 級でも頻繁に登場する重要概念です。
条件付き確率の定義
読み方: 『A の条件のもとでの B の確率』。直感的には『A の世界に限定したとき、B が占める割合』。
全 100 人の学校で、女子 40 人・男子 60 人。女子のうちメガネをかけているのが 8 人。ランダムに選んだ 1 人が女子の条件で、メガネをかけている確率 は 。これが 。全体ではなく、女子という枠の中の割合 を見るのがポイント。
独立性
独立: (A が起こったかどうかは B の確率に影響しない)
このとき、 が成り立つ ─ これが 乗法定理(独立版)。コイン 2 回投げ・別のサイコロ 2 個など、互いに影響しない試行で成り立ちます。
第 8 章 · 期待値と分散の入口
期待値とは何か
期待値(きたいち, expected value) は『確率変数の平均的な値』。長く続けたときに 平均でいくらになるか を表します。
期待値の定義(離散)
確率変数 が値 をそれぞれ確率 で取るとき:
値と確率を 掛け算して合計 ─ これが期待値。
サイコロの期待値
サイコロ 1 回振って出る目の期待値は: 実際には 3.5 という目は出ない けれど、長く振り続ければ平均が 3.5 に近づく のが期待値の意味です。
宝くじの期待値は 販売価格より低い(売り手が儲かる)。300 円のくじで期待値が 150 円なら、長く買い続けると平均で半分損する。期待値で見ると不利だが、低確率で大当たりがある夢を買う のがギャンブル。期待値という言葉は、こういう判断にも使えます。
分散と標準偏差
期待値だけでは『平均的にいくらか』しか分かりません。ばらつきの大きさ を表すのが 分散 と 標準偏差 です。
分散の定義
期待値からのズレ(偏差)を 2 乗した平均。値が散らばるほど大きい。標準偏差は 。
偏差をそのまま足すと正負が打ち消し合って 常に 0 になる(平均の定義から)。だから 2 乗 で正に揃えてから平均を取る。絶対値で扱う方法もあるが、2 乗の方が 微分しやすい・代数的に扱いやすい ので統計の標準。
分散の性質
- : 定数倍は 2 乗で効く、定数足し算は影響なし
- 独立な変数の和:
- 標準偏差は元のデータの単位(2 乗してから平方根を取るので)
- 分散の単位は『元の単位の 2 乗』 ─ 解釈しにくい
二項分布の期待値・分散
Ch6 で学んだ 二項分布 の期待値・分散は、特別な意味を持ちます。
二項分布の期待値と分散
のとき:
コイン 100 回投げ(): - 期待値 回 - 分散 - 標準偏差
つまり『50 回 ± 5 回くらいが普通』。3 級で扱う ±2σ ルール()で、〜 回に収まることがほぼ確実 ─ こういう感覚が直感力を作ります。
比率の標準誤差
コイン 100 回で『表が出る割合 』を考えると、、。これが選挙の出口調査・支持率調査でおなじみの 標本誤差(標準誤差) の正体。3 級・2 級の信頼区間で繰り返し登場します。
第 9 章 · 標本と母集団 ─ 推定の考え方への入口
母集団と標本
統計調査 で本当に知りたいのは『みんな全体』の値。でも全員に聞くのは現実的でないので、一部の人(標本)に聞いて全体を推測します。
母集団と標本の関係
母集団(ぼしゅうだん): 知りたい対象すべて。例『日本の有権者全員』『工場の全製品』
標本(ひょうほん): 母集団から取った一部。例『無作為に選んだ 1000 人』『1 日の生産から無作為抽出した 50 個』
標本サイズ(n): 標本に含まれる個体の数
全数調査と標本調査
- 全数調査(センサス): 全員に聞く。国勢調査・全数検査。コスト膨大 だが正確
- 標本調査: 一部に聞いて推定。労働力調査・テレビ視聴率調査。コスト低い が標本誤差あり
- 両方の組合せ: 国民経済計算は全数(税務データ)+ 標本(家計調査)を統合
1000 人に聞いただけで全国民を語れるのは、ランダムに選ぶ ことで標本が母集団の縮図になるから。コーンスープを よくかき混ぜれば 一口で全体の味がわかるのと同じ。かき混ぜる = ランダム化、一口 = 標本。料理の味見と統計調査は数学的に同じ仕組みです。
標本平均の振る舞い
標本平均 は標本ごとに違う値になる 確率変数。その振る舞いには規則性があります。
標本平均の期待値と分散
母平均 、母分散 の母集団から標本サイズ で抽出したとき:
( の期待値は母平均と同じ ─ 不偏性)
( の分散は母分散の )
標準誤差:
標本サイズを 4 倍にしても、標準誤差は 半分しかならない()。精度を 10 倍にしたければ標本を 100 倍 必要。これが『標本サイズ』が大事だが、指数的に効きにくい 理由。だから世論調査は『1000 人で十分』で、それ以上増やすコストパフォーマンスが悪いのです。
中心極限定理の再確認
Ch6 で見た 中心極限定理 によれば、母集団がどんな分布でも、 が大きければ標本平均 は 正規分布 に近づく。これが推定・検定の理論的基盤で、3 級・2 級で繰り返し利用します。
推定と検定の予告
3 級では 推定(母集団の値を推し量る)と 検定(仮説をデータで判定する)を本格的に学びます。ここでは 直感だけ つかんでおきましょう。
推定 ─ 値を推し量る
標本平均が 50.0、標本サイズ 、母標準偏差 なら、標準誤差は 。95% 信頼区間 は 。『真の母平均はだいたい 48〜52 の範囲』と読みます。範囲で示す のが推定の特徴。
検定 ─ 仮説を判定する
『この製品の重さは平均 100 g』という主張に、新工程で作った 25 個の標本平均が 105 g。これは『100 g という主張のもとでは滅多に起こらない』ことなので、主張を疑う(棄却する)。これが検定の発想。滅多に起こらない = p 値 < 0.05、というのが判定の数値基準。
結びに ─ 4 級から先へ
ここまでで 4 級教科書の主要範囲をひととおり扱いました。データ整理・場合の数・確率・相関・実生活の統計・確率分布の入口・集合と確率・期待値と分散・標本と母集団 ─ 9 章にわたって統計の基礎の地図を描いてきました。続く第 10 章では、4 級の総まとめと 3 級への橋渡し を行います。
第 10 章 · 4 級の総まとめと 3 級への橋渡し
4 級で身に付いた『統計の基礎力』
4 級教科書 9 章を歩いてきたあなたが今もっている力を、5 つの観点で振り返ります。
5 つの基礎力
- データを整理できる: 度数分布表・ヒストグラム・代表値(平均・中央値・最頻値)
- ばらつきを語れる: 範囲・四分位範囲・標準偏差(直感レベル)
- 確率を計算できる: 場合の数・確率の加法・乗法・条件付き
- 変数の関係を読める: 散布図・相関係数・相関と因果の区別
- 確率分布の入口を知る: 二項分布・正規分布・中心極限定理(直感レベル)
失業率・支持率・健康診断結果・選挙速報 ─ ニュースで出会う統計の 8 割は 4 級レベル で読めます。3 級以上は、その先の 数式での精緻化 や 検定の論理 に進む段階。4 級が完璧 = 一般教養としての統計はクリア と言えます。
3 級で新しく登場する 5 つのテーマ
3 級でいよいよ登場する 新トピック を、ここで先取りしておきます。本格的には 3 級教科書で扱いますが、目次として知っておくと学習の見通しが立ちます。
1. 期待値・分散を式で扱う
4 級では直感で扱った期待値・分散を、本格的に 数式で計算 します。線形変換の公式 、 などを使いこなせるようになります。
2. 確率分布の本格的扱い
二項分布・正規分布・ポアソン分布・指数分布などを 公式と表で計算。標準正規分布表を引いて確率を求めるなど、計算力が問われます。
3. 信頼区間 ─ 推定の本論
母平均・母比率の 信頼区間 を、 の形で計算します。世論調査で『支持率 50% ± 3 ポイント』と書かれる『± 3 ポイント』の正体です。
4. 仮説検定 ─ 統計的判定
『この主張は受け入れてよいか』をデータで判定する 仮説検定 が登場。新薬の有効性・製品の品質・調査結果の有意性 ─ 統計の最も実用的な使い方の一つ。
5. 共分散・相関係数の式
4 級で散布図から見ていた相関を、 という具体的な式で計算します。
3 級は 式に慣れる段階(高校数学レベル)。2 級になると どの検定を選ぶか・結果をどう解釈するか という判断・応用が問われ、実務に直結。4 級 → 3 級 → 2 級 が現代の標準ルートです。
学習を続けるための心構え
統計の学習を 長続きさせる ためのコツをまとめます。
5 つの心構え
- 小さな前進を続ける: 1 日 15 分、1 章ずつでも積み上げる
- 完璧主義を捨てる: 6 割理解で次へ進み、後で戻る方が効率的
- 手で計算する: 公式は読むだけでなく、実際に動かして体に染み込ませる
- 身近なデータで遊ぶ: 家計簿・自分の体重・通勤時間など、自分のデータを分析
- 数式に怯えない: 数式は『言いたいことを短く書いた略号』。日本語に翻訳できれば怖くない
学習リソース
- [3 級 教科書](/textbook/grade-3) ─ 次のステップ
- [3 級 演習問題](/quiz/grade-3) ─ 計算力を鍛える
- [3 級 公式集](/formulas/grade-3) ─ よく使う公式の一覧
- [統計用語集](/glossary) ─ 知らない言葉を素早く確認
- [統計図解集](/figures) ─ 概念を絵で再確認
- [級診断](/diagnose) ─ 自分の今の力を 3 問で確認
4 級は『統計を学ぶ最初の一歩』。これを越えた先には、3 級(大学基礎) → 2 級(実務統計) → 準 1 級・1 級(理論と応用) という段階が広がっています。各級ごとに難易度は上がりますが、積み重ね で必ず進めます。本サイトはあなたの学習に寄り添う場所。何度でも戻ってきてください。
ようこそ、本格的な統計の世界へ。3 級教科書 で待っています。
4級 のおすすめ参考書
当サイトは Amazon.co.jp を宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazon アソシエイト・プログラムの参加者です。