4級 教科書
統計というのは「たくさんの数字を集めたとき、そこから何が読み取れるか」を考える学問です。4級ではその入口として、データの整理のしかた・確率の基本・場合の数の数え方を学びます。中高生でも読み進められるよう、難しい式はなるべく少なく、身近な例から順に説明していきます。
目次
- 第 1 章 · データを読み取る身長・テスト点数・気温など、たくさんの数字から「全体の傾向」と「散らばり具合」を読み取る方法を学びます。
- 第 2 章 · 場合の数「何通りあるか」を数え上げるための基本的な考え方。樹形図・順列・組合せを扱います。
- 第 3 章 · 確率の基本サイコロ・コイン・くじといった身近な例を通じて、確率という考え方に親しみます。
第 1 章 · データを読み取る
代表値 — 平均・中央値・最頻値
あるクラスのテストの点数が 人分並んでいたとして、それを一つひとつ眺めても「このクラスはよくできている」「点数の差が大きい」といったことはなかなか見えてきません。そこで便利なのが、たくさんの数字を一つの数字で代表させる考え方です。これを代表値と呼びます。
代表値として特によく使われるのが、平均値・中央値・最頻値の3つです。順番に見ていきましょう。
平均値
もっとも基本的な代表値が平均値です。 個のデータをすべて足して、データの個数 で割ります。
データ に対し、 を平均値という。
5 人のテストの点が のとき、平均点を求めよ。
解 : (点)。
中央値
平均値は便利ですが、大きく外れた値(外れ値)があると、その値に引っ張られて「みんなの真ん中」とはズレた数字になることがあります。その補正役が中央値です。
データを小さい順に並べたとき、ちょうど真ん中にくる値を中央値(メディアン、)という。データ数 が奇数のときは中央の値そのもの、偶数のときは中央にある 2 つの値の平均をとる。
次のデータの中央値を求めよ: 。
解 : データは既に昇順で (偶数)だから、中央 2 つ と の平均 が中央値。
中央値は、外れ値の影響を受けにくいという大切な性質をもっています。たとえば の平均は約 ですが、中央値は です。たった 1 つの極端な値で平均はこれほど動く一方、中央値はびくともしません。
最頻値
データの中で最も多く出現する値を最頻値(モード、)という。
次のデータの最頻値を求めよ: 。
解 : 各値の出現回数は が 1 回、 が 2 回、 が 1 回、 が 3 回、 が 1 回。最も多い が最頻値。
3 つの代表値の使い分け
どの代表値を使うかは、データの性質によって選びます。ざっくりとした目安は次のとおりです。
- 平均値: データがきれいに対称的に分布しているとき、全体の中心を知るのに最適。
- 中央値: 外れ値がある、あるいは分布がかたよっているときに、「ふつうの人」の値として信頼できる。
- 最頻値: 「もっともよくある値」を知りたいとき、特にデータが整数やカテゴリのときに便利。
たとえば世帯年収のように一部の人の収入が飛び抜けて高いデータでは、平均よりも中央値のほうが「ふつうの人」の実感に近い数字になります。ニュースでよく「平均年収」と「中央値」が別々に報じられるのは、この違いがあるからです。
代表値とは、たくさんあるデータを たった 1 つの数字に圧縮した要約 です。本を「短く一言で説明する」のと同じで、要約の仕方が複数あって、それぞれ得意・不得意があります。だから問題によって使い分ける ─ という発想が統計の入口です。
EC サイトの単価分析 では平均よりも中央値が好まれます ─ 高額商品の影響で平均は実態より高く出るためです。ECサイトの口コミ評価 は最頻値(=もっとも多い星の数)を見ると「だいたい何点をつけられがちか」がわかります。クラスのテスト分析 では平均で全体水準、中央値でばらつき、最頻値で典型値を同時に確認します。
データのばらつき — 範囲と四分位数
代表値だけを見ていると、同じ「平均 70 点」でも実はまったく違うクラスを同じように扱ってしまうことがあります。たとえば一方のクラスは 60〜80 点の狭い範囲に全員が入っていて、もう一方のクラスは 30〜100 点まで大きくばらついているかもしれません。この「散らばり」を数値で表すのがばらつきの指標です。
範囲(レンジ)
データの最大値から最小値を引いた値を範囲(レンジ)という。。
範囲はもっとも簡単なばらつきの指標です。ただし、最大値と最小値という 2 点だけで計算しているため、たった 1 つの外れ値があるだけで大きく変わってしまうという弱点もあります。
範囲は『端から端まで』、四分位範囲は『真ん中の 50%』、分散・標準偏差は『全員の平均からのズレ』を見ます。同じ「散らばり」でも、外れ値の影響を受けやすいかどうか・計算のしやすさが違うので、データの特徴に応じて使い分けます。
四分位数
範囲の弱点を補うのが四分位数という考え方です。データを小さい順に並べて、等しい個数ずつ 4 つに区切る位置にくる値のことです。
データを昇順に並べて 4 等分したとき、(第1四分位数、下位 25% の位置)、(第2四分位数 = 中央値)、(第3四分位数、上位 25% の位置)をまとめて四分位数という。
10 人のテストの点を小さい順に並べると であった。、中央値、 を求めよ。
解 : 中央値は (偶数)なので中央 2 つ 。下半分 の中央値 、上半分 の中央値 。
四分位範囲(IQR)
を四分位範囲(Inter-Quartile Range)という。データの中央 50% がどれくらい広がっているかを表す指標。
IQR は、上下 25% ずつ(つまり端の外れ値)を無視して計算しているため、外れ値に対して頑健です。範囲よりも「そのデータの本来の広がり」を表すのに向いています。
箱ひげ図
五つの値 を図にして、データ全体のばらつきを一目でわかるようにしたものを箱ひげ図といいます。「箱」の部分が から まで、「ひげ」の部分が最小値から ・ から最大値までを表し、「箱」の中の線が中央値を示します。
2 つのクラスの点数を並べて箱ひげ図にすれば、平均はほぼ同じでも「片方は全員が近い点」「もう片方はばらばらの点」が視覚的にはっきりわかる、というのが箱ひげ図の便利さです。
度数分布表とヒストグラム
ここまでは小さなデータを直接扱ってきました。しかし数十、数百ものデータになると、すべての値を眺めるだけでは分布の形が見えてきません。そこで活躍するのが、データを区間ごとに整理する度数分布表と、それを視覚化するヒストグラムです。
度数分布表
データをいくつかの区間(階級)に分け、各階級に属するデータの個数(度数)をまとめた表を度数分布表という。各階級の中央の値を階級値、度数を全体で割った値を相対度数という。
たとえば 50 人のテストの得点を 20 点きざみに分けると、次のような度数分布表が作れます。
ある 50 人のクラスのテスト得点を整理すると次のようになった。
| 階級(点) | 階級値 | 度数 | 相対度数 | |:--|--:|--:|--:| | 0 以上 20 未満 | 10 | 2 | 0.04 | | 20 以上 40 未満 | 30 | 8 | 0.16 | | 40 以上 60 未満 | 50 | 18 | 0.36 | | 60 以上 80 未満 | 70 | 17 | 0.34 | | 80 以上 100 以下 | 90 | 5 | 0.10 | | 計 | | 50 | 1.00 |
この表から「40〜60 点に最もたくさんいる」「80 点以上は少数派」といった情報が一目でわかる。
階級値・相対度数・累積度数
度数分布表まわりで覚えておきたい用語は次の 4 つです。
- 階級値: 各階級の中央の値。例 1.5 では「20 以上 40 未満」の階級値は 。
- 度数: 各階級に含まれるデータの個数。
- 相対度数: 度数 ÷ 全体の度数。各階級の「占める割合」で、合計するとちょうど になる。
- 累積度数 / 累積相対度数: その階級までの度数(または相対度数)の合計。中央値や四分位数の位置を考えるときに便利。
ヒストグラム
度数分布表を、横軸に階級・縦軸に度数(または相対度数)をとって表した棒グラフをヒストグラムという。隣り合う棒の間に隙間を空けず、データが連続していることを表現する。
ヒストグラムを描くと、棒グラフ全体の形からデータの性格が読み取れます。
ヒストグラムが扱うのは「点数」「身長」のような連続的な量で、20 点と 21 点の間にも値が存在しえます。だから棒どうしを密着させて『データが連続的につながっている』ことを示すのです。一方カテゴリ(血液型・性別など)は隣接させる意味がないので、棒グラフでは隙間を空けます。
- 山が一つで左右対称: データがバランスよく分布している(身長や体重などでよく見られる)。
- 右(または左)にすそが長い: 大きい値(または小さい値)に偏った分布。所得データなど。
- 山が二つある: 性質の違う 2 つのグループが混ざっている可能性(例: 男女混合のデータ)。
- 極端に外れた階級: 外れ値の存在。
度数分布表からの代表値
もとのデータが手元になく、度数分布表しかないときでも、代表値はおおよそ計算できます。
- 平均(近似): 。
- 中央値が含まれる階級: 累積相対度数がはじめて を超える階級。
- 最頻値が含まれる階級: 度数が最大の階級(その階級値を最頻値の代用とする)。
例 1.5 の度数分布表からテスト平均を近似的に求めよ。
解 : 。実データから計算した平均と少しズレるが、おおよその目安にはなる。
このように、度数分布表とヒストグラムは「分布の形」と「代表値の概算」の両方を効率よく与えてくれる、データ分析の基本道具です。3 級以降の確率分布の話にも、この「分布の形を見る」感覚が直接つながっていきます。
第 2 章 · 場合の数
樹形図と数え上げの基本
「コインを 2 枚同時に投げたとき、表と裏の出方は何通りあるか?」「3 人の生徒を一列に並べる方法は何通りか?」 ─ こうした「何通りあるか」を考える問題を、場合の数の問題といいます。確率を計算するためには、まずこの「何通りあるか」を正確に数えられないといけません。
樹形図 ─ 全部書き出す
もっとも素朴で間違いの少ない方法が、樹形図(じゅけいず)です。1 つ目の選択肢から順に枝分かれを書いていき、最後の葉の数を数えれば、それがそのまま場合の数になります。
コインを 2 枚同時に投げたときの表裏の出方は何通りあるか、樹形図で考えよ。
解 : 1 枚目を「表 / 裏」の 2 通りに分け、2 枚目を「表 / 裏」の 2 通りに分けると、枝の先(葉)は 4 つ。「表表」「表裏」「裏表」「裏裏」の 4 通り。
樹形図の良いところは、「どの組み合わせが起こるか」を一つずつ見える形にできること。慣れてくると、樹形図を全部書かなくても枝の本数だけ数えれば十分になります。次に紹介する積の法則は、その「枝の数を数える」操作を式にしたものです。
場合の数の問題で迷ったら、まず樹形図を書ける範囲で書くのがコツ。3〜4 段までなら樹形図がいちばん確実で、間違いに気づきやすい。一方で 10 人を並べる(=3,628,800 通り)などは樹形図では絶対に書ききれない ─ そこで公式の出番。「樹形図で構造を理解 → 公式で大量の場合をまとめて処理」が王道の流れです。
積の法則
事象 A の起こり方が 通り、それぞれに対して事象 B の起こり方が 通りあるとき、A と B が組み合わさって起こる場合の数は 通り。
シャツが 3 枚、ズボンが 2 本ある。シャツとズボンを 1 つずつ選ぶ組み合わせは何通りか。
解 : シャツの選び方が 3 通り、それぞれに対してズボンの選び方が 2 通りなので、 通り。
から までの数字を使って、3 桁の数を作る方法は何通りあるか(同じ数字の重複を許す)。ただし、最上位は にしないこととする。
解 : 100 の位は 〜 の 9 通り、10 の位と 1 の位はそれぞれ 〜 の 10 通り。 通り。
和の法則
事象 A と事象 B が同時には起こらないとき、A または B のどちらかが起こる場合の数は 通り。
サイコロを 1 回投げて、 以下または 以上の目が出る場合の数を求めよ。
解 : 「 以下」は の 2 通り、「 以上」は の 2 通り。両方が同時に起こることはない(排反)ので、和の法則より 通り。
「積」と「和」のどちらを使うかは、「A と B が同時に起こるか(積)」「A または B が起こるか(和)」を意識すれば判断できます。慣れない間は、無理に式で考えず樹形図を書いて確かめるのが確実です。
順列と組合せ
前節で「並べる」「選ぶ」場合の数の基本を見ました。実用ではこれらが組み合わさって登場するので、専用の記号 と を導入してまとめて扱います。
順列 ─ 並べる
異なる 個の中から 個を取り出して順番に並べる並べ方の総数を順列といい、 で表す。式は 。
5 人の中から 2 人を選んで一列に並べる方法は何通りか。
解 : 通り。最初の 1 人目の決め方が 5 通り、2 人目はそこから 4 通り、と積の法則で考えても同じ結果になる。
のとき、すなわち「全員を並べる」ときの順列を階乗と呼び、 と書きます。 です。
4 人を一列に並べる並び方は何通りか。
解 : 通り。
組合せ ─ 選ぶ
異なる 個の中から 個を順番を区別せずに選ぶ選び方の総数を組合せといい、 または で表す。式は 。
6 個の異なる果物から 3 個を選ぶ選び方は何通りか。
解 : 通り。
「並べる」と「選ぶ」の違い
順列と組合せの違いは「順番を区別するかどうか」です。たとえば「5 人から 2 人選ぶ」だけなら 通り、「5 人から 2 人選んで班長と副班長を決める」なら 通り。後者は「順番(役割)を区別する」ので、選んだあとに 倍だけ並べ方が増えます。
─ つまり「組合せの数 × = 順列の数」。「選んでから並べる」と覚えるとわかりやすい。
応用例 ─ 男女混合の選び方
男子 3 人、女子 3 人の中から 2 人を選ぶとき、男女 1 人ずつとなる選び方は何通りか。
解 : 男子 3 人から 1 人を選ぶ 通り、女子 3 人から 1 人を選ぶ 通り。積の法則で 通り。
順列と組合せは確率計算の基礎中の基礎です。次の章で確率を扱うとき、「全体の場合の数」「事象の起こる場合の数」を求めるために繰り返し使うことになるので、ここでしっかり手を動かして慣れておきましょう。
第 3 章 · 確率の基本
確率という考え方
前章までで「全部で何通りあるか」を数える練習をしてきました。ここからはいよいよ、その「何通り」をもとに「ある出来事がどれくらい起こりやすいか」を数値で表す ─ 確率の話に入ります。
「同様に確からしい」とは
サイコロを投げると 1〜6 の目のいずれかが出ます。このとき「どの目もまったく同じくらい出やすい」と考える、これが「同様に確からしい(equally likely)」という考え方です。サイコロが歪んでいなければ、各目の出やすさは ずつ。コイン(表と裏で同様に確からしい)、トランプ(52 枚から 1 枚引くとき各カード)など、多くの基本問題はこの考え方をベースにしています。
確率の定義
全事象の各場合が同様に確からしいとき、事象 が起こる確率は
\;P(A) = \dfrac{\text{A が起こる場合の数}}{\text{起こりうる全体の場合の数}}\;
で定義する。
1 個のサイコロを投げて、 以上の目が出る確率を求めよ。
解 : 全体は 通り(1〜6 の目)、 以上は の 通り。。
袋に赤玉 個、白玉 個が入っている。1 個取り出すとき、赤玉である確率を求めよ。
解 : 全体は 個、赤は 個。。
確率の取りうる値
任意の事象 について が成り立つ。 は「絶対に起こらない事象」、 は「必ず起こる事象」を表す。
確率は割合と同じく 以上 以下の数値です。 なら「だいたい 10 回に 3 回は起こる感じ」と直感的に解釈できます。 表示にすれば です。
確率は数学的には簡単でも、人間の感覚は実はかなり弱いことが知られています。たとえば「降水確率 30%」を『3 割は降る』ではなく『傘を持つほどでもない』と感じてしまったり、「10 人に 1 人が当たるくじ」を 9 回外すと「次は当たる気がする」と感じたり ─ どちらも人間の典型的な錯覚です。だからこそ、確率は 数値にして冷静に見る のが大事 ─ これが統計学を学ぶ意義の一つです。
確率は実生活のあらゆる意思決定に使われています。天気予報(降水確率)・機器の故障率(製造業の品質管理)・医療検査の陽性率(陽性的中率)・スパムフィルタ(その単語が含まれた=スパムである確率)─ ぜんぶ「確率による意思決定」です。 や といった数字に冷静に反応できると、実務での判断が精度よくできるようになります。
確率の加法定理
「A または B が起こる確率」は単純に足せばよい場合と、足してから重複を引く必要がある場合があります。
特に と が同時には起こらない(排反事象)とき、 なので
。
から までの整数から つを無作為に選ぶ。「偶数」または「 の倍数」が出る確率を求めよ。
解 : 偶数は で 5 個、 の倍数は で 3 個、両方(つまり の倍数)は で 1 個。。
余事象と独立事象
確率の基本ができたところで、実戦でよく使う 2 つの強力な道具 ─ 余事象と独立事象 ─ を学びます。「少なくとも 1 回は…」のような問題が、これらを使うと驚くほどスッキリ解けるようになります。
余事象 ─ 起こらない方を考える
事象 が「起こらない」事象を の余事象といい、 または と書く。常に が成り立つ。
余事象の威力は「少なくとも 1 回は…」型の問題に現れます。「少なくとも 1 回は起こる」を直接数えるのは大変ですが、その余事象「1 回も起こらない」を数えるのは案外楽、というケースが多いのです。
硬貨を 3 枚同時に投げるとき、少なくとも 1 枚が表になる確率を求めよ。
解 : 直接「1 枚以上表」を数えると(1 枚, 2 枚, 3 枚)で場合分けが必要だが、余事象「3 枚とも裏」は 。よって求める確率は 。
サイコロを 2 回投げて、少なくとも 1 回は の目が出る確率を求めよ。
解 : 余事象「2 回とも 6 以外」の確率は 。求める確率は 。
独立事象 ─ お互い影響しない事象
事象 が起こったかどうかが、事象 の起こりやすさに影響を与えないとき、 と は独立であるという。 と が独立のとき、 が成り立つ。
コインの 1 投目と 2 投目、別々のサイコロの目、別々の人がくじを引く ─ こういった「相手のことを覚えていない」試行はだいたい独立です。確率の問題で「同時に起こる確率」を求めるとき、独立なら「掛け算」と覚えればたいていうまくいきます。
当たりが のくじを 2 回独立に引くとき、2 回とも当たる確率を求めよ。
解 : 独立だから 。
袋に赤玉 個、白玉 個が入っている。続けて 2 個の玉を取り出す(もとに戻さない)。1 個目が赤、2 個目が白である確率を求めよ。
解 : 1 個目が赤の確率は 。1 個目を赤と確定すると、袋には赤 2、白 2 の計 4 個。2 個目が白の確率は 。掛け合わせて 。
注 : この問題では「もとに戻さない」ため、1 個目と 2 個目は独立ではない(1 個目で取った色によって、2 個目の確率が変わる)。それでも「掛け算」が使えるのは、 という条件付き確率の式が成り立つから(3 級で本格的に扱う)。
実戦のコツ
- 「少なくとも〜」を見たら余事象: 直接数えにくいケースほど余事象が効く。
- 「同時に」「両方とも」を見たら掛け算: 独立なら単純な積、独立でないなら条件付き確率まで踏み込む。
- 「どれかが」「またはが」を見たら足し算: ただし重複を引くのを忘れない。
- 確率の合計はいつも 1: という対称性は、検算にも使える。
ここまでで 4 級の主要範囲はおおむね終わりです。データの整理(代表値・ばらつき)、場合の数、そして確率 ─ この 3 つが基礎の柱になります。3 級では、ここから確率変数や確率分布へと一段階進みます。
4級 のおすすめ参考書
当サイトは Amazon.co.jp を宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazon アソシエイト・プログラムの参加者です。