Textbook

入門編教科書

「統計」と聞くと難しそう…と感じる方のための、本サイト独自の入門編です。統計検定 4 級を受ける前段階として、グラフの読み方・割合・平均といった算数レベルの基礎から、ゆっくり統計に慣れていきましょう。本書は **10 章構成**で、グラフ選び・確率・ばらつき・割合・ニュースの読み方・統計リテラシー(印象操作の見破り方)・公的統計・日常生活の統計・学習ロードマップまでを網羅します。小中学生でも、大人の超初心者の方でも、最初の一歩としてご活用いただけます。

10 章
28 節
⏱ 約 39 分
約 19,240 字

X でシェア

第 1 章 · 数とデータに親しむ
数の読み方・表の見方・割合の考え方など、統計を学ぶ前に押さえておきたい算数の基本。
第 2 章 · データの種類とグラフ選び
データには『数値データ』と『カテゴリデータ』があります。それぞれに合うグラフ・要約方法が違います。
- 2.1 データの種類
- 2.2 代表的なグラフと使い分け
第 3 章 · 確率の基礎 ─ サイコロから考える
『確率』を直感的に掴む章。サイコロやコイン投げから、起こりやすさを数字で表す考え方を学びます。
第 4 章 · ばらつきを見る ─ 範囲と標準偏差
平均だけ見ていてもデータは半分しか分かりません。『どれくらい散らばっているか』を表す指標を学びます。
- 4.1 同じ平均でも『散らばり』が違う
- 4.2 標準偏差 ─ 真ん中からのズレ
第 5 章 · 割合とパーセントを読む
ニュースで毎日見る『◯◯%』。意味を取り違えると印象が大きく変わります。割合・百分率・比の正しい読み方を学びます。
第 6 章 · ニュースの統計を読む
天気予報・選挙速報・健康記事 ─ ニュースに溢れる統計を、騙されずに読むための実践的な視点を学びます。
第 7 章 · 騙されない統計リテラシー
ニュース・広告・SNS で出会う統計は、ときに事実を歪めて伝えます。誤読の典型パターンを 3 節で整理し、見破る目を身につけます。
第 8 章 · 公的統計の読み方 ─ ニュースの数字の出どころ
テレビや新聞で見る『失業率』『GDP』『消費者物価』が、実は誰が・どう測っているか。身近な公的統計の読み方を学びます。
第 9 章 · 統計と日常生活 ─ 健康・天気・選挙
統計は実は日常のあちこちに。健康診断・天気予報・選挙速報の裏側を覗きます。
第 10 章 · 次に進むためのロードマップ
入門編の総まとめと、次のステップ(4 級・3 級・データ分析・AI)への学習ロードマップ。

Chapter 1

第 1 章 · 数とデータに親しむ

§1.1

大きな数とデータの読み方

ニュースを見ていると「日本の人口約 1 億 2400 万人」「世界の温室効果ガス排出量 350 億トン」など、大きな数字がたくさん登場します。統計を学ぶ最初の一歩は、こうした大きな数を 正確に読める こと、そして だいたいの大きさを感じられる ことです。

大きな数の単位

千(せん): $1000$
万(まん): $10000$ = $1 0^{4}$
億(おく): $1$ 億 = $1 0^{8}$ = 1 万の 1 万倍
兆(ちょう): $1$ 兆 = $1 0^{12}$ = 1 億の 1 万倍

桁(けた)が大きくなると、たった「ひと桁違う」だけで意味が大きく変わります。「1 億円の予算」と「10 億円の予算」は 10 倍違う、という感覚を持っておくと、ニュースを読み間違えなくなります。

大きな数を『1 人あたり』に直す技

「日本の国家予算 110 兆円」と聞いてもピンと来ないのは普通です。こういうときは『国民 1 人あたり』に直すと一気に身近になります ─ 1.1 億人で割ると、1 人あたりおよそ 90 万円。家族 3 人なら年 270 万円分、政府が代わりに使っている、という見方ができます。大きな数は『割って身近にする』のがコツ。

表からデータを読む

統計でいちばんよく使うデータの形は「表」です。たとえば次のような身長の表を見てみましょう。

例 ─ 身長のデータ

クラス 5 人の身長(cm):

| 名前 | 身長 | |---|--:| | A | 152 | | B | 158 | | C | 160 | | D | 165 | | E | 170 |

この表から「いちばん背が高いのは E」「平均的には 160 cm 前後」「みんなで 5 人」など、いくつもの情報がすぐに読み取れる。

実際の数字に触れる

統計は「実生活の数字」を扱う学問です。学校の人数、住んでいる町の人口、好きなスポーツの順位 ─ 身近にある数字をひとつ、メモにとってみましょう。「統計の素材は、わたしたちの生活そのもの」 ─ ここからすべてが始まります。

§1.2

グラフの読み方

数字をたくさん並べた表は読み取りに時間がかかります。一目で全体の様子がつかめるよう、データを「絵」に変えたのがグラフです。本節では、もっとも基本的な 3 種類のグラフ ─ 棒グラフ・折れ線グラフ・円グラフ ─ の読み方を見ていきます。

棒グラフ ─ 大きさを比べる

棒の高さ(または長さ)で量を表す グラフ。横軸にカテゴリ(クラス・年・国名など)、縦軸に量を取ります。「どこがいちばん多い?」「2 位との差はどれくらい?」が一瞬でわかるのが強み。

読み取るときの注意点: 縦軸の目盛りが 0 から始まっているか を必ず確認します。0 から始まらないグラフは、わずかな差を大きく見せる「見かけのトリック」になっていることがあります。

縦軸の『ゼロ起点』が大事な理由

売上が 100 から 110 に伸びたとき、縦軸を 95〜115 にしたグラフは「2 倍以上に増えた!」ように見え、縦軸を 0〜120 にしたグラフは「ちょっと伸びた」程度に見えます ─ 同じ数字なのに。広告やニュースのグラフではこの『誇張トリック』がよく使われるので、棒グラフを見たらまず縦軸の起点を確認するクセをつけましょう。

実務での使い方:売上ダッシュボード

企業のダッシュボードでは「直近 12 か月の月別売上」「商品カテゴリ別の売上構成」「目標 vs 実績」などが棒グラフで並びます。意思決定者(社長・部長)が一目で『どこが伸びているか / 落ちているか』を判断する道具になっています。Excel・Google Sheets・BI ツール(Tableau、Looker など)はすべて棒グラフを基本機能として備えています。

折れ線グラフ ─ 移り変わりを見る

時間の流れに沿った変化 を見るためのグラフ。横軸に時間(年・月・日など)、縦軸に量を取ります。「上がっているか / 下がっているか」「いつから急に変化したか」を読み取るのに使います。気温・株価・売上の推移などでおなじみ。

『傾き』が示す情報

折れ線グラフのいちばん大事な情報は『傾き』です。右上がりなら増加、右下がりなら減少、急な傾きなら変化が大きい ─ 値そのものよりも、線の形状(ナナメ具合)を見るのが折れ線グラフの読み方の基本。学校の成績や売上のグラフを見るとき、まず『どこで傾きが変わったか』を探す習慣をつけると、変化のきっかけが見えてきます。

円グラフ ─ 割合を比べる

全体に対する割合(シェア) を表すグラフ。円全体が 100% で、各部分(扇形)の角度がそのカテゴリの割合を示します。「どこが多数派?」「いちばん少ない部分は?」を見るのに最適。

ただし、項目が 5 つ以上に増えると見づらくなる、似た大きさの項目を比較しにくい、といった弱点があります。そのときは棒グラフのほうが見やすいことも。

グラフの選び方

カテゴリの大きさ比較 → 棒グラフ
時間の流れに沿った変化 → 折れ線グラフ
全体に占める割合 → 円グラフ(項目少なめ)
割合の時間変化 → 帯グラフを並べる

図: ヒストグラム(連続量・隣接)と棒グラフ(カテゴリ・隙間あり)の違い

グラフは「見せたい情報」に合わせて選ぶもの。「自分が何を伝えたいのか」をまず決めてから グラフを選ぶ、というクセをつけると、情報の伝え方が一段上手になります。

§1.3

平均を体感する

「平均(へいきん)」は、たくさんの数を「ならした」ときの代表値です。学校のテストの平均点、平均身長、平均気温 ─ ニュースでも頻繁に登場する言葉ですが、計算自体はとてもシンプル。本節で、平均との出会いを果たしましょう。

平均の求め方

公式 ─ 平均

平均 = 合計 ÷ 個数

たとえば $50, 60, 70$ の 3 つの数の平均は、 $(50 + 60 + 70) \div 3 = 180 \div 3 = 60$ 。

例題 1.1 ─ テスト点数の平均

5 人のテスト点数が $60, 70, 80, 90, 100$ のとき、平均点を求めよ。

解 : $(60 + 70 + 80 + 90 + 100) \div 5 = 400 \div 5 = 80$ 点。

平均の意味 ─ ならすってどういうこと?

「ならす」とは、「みんな同じ量にしたら 1 人分はいくらか」を考えること。たとえばお菓子を「全部足して人数で分けたら、ひとり何個?」を計算しているのが平均です。

例題 1.2 ─ お菓子のならし

A さんが 8 個、B さんが 4 個、C さんが 6 個のお菓子を持っている。3 人で平等にならすと、ひとりいくつになるか。

解 : 合計 $8 + 4 + 6 = 18$ 個、3 人で割ると $18 \div 3 = 6$ 個。

平均が「ふつう」とは限らない例

平均は便利な数字ですが、「平均的な人」がたくさんいるとは限らない という点には注意です。たとえば、ある会社の社員 5 人の年収が $300, 400, 500, 500, 5000$ 万円だったら、平均は $(300 + 400 + 500 + 500 + 5000) \div 5 = 1340$ 万円。でも「だいたいの社員の年収が 1340 万円」と聞いたら、ほとんどの社員(年収 500 万円台)はびっくりしますね。

こうした「外れ値」がいるときは、4 級で学ぶ 中央値(まんなかの人)のほうが「ふつうの人」を表すのに向いています。「平均は便利だけど万能ではない」と覚えておきましょう。

平均が「ふつう」をズラす理由

数字を 1 列に並べたシーソーをイメージしてみてください。平均は「シーソーがちょうど釣り合う点」です。極端に重い人(=外れ値)が片端にいると、釣り合い点はそちらにグッと引っ張られます。だから平均は「集団の真ん中の人」とは限らないのです。中央値は「並んだ列のど真ん中の人」なので、極端な人がいても動じません。

ニュースで見かける『平均年収』のからくり

「日本の平均年収は◯◯万円」というニュース。これは平均値で、上位の高所得層に引っ張られて実態より高めに出ます。同じ統計の中央値(=並べた列のど真ん中の人の年収)は、平均よりかなり低めです。「平均か中央値か」を見分けるだけで、ニュースの読み方が一段深くなります。

次の章へ

次の章では「データの種類」と「グラフ選びの基本」を学びます。続けて読み進めてみてください。

Chapter 2

第 2 章 · データの種類とグラフ選び

§2.1

データの種類

アンケートやテストで集まる『データ』には、大きく分けて 2 種類あります。種類が違うと、向いているグラフや計算方法も違います。

量的データ(数で測れる)

身長・体重・気温・売上: 大小関係や差・比率に意味がある
連続量: 身長(165.3 cm のように小数も意味がある)
離散量: 個数(りんご 3 個)。整数だけ意味がある

質的データ(カテゴリ)

血液型・好きな色・職業: 大小関係はない、分類のみ
順序あり: 満足度(良い・普通・悪い)など順序だけ意味がある

💡 ポイント

『数字に見えても質的データ』なケースに注意。たとえば学籍番号や郵便番号は数字だが計算に意味がない。『足し算・引き算して意味があるか?』で量的か質的かを見分けるのがコツ。

§2.2

代表的なグラフと使い分け

データの種類によって、見やすいグラフが違います。間違ったグラフは情報を歪めます。

棒グラフ ─ カテゴリ別の比較

血液型別の人数、店舗別の売上など 質的データの量を比較 するときに最適。横軸に意味的な順序がないので、棒の間に隙間を空けて描きます。

ヒストグラム ─ 数値データの分布

身長の分布、テストの点数の分布など 量的データの広がり を見るときに最適。値の範囲を区切った『階級』ごとに度数を棒で表す。棒の間に隙間がない のが棒グラフとの違い。

図: ヒストグラム(隣接)と棒グラフ(隙間)の違い

折れ線グラフ ─ 時間の変化

毎月の売上、毎日の気温など 時間とともに変化する量 に最適。点を線で結ぶことで『増えている / 減っている / 横ばい』が一目で分かる。

円グラフ ─ 全体に占める割合

100% を全体として、各カテゴリの割合 を扇形の面積で表す。カテゴリ数は 5〜6 個までが上限。それ以上だと読みづらく、棒グラフの方が見やすい。

散布図 ─ 2 つの量の関係

身長と体重、気温とアイス売上など、2 つの量の関係 を点で表す。点が右肩上がりなら『正の相関』、右肩下がりなら『負の相関』、バラバラなら『相関なし』。

🛠 ニュースで見るグラフの罠

縦軸の途中を省略した棒グラフ(差を誇張)、3D 円グラフ(手前のカテゴリが大きく見える)、急上昇に見せる折れ線グラフ(縦軸を狭く取る) ─ 故意に印象を操作するグラフがあります。まず軸の目盛りを確認 する習慣をつけると騙されません。

Chapter 3

第 3 章 · 確率の基礎 ─ サイコロから考える

§3.1

確率とは何か

確率は『どれくらい起こりやすいか』を 0〜1 の数字(または 0%〜100%)で表したもの。0 が『絶対起きない』、1 が『絶対起きる』、0.5 が『五分五分』。

サイコロの目が 6 になる確率

サイコロは 1〜6 の 6 通りの目があり、どれも同じくらい出やすい(=同様に確からしい)。だから 6 が出る確率は 1/6 ≒ 0.167 ≒ 16.7%。

確率の基本式

確率 = (注目する場合の数) ÷ (全体の場合の数)

例: トランプ 52 枚から 1 枚引いてハートが出る確率 = 13 / 52 = 1/4

大数の法則 ─ 何回もやると確率に近づく

コインを 1 回投げると表か裏のどちらかしか出ません。でも 何百回・何千回と投げる と、表が出た割合は限りなく 1/2 に近づきます。これが 大数の法則。

💡 1 回 1 回はランダムでも、長い目で見ると確率通り

100 回のコイン投げで表が 47 回・裏が 53 回出ても、1 万回やれば表が約 5,000 回・裏が約 5,000 回に近づく。サンプルが多いほど『真の確率』に近づくのが大数の法則。

§3.2

場合の数と組み合わせ

確率を計算するには、まず 全部で何通りあるか を数える必要があります。

順列 ─ 順番が違えば別

5 人から 3 人を選んで一列に並べる方法は何通り? 1 番目に 5 人、2 番目に残り 4 人、3 番目に残り 3 人 → 5 × 4 × 3 = 60 通り。これを順列と呼びます。

組合せ ─ 順番は無視

5 人から 3 人を選ぶだけ(順番は気にしない)なら、上の 60 通りから順番違いを割って 60 ÷ (3×2×1) = 10 通り。これを 組合せ と呼びます。

実例: くじ引き

10 本のくじに当たりが 3 本。1 本引いて当たる確率 = 3/10 = 30%。これも『当たり 3 通り ÷ 全 10 通り』の式。

🛠 宝くじはなぜ当たらないか

1 等の組合せが約 1,000 万通りなのに対して、買えるのは数枚。確率は 1 / 1,000 万 = 0.00001%。これが『期待値は買った金額より少ない』を意味し、長期的には買い手が損する仕組みです(数学的には公平でない=不利な賭け)。

§3.3

次の章へ

次の章では、データの『ばらつき』に注目します。同じ平均でも、まとまったデータと散らばったデータでは意味が違うのです。

Chapter 4

第 4 章 · ばらつきを見る ─ 範囲と標準偏差

§4.1

同じ平均でも『散らばり』が違う

次の 2 つのテストの点数を比べてみましょう。どちらも平均 60 点ですが、印象がまったく違います。

A クラス: 60, 60, 60, 60, 60(全員 60 点)
B クラス: 20, 40, 60, 80, 100(0〜100 にばらける)

A クラスは『安定して同じ』、B クラスは『差が激しい』。平均は同じなのに、データの性格はまったく違います。だから平均だけでなく『散らばり方』も知る必要があるのです。

範囲(レンジ)─ いちばん簡単な指標

範囲 = 最大値 − 最小値

最大値から最小値を引くだけ。

- A クラス: 60 − 60 = 0(全くばらつきなし) - B クラス: 100 − 20 = 80(大きくばらつく)

長所: 計算が一瞬で終わる短所: 1 人だけ極端な人がいると、全体の印象が歪む(後述の『外れ値』に弱い)

💡 範囲は『川の幅』のイメージ

範囲は『データの両端の幅』。データ全体が川の流れだとすれば、範囲は最も外側の岸辺と岸辺の距離。広い川か狭い川か、ひと目で分かる指標。

§4.2

標準偏差 ─ 真ん中からのズレ

範囲は単純すぎて、1 人の外れ値で大きく動く という弱点があります。そこで使われるのが『標準偏差(ひょうじゅんへんさ)』。「みんなが平均からどれくらいズレているか」を平均的に表します。

考え方の 4 ステップ

全員の点数から平均を引いて『ズレ』を出す(プラス・マイナス両方ある)
ズレを 2 乗 する(マイナスを消すため)
2 乗ズレの平均を取る ← これが『分散(ぶんさん)』
分散の 平方根 を取る ← これが『標準偏差』

なぜ 2 乗するか? 単純にプラスとマイナスを足すと打ち消し合って 0 になってしまうから。2 乗するとどちらも正の値になり、ばらつきが消えません。

実例で計算してみる

B クラス(20, 40, 60, 80, 100、平均 60)の標準偏差:

ズレ: −40, −20, 0, +20, +40
2 乗: 1600, 400, 0, 400, 1600
平均(分散): (1600+400+0+400+1600) / 5 = 800
平方根(標準偏差): √800 ≒ 28.3

A クラスは全員 60 点なのでズレが 0、標準偏差も 0。標準偏差が大きいほど、データはばらついている ということです。

標準偏差で見えるもの

0 に近い: みんな似たような値(均質な集団)
大きい: 差が大きい(多様な集団 or 外れ値あり)
比較に使える: 同じ平均のグループ同士で『どっちが安定してるか』が分かる

💡 偏差値も標準偏差から来ている

テストの『偏差値』は、自分の点数が平均からどれくらいズレているかを 標準偏差で割って 50 を中心に直したもの。偏差値 50 = 真ん中、60 = 上位約 16%、70 = 上位約 2%。標準偏差が分かると、偏差値の意味も自然に理解できます。

🛠 株価のリスク評価にも使う

金融の世界では、株価の『リスク』を 日次リターンの標準偏差 で測ります。標準偏差が大きい銘柄 = 値動きが激しい = ハイリスク・ハイリターン。安定志向の人は標準偏差の小さい銘柄を選ぶ、というのが投資の基本。

Chapter 5

第 5 章 · 割合とパーセントを読む

§5.1

割合・百分率(%)・歩合の関係

割合とは『全体に対する一部の大きさ』を表す数字。表現方法によって名前が変わるだけで、本質は同じです。

小数: $0.3$
百分率(%): $30%$ (× 100 して表記)
分数: $\frac{3}{10}$
歩合: 3 割(野球の打率などで使う)

計算方法

割合の式

割合 = 比べられる量 ÷ もとにする量

例: クラス 40 人中、10 人が女子

割合 = 10 / 40 = 0.25 = 25%

💡 100% を超える?

割合は 0 〜 100% に収まりそうな気がしますが、100% を超えることもあります。『前年比 150%』= 前年の 1.5 倍。『売上が 200% 増加』= 売上が 3 倍に(増加 200% = 元の 100% に 200% を加えるので合計 300%)。「○○%」と「○○%増」は違う という点に注意。

§5.2

%増・%減・%ポイントの違い

ニュースで紛らわしいのが『%増 / %減』と『%ポイント』。意味が違うので使い分けが大切。

%増・%減

もとの値からどれくらい変化したか をもとの値に対する割合で表します。

100 → 120: 20% 増(20 / 100 × 100%)
100 → 80: 20% 減
100 → 200: 100% 増(2 倍)

%ポイント(percentage point)

割合の差そのもの を表します。% を引き算したいときに使う。

支持率: 30% → 40% に変化 → 10% ポイント上昇
(間違いやすい言い方)『支持率が 10% 上昇』だと『30 × 1.1 = 33%』に取れる

💡 「失業率 5% → 7%」は何 % 増?

2 % ポイント増(差が 2)、40 % 増(2 / 5 = 0.4)、両方とも正しい表現。ニュースは普通『2 ポイント増』と書きます。割合の話で『%』『% ポイント』を混同するとミスリーディング になるので、データを発信する側も注意が必要。

§5.3

割合のトリックを見抜く

同じ事実なのに、見せ方で印象が大きく変わる のが割合の怖いところ。よくある『騙しのテクニック』を知っておきましょう。

1. 母数を隠す

「この治療法で 80% が改善!」と言われたら、まず聞くべきは『何人中の 80%?』。10 人中 8 人と 1 万人中 8 千人では信頼度がまったく違う。母数(分母)が小さいと偶然も多い。

2. 都合のよい比較対象を選ぶ

「売上 50% 増!」 ─ 比較対象が 特に売れなかった月 だと、簡単に 50% 増になる。比較対象を意図的に選ぶことで印象操作できる。何と比べているか を確認するのがポイント。

3. 増減のベースが違う

売上が 50% 減 → その後 50% 増 → 元に戻った? 答えは 戻らない。 100 → 50(50% 減)→ 50 × 1.5 = 75 → 元の 75% にしかなりません。マイナスとプラスは対称ではない。

4. シンプソンのパラドクス(発展)

部分ごとの傾向と全体の傾向が逆になる 現象。各学部別では女子の合格率が高いのに、大学全体で見ると男子の方が高い、というような奇妙なケースが起こり得る。これは『応募する学部の偏り』が原因で、3 級・2 級でも頻出します。

🛠 ニュースを読むときのチェックリスト

1. 何を母数にしているか?(分母を確認) 2. 何と比べているか?(比較対象は妥当か) 3. % と % ポイントを混同していないか? 4. 絶対数も併記されているか?(% だけだと規模感が分からない) 5. データの出所は明示されているか?

この 5 つを確認するだけで、ほとんどの誤読を防げます。

Chapter 6

第 6 章 · ニュースの統計を読む

§6.1

相関と因果は違う

ニュース記事で頻繁に見かけるのが『A をした人は B になりやすい』というパターン。でも『だから A をすれば B になる』とは限りません。これが 相関と因果の違い。

正の相関・負の相関・相関なし

正の相関: A が増えると B も増える(身長と体重)
負の相関: A が増えると B が減る(運動時間と肥満度)
相関なし: A と B にバラつきだけある

相関があっても因果とは限らない

古典的な例 ─ アイスと水難事故

アイスの売上が増えると、水難事故も増える。データではきれいに正の相関。

では、アイスを禁止すれば水難事故が減るでしょうか? もちろん 減りません。

真の原因: 気温(夏になる)。気温が上がるとアイスが売れ、海水浴客が増えるから水難事故も増える。アイスと事故は 同じ原因の結果(交絡こうらく)で、お互いが原因ではない。

💡 相関 ≠ 因果のチェックポイント

ニュースで『A の人は B になりやすい』と聞いたら、次の 3 つを疑うべし。

1. 逆向きでは?(B の人が A を選んでいるだけかも) 2. 共通の原因は?(C が両方を引き起こしてるかも) 3. 偶然では?(サンプル数が小さい)

§6.2

天気予報・選挙速報の読み方

毎日触れる 天気予報 や 選挙速報。これらも統計の応用です。読み方を知ると、ニュースが何倍も面白くなります。

降水確率 30% の意味

多くの人が誤解する: 「30% の確率で雨が降る」≠「30% の時間だけ雨」≠「3 割の地域で雨」。 正しい意味: 同じ気象条件が 100 回あったとして、そのうち 30 回は 1 mm 以上の降雨があった という気象庁の統計的予測。

💡 30% は『傘を持っていく目安』としては微妙

「30% って傘いる?」と迷いますよね。気象学的には『10 回中 7 回は降らない』だが、外れたときの被害(濡れる)が大きいなら持っていくべき。確率 + 自分の状況 で判断するのが合理的。

選挙速報の『当確』は何で決まるか

投票直後に『当選確実』と速報が出ますよね。これは 出口調査 という統計的推定の結果。投票所を出る人の 数千人〜数万人にアンケート して、実際の得票率を推定します。

サンプリング: 全有権者ではなく、無作為に選んだ投票所 + 投票直後の人にだけ聞く
信頼区間: 各候補の予想得票率には誤差幅(±2% 程度)がある
当確判定: 誤差を考慮しても 2 位以下を確実に上回る とき発表

🛠 たまに『当確訂正』が出る理由

接戦のとき(僅差で 1 位 / 2 位の入れ替わりがあり得るとき)に発生。各社は誤判定を防ぐため『慎重に当確を出す』ルールを設けますが、それでも 出口調査が偏る(若年層が回答してくれない・特定支持層の投票時間が遅い等)と外れることがある。

§6.3

健康記事・統計記事の読み方

「この食品でガンになりやすい」「◯◯ の人は寿命が短い」── 健康・医療系のニュースは、特に統計の読み方が問われる領域です。

リスクの『相対』と『絶対』

リスクの 2 つの表現

相対リスク: 『○○ をすると、しない人に比べてリスクが 2 倍』

絶対リスク: 『○○ をすると、リスクが 0.001% → 0.002%』

両方同じ事実だが、印象がまったく違う! 報道は驚かせるために『2 倍』と書きがち。絶対の数字を確認 することが大切。

💡 『リスク 2 倍』は怖いか?

もとのリスクが 1% なら、2 倍 = 2%(=ほぼ気にしなくていい)。もとが 30% なら、2 倍 = 60%(これは大事)。もとの大きさで重要度がまったく違う。

サンプルの偏り(セレクションバイアス)

「100 歳まで生きた人の 90% は ○○ を食べていた!」という記事 ─ これだけでは因果は分からない。100 歳まで生きた人(=死亡者を除いた人) という偏ったサンプルから引いた結論なので、若くして亡くなった人がもっと食べていた可能性も否定できない。

p 値・統計的有意性(中級レベル)

学術研究の引用で見かける『p < 0.05 で有意』は、『偶然では起きにくい結果』を意味します。ただし、統計的に有意 = 実用上意味があるとは限りません。サンプルが超大きいとごく僅かな差でも『有意』になります。

情報源の確認

査読付き論文か?(Nature, Lancet など信頼性が高い)
サンプルサイズは?(100 人未満なら過信は禁物)
利益相反は?(食品メーカーが資金提供した『その食品が体にいい』研究は要注意)
メタアナリシス(複数研究の統合)はあるか?(単発の論文より信頼度高い)

🛠 元論文の探し方

ニュース記事に『◯◯ ジャーナルの研究』とあれば、Google Scholar(scholar.google.com)で論文タイトルを検索 → アブストラクトを読む。本格的な健康判断は 元論文 + 医師の意見 で。記事の見出しだけで判断しない習慣を。

次のステップへ

ここまで読んだあなたは、もう ニュースの統計に騙されない読者 です! さらに体系的に学びたい方は、4 級・3 級の教科書へどうぞ。

[4 級教科書](/textbook/grade-4) ─ 中央値・最頻値・範囲などを深掘り
[3 級教科書](/textbook/grade-3) ─ 正規分布・推定・仮説検定の入り口
[因果推論ミニ教科書](/causal-inference) ─ 相関と因果を厳密に
[ブログ: 相関と因果はどう違うか](/blog/causal-inference-introduction)

Chapter 7

第 7 章 · 騙されない統計リテラシー

§7.1

グラフの『印象操作』を見破る

数字そのものは正直でも、グラフの 描き方 で印象は大きく変わります。広告・政治パンフレット・株価ニュースで頻出する、見破るべき 5 パターンを整理します。

縦軸の起点をいじる

棒グラフの縦軸を 0 から始めない と、わずかな差が大きく見える。例: 『1 位 65 点・2 位 64 点』を縦軸 60〜66 にすると、1 位が 2 位の 6 倍くらいに見える。棒グラフは原則として 0 起点で描くのが鉄則。折れ線グラフは差分や変化率を見るため、起点をずらしてもよい場合があります。

目盛りの不均等化

目盛りが等間隔でない、あるいは 対数スケール を黙って使われると、急激な伸びがなだらかに見えたり、その逆も起こります。コロナ感染者数の指数増加を線形目盛で示せば『大したことない』、対数目盛なら『指数的に増加』と印象が変わる ─ どちらも事実だが見方次第。

面積で誇張する

売上 2 倍を表すのに 円・正方形を縦横 2 倍 にすると、面積は 4 倍になり、視覚的には 4 倍の差に見える。インフォグラフィックでよくある手口。1 次元の量(売上)は 1 次元の図形(棒)で示すのが原則。

色の使い方で誤誘導

赤 vs 青(危険 vs 安全)、濃 vs 淡 など、色の社会的意味を使って数字以上の印象を作る。地図で『支持率 60% を真っ赤、40% を真っ青』のように両極端に塗ると『国が真っ二つ』のように見えるが、実際の差は 20pt に過ぎない。

切り取り(チェリーピッキング)

都合のよい期間・地域・属性だけを切り取って見せる。『過去 3 年で売上 2 倍』と謳っても、3 年前が極端な不況だっただけかもしれない。比較の起点・終点をずらすと結論が真逆になることも。常に『他の期間ではどうか』を確認するのが第一歩。

見破る一句:『縦軸ゼロ?』

棒グラフを見たら、まず 縦軸が 0 から始まっているか を確認するクセを付けましょう。これだけで多くのミスリードに対抗できます。テレビの政治情勢・経済ニュースで、縦軸が途中から始まっているのは、ほぼ意図的な強調操作と思って間違いありません。

§7.2

数字の表現で誤誘導される

数字そのものを変えなくても、表現の仕方 で印象は劇的に変わります。同じ事実を別の言い方で示したらどう見えるか、対比で確認します。

相対変化 vs 絶対変化

用語 ─ 相対と絶対

絶対変化(差): $5% \to 6% = + 1$ ポイント

相対変化(率): $5% \to 6%$ は $1/5 = 20%$ の増加

両者は別物。広告は『20% 増加』と煽り、批判は『たった 1pt』と矮小化する ─ 数字は同じでも印象は逆。

リスクの表現:相対リスクと絶対リスク

『この食品で発がんリスクが 2 倍(相対リスク 2)』と聞くと怖い。しかし元々のリスクが 0.001% だったら、2 倍でも 0.002%(絶対リスク差 0.001pt)。相対リスクだけを示して怖がらせる のは健康・環境分野でよくある手口。Number Needed to Treat(NNT) や絶対リスク差を必ず確認しましょう。

平均だけを見ると騙される

『この町の年収は平均 800 万円』 ─ でも 99% は 400 万円で、1% が大富豪なら平均は跳ね上がります。外れ値に引っぱられる平均と、引っぱられない中央値 の使い分けが大事。所得・株価のように偏った分布では 中央値 が代表値として誠実です。

サバイバーシップバイアス

『成功した起業家を 100 人調査したら、彼らは皆熱心だった』 → だから熱心なら成功する? これは 失敗して消えた人 を調査していないだけ。第二次世界大戦中、戻ってきた爆撃機の被弾箇所を補強しようとした研究は、『戻ってきた』 = 被弾しても致命傷でなかった部分だと気づき、戻れなかった機の損傷部位(エンジン等)こそ補強対象だと結論しました。見えていないサンプルを忘れないのが鉄則。

数字を見たら『3 つの問い』

ニュースで数字を見たら、自動的に頭で 3 つ問いましょう。①絶対値はいくらか?(率なら元値は?) ②比較対象は何か? ③見えていない人は誰か? ─ これで多くの誤解が防げます。

§7.3

因果と相関、そしてシンプソンのパラドックス

ここまでの章でも触れてきた『相関 ≠ 因果』。本節では具体例とパラドックスを通じて、より深く感覚をつかみます。

相関は因果ではない ─ 第三因子

『アイス売上と水難事故が相関している』 → アイスを食べると溺れる? 違う。第三因子(交絡因子) は『気温』。暑いと両方が増える。相関を見たらまず『両方を引き起こす別の要因はないか』を疑うのが因果推論の出発点。

シンプソンのパラドックス

用語 ─ シンプソンのパラドックス

集団全体で見ると関係がある一方、部分集団ごとに見ると関係が逆転する 現象。

古典例: 大学院入試の性別差。全体では『男性の合格率 > 女性の合格率』だったが、各学科別に見るとほとんどの学科で『女性の合格率 > 男性』だった(UC Berkeley 1973)。女性が応募していた学科の合格率自体が低かった(難関学科に集中していた)ため、全体集計でズレた。

層別が真実への鍵

シンプソンのパラドックスを避ける鍵は 層別(stratification)。集団を意味のある部分集団に分けて見ると、隠れていた関係が見える。新薬の効果評価でも『全体では効いていない』が『重症度別に見ると有効』ということがありえます。集計の粒度を変えると結論が逆転することを知っておくと、データ分析の警戒心が育ちます。

結びに ─ 統計リテラシーの 3 か条

グラフを見たら『縦軸ゼロ?』『目盛りは等間隔?』を確認
数字を見たら『絶対値は? 比較対象は? 見えていない人は?』を問う
相関を見たら『第三因子は? 層別したら逆転しない?』を考える

これら 3 か条は、統計検定の試験でも、日々のニュースを読むときも、ビジネスの意思決定でも有効です。本書を読み終えた今、騙されない目 を持って、4 級・3 級の世界に進みましょう。次の章数が増えるごとに、統計があなたの 強い味方 になっていくはずです。

[4 級教科書へ](/textbook/grade-4) ─ より体系的な統計の世界
[統計用語集](/glossary) ─ 出会った用語をすぐ確認
[因果推論ミニ教科書](/causal-inference) ─ 相関 vs 因果を深く

Chapter 8

第 8 章 · 公的統計の読み方 ─ ニュースの数字の出どころ

§8.1

国勢調査と労働力調査

ニュースで聞く統計 はほとんど、国(総務省・厚労省・経産省など)が責任をもって作っている 公的統計 です。3 つの代表例 ─ 国勢調査・労働力調査・家計調査 ─ から見てみましょう。

国勢調査(こくせいちょうさ)

用語 ─ 国勢調査

5 年に 1 度、日本に住むすべての人と世帯を対象に行う 全数調査。総務省が実施。日本の人口・世帯・家族構成・住居形態などを正確に把握するための すべての公的統計の土台。

なぜ 5 年に 1 度?

毎年やるとコストが膨大(郵送・調査員派遣・集計で数千億円)。一方、人口や世帯構造はそれほど急には変わらないので、5 年で十分。その間は『推計』で年次値を出す という運用。海外でもおおむね 5〜10 年ごとです。

労働力調査(ろうどうりょくちょうさ)

毎月行われる 抽出調査(全世帯ではなく約 4 万世帯を選ぶ)。失業率・就業者数 を毎月発表する根拠データ。総務省が実施。失業率は『仕事を探していたが見つからなかった人の割合』で、計算には『労働力人口』(働いている人 + 仕事探しの人)を分母とします。

家計調査(かけいちょうさ)

毎月の 約 8000 世帯 から家計簿を提出してもらう調査。何にいくら使ったか が品目別に分かり、消費者物価指数(CPI) や GDP の家計消費 の計算に使われます。総務省が実施。

💡 ニュースの数字には『出どころ』がある

テレビで『先月の失業率は 2.5%』と聞いたら、その出どころは労働力調査。『消費者物価が前年比 +3.0%』なら家計調査と物価調査。いつも『この数字は誰が・どう測ったのか』を考えるクセを付けると、ニュースの読解力が一気に上がります。

§8.2

GDP と物価指数の意味

経済ニュースで頻出の GDP と 物価指数。難しそうに聞こえますが、考え方はシンプルです。

GDP(国内総生産)

用語 ─ GDP

Gross Domestic Product(国内総生産)= 1 年(または 1 四半期)に国内で新しく生み出された価値の合計。家計の消費 + 企業の投資 + 政府の支出 + 純輸出(輸出 − 輸入)で計算する 支出側 GDP が標準的な理解。

名目 GDP と実質 GDP

💡 物価変動を取り除く

名目 GDP: その年の価格で計算した GDP。実質 GDP: 物価変動を取り除き、生産量の真の変化を測る。物価が上がっただけで GDP が増えても『経済が成長した』とは言えないので、ニュースで使うのは実質 GDP の方。両者の比が GDP デフレータ。

消費者物価指数(CPI)

Consumer Price Index は、家計が買う品目の 価格の平均的変化 を表す指数。基準年を 100 として、現在の物価水準が何 % になっているかを示します。インフレ率 = CPI の前年比。日銀の金融政策の判断材料の一つ。

前年同月比とインフレ率

前年同月比 = (今月の値 / 前年同月の値 − 1) × 100
季節要因(冬の暖房費など)を自動的に除去できる
失業率・物価・小売販売額など多くのニュースで使われる
前月比 だと季節差で乱高下するので、季節調整 + 前月比換算する

§8.3

公的統計を実際に使ってみる

公的統計は 誰でも無料で使える のが大きな特徴。e-Stat(政府統計の総合窓口)で API も含め公開されています。

e-Stat ─ 政府統計のポータル

URL: e-stat.go.jp(総務省統計局運営)
全省庁の主要統計 を集約
Excel・CSV で表をダウンロード
API 経由で機械可読 取得も可能(プログラミングと組合せると便利)
地図で可視化する jSTAT MAP も同サイト

国際比較なら OECD・IMF

他国との比較は OECD Data(data.oecd.org)・IMF Data Mapper(imf.org/external/datamapper/)・世界銀行 World Bank Open Data(data.worldbank.org)。日本の数値だけ見ても良し悪しが分からない場面で、これらの 国際統計 が威力を発揮。

💡 統計は『国家のインフラ』

公的統計は 税金で作られている インフラ。誰でも自由に使えますし、政策・経営・研究のすべての基盤になっています。SNS の意見ではなく公的統計に当たる クセが、情報リテラシーの第一歩です。

Chapter 9

第 9 章 · 統計と日常生活 ─ 健康・天気・選挙

§9.1

健康診断と基準値

健康診断結果に並ぶ 『基準値』。これは『健康な人の値の 95% が収まる範囲』として作られているのをご存じでしょうか? 統計の考え方が直接使われています。

基準値の作り方

正規分布で 95% の範囲

健康な数千人を測定し、その分布(多くは正規分布に近い)で 平均 ± 2σ の範囲 を基準値とするのが伝統的な作り方。これは『健康な人の 95% が収まる範囲』を意味します。裏返すと『健康な人の 5% は基準値外』 で、その人たちを過剰検査することになる ─ これが基準値の宿命的限界。

ベイズ的な感度・特異度

ある検査が 感度 99%・特異度 99% で精度が高そうに見えても、対象疾患の 有病率が 1% なら、検査陽性者の中で実際に病気の人は約 50% しかいない(ベイズの定理)。これが 集団検診のジレンマ で、稀な病気の検診では『陽性 = 即病気』ではないことが多いのです。

数字に騙されないために

基準値は『健康な人の 95%』の範囲 ─ 5% は外れる
有病率が低い病気の検査陽性は再検査が標準
血液検査値の推移(前年比較)が単発値より重要
個人差が大きい指標(コレステロール等)は基準値の意味が限定的

§9.2

天気予報 ─ 降水確率の意味

『明日の 降水確率は 60%』 ─ これは何の確率でしょう? 雨が 降る面積の 60% ? 1 日のうち 60% の時間? どちらも違います。

降水確率の正しい解釈

用語 ─ 降水確率

気象庁の定義: その時間帯に 1mm 以上の雨が降る確率を、過去の同じ気象状況での頻度から推定したもの(0%、10%、…、100% の 11 段階で発表)。

例えば『60%』は『こういう気象状況のとき、過去 10 回中 6 回は雨が降った』を意味します。1 mm 未満の小雨は『降った』とはカウントしないので、霧雨は除外されます。

予報の精度

予報精度を測る『信頼性図』

天気予報の精度は、『60% と予報した日のうち、実際に雨だった日の割合が 60% に近いか』で評価されます。これが 較正(calibration) の概念で、機械学習の確率予測の評価でも同じ発想です。気象庁の予報は、長年の機械学習的改善で 信頼性図がほぼ対角線上(よく較正されている)に乗っています。

アンサンブル予報

近年の天気予報は、初期条件をわずかに変えた 多数のシミュレーション(アンサンブル) を実行し、その分布から確率を出します。台風の進路予報の 予想円 がだんだん広がっていくのは、シミュレーション間のばらつきが時間とともに増えるから。アンサンブル法 はモンテカルロ的な手法で、ML や金融でも使われます。

§9.3

選挙速報 ─ なぜ 8 時 0 分に当確が出るか

テレビの選挙速報で『投票終了 8 時 0 分、当選確実!』 ─ 開票がまだ始まってもいないのに、なぜ当確が出せるのでしょう。背景には 出口調査 という統計手法があります。

出口調査(でぐちちょうさ)

用語 ─ 出口調査

投票所を出てきた有権者にアンケート を行う標本調査。各投票所で 100 人前後 × 全国 1000 投票所程度 = 十数万件 の標本になります。各社(NHK・民放・新聞各紙)が独自に実施。

なぜ 8 時 0 分に当確が出せるか

標本誤差を考慮した余裕ある判定

出口調査の標本誤差は概ね ±1〜2pt。だから 得票率の差が誤差を大きく超える候補(例えば 10pt 以上の差) があれば『ほぼ確実に勝った』と統計的に言える ─ これが『当確』の判断基準。差が小さい激戦区では当確発表が 23 時・25 時 とずれ込むのは、標本誤差のせい。

出口調査の限界

期日前投票が増えると精度低下(投票所で出会えない)
回答拒否者 に偏りがあると非標本誤差が混入
接戦では当確判定不可、開票結果待ちに
2016 年米大統領選・2017 年英総選挙など、大事件で予想を外す例も

💡 統計は社会の重要な意思決定を支えている

天気予報・選挙速報・健康診断・経済政策 ─ 私たちの生活の重要な場面で統計が裏方として動いている。それを意識すると、ニュースの数字が単なる飾りでなく、社会の意思決定の根拠として見えてきます。これが統計を学ぶ最大のメリットの一つです。

Chapter 10

第 10 章 · 次に進むためのロードマップ

§10.1

入門編の総振り返り

ここまで 9 章で扱った内容を 5 つのキーワード にまとめると、統計の基礎の地図が見えてきます。

5 つのキーワード

整理する ─ 平均・中央値・標準偏差で データを要約 する
可視化する ─ ヒストグラム・棒グラフ・散布図で 目で見て理解 する
確率で考える ─ サイコロ・コインから 不確実性を数値化 する
読み解く ─ ニュースの統計を『誰が、どう測ったか』で考える
騙されない ─ グラフのトリック・相関と因果の区別を見抜く

💡 統計学は『判断のための言語』

統計学は、世の中の不確かさに対して、データに基づいて冷静に判断する言葉 です。学べば学ぶほど、ニュース・健康診断・職場のデータ・選挙結果のすべてが、別の角度から見えてきます。

§10.2

次のステップ ─ 学習ロードマップ

入門編の次は、目的に応じて選ぶのがおすすめです。すべてを学ぼうとせず、今の興味に合った道 から進みましょう。

ルート A: 統計検定で力試し

4 級(中高生・大人の入門) → 数式に慣れる、確率分布の入口
3 級 → 推定と検定の基礎
2 級 → 大学レベルの推定・検定・回帰分析
準 1 級 → 多変量解析・ベイズ・時系列など応用
1 級 → 数理統計学の理論

ルート B: データ分析の実務

Excel → DS 基礎(統計検定データサイエンス基礎)
Python / R → DS 検定リテラシー、Kaggle で腕試し
SQL → データベースから自分でデータを引く
機械学習 → scikit-learn・XGBoost で予測モデル
深層学習 → PyTorch で画像・自然言語処理

ルート C: AI 系検定

G 検定(JDLA) → AI / ディープラーニングを事業に活かす知識
E 資格(JDLA) → AI エンジニアの認定資格
DS 検定リテラシー(DS 協会) → データサイエンスの基礎

ルート D: 専門領域

統計調査士・専門統計調査士 → 公的統計・調査設計
QC 検定 → 製造業の品質管理
因果推論 → 政策評価・経営判断
時系列分析 → 金融・需要予測

§10.3

学び続けるためのコツ

統計の学習は 長期戦。続けるためのコツを 5 つ。

完璧を求めない ─ 6 割理解で次へ進み、後で戻る
手を動かす ─ Excel・Python・R で実際に計算する
身近なデータで遊ぶ ─ 家計簿・体重・通勤時間など、自分のデータを分析
定期的に復習 ─ 忘却曲線に沿って、間隔反復で長期記憶へ
仲間を作る ─ X(旧 Twitter)・Qiita・Kaggle で他の学習者とつながる

本サイトの活用法

[ロードマップ](/roadmap) ─ AI エンジニアまでの全体像
[級診断](/diagnose) ─ どの級から始めるか 3 問でわかる
[統計用語集](/glossary) ─ わからない言葉をすぐ確認(検索可)
[統計図解集](/figures) ─ 概念を SVG で見直す
[統計計算ツール](/tools) ─ ブラウザで信頼区間・p 値計算
[演習問題](/quiz) ─ 級別の練習問題で力試し
[ブックマーク機能](/bookmarks) ─ 大事な問題・公式・記事を保存

💡 ようこそ統計の世界へ

ここまで読み進めてくださった方は、もう 統計に親しんだ仲間 です。これから学ぶごとに、世界の見え方が少しずつ変わっていく感覚を、ぜひ楽しんでください。本サイトは無料で、いつでも戻ってこれる場所 として用意されています。学習の旅、応援しています!

目次

大きな数の単位

表からデータを読む

実際の数字に触れる

棒グラフ ─ 大きさを比べる

折れ線グラフ ─ 移り変わりを見る

円グラフ ─ 割合を比べる

グラフの選び方

平均の求め方

平均の意味 ─ ならすってどういうこと?

平均が「ふつう」とは限らない例

次の章へ

量的データ(数で測れる)

質的データ(カテゴリ)

棒グラフ ─ カテゴリ別の比較

ヒストグラム ─ 数値データの分布

折れ線グラフ ─ 時間の変化

円グラフ ─ 全体に占める割合

散布図 ─ 2 つの量の関係

サイコロの目が 6 になる確率

大数の法則 ─ 何回もやると確率に近づく

順列 ─ 順番が違えば別

組合せ ─ 順番は無視

実例: くじ引き

範囲(レンジ)─ いちばん簡単な指標

考え方の 4 ステップ

実例で計算してみる

標準偏差で見えるもの

計算方法

%増・%減

%ポイント(percentage point)

1. 母数を隠す

2. 都合のよい比較対象を選ぶ

3. 増減のベースが違う

4. シンプソンのパラドクス(発展)

正の相関・負の相関・相関なし

相関があっても因果とは限らない

降水確率 30% の意味

選挙速報の『当確』は何で決まるか

リスクの『相対』と『絶対』

サンプルの偏り(セレクションバイアス)

p 値・統計的有意性(中級レベル)

情報源の確認

次のステップへ

縦軸の起点をいじる

目盛りの不均等化

面積で誇張する

色の使い方で誤誘導

切り取り(チェリーピッキング)

相対変化 vs 絶対変化

リスクの表現:相対リスクと絶対リスク

平均だけを見ると騙される

サバイバーシップバイアス

相関は因果ではない ─ 第三因子

シンプソンのパラドックス

結びに ─ 統計リテラシーの 3 か条

国勢調査(こくせいちょうさ)

労働力調査(ろうどうりょくちょうさ)

家計調査(かけいちょうさ)

GDP(国内総生産)

名目 GDP と実質 GDP

消費者物価指数(CPI)

前年同月比とインフレ率

e-Stat ─ 政府統計のポータル

国際比較なら OECD・IMF

基準値の作り方

ベイズ的な感度・特異度

数字に騙されないために

降水確率の正しい解釈

予報の精度

アンサンブル予報

出口調査(でぐちちょうさ)

なぜ 8 時 0 分に当確が出せるか

出口調査の限界

5 つのキーワード

ルート A: 統計検定で力試し

ルート B: データ分析の実務

ルート C: AI 系検定

ルート D: 専門領域

本サイトの活用法