入門編 教科書
「統計」と聞くと難しそう…と感じる方のための、本サイト独自の入門編です。統計検定 4 級を受ける前段階として、グラフの読み方・割合・平均といった算数レベルの基礎から、ゆっくり統計に慣れていきましょう。本書は **10 章構成**で、グラフ選び・確率・ばらつき・割合・ニュースの読み方・統計リテラシー(印象操作の見破り方)・公的統計・日常生活の統計・学習ロードマップまでを網羅します。小中学生でも、大人の超初心者の方でも、最初の一歩としてご活用いただけます。
- 10 章
- 28 節
- ⏱ 約 39 分
- 約 19,240 字
目次
- 第 1 章 · 数とデータに親しむ数の読み方・表の見方・割合の考え方など、統計を学ぶ前に押さえておきたい算数の基本。
- 第 2 章 · データの種類とグラフ選びデータには『数値データ』と『カテゴリデータ』があります。それぞれに合うグラフ・要約方法が違います。
- 第 3 章 · 確率の基礎 ─ サイコロから考える『確率』を直感的に掴む章。サイコロやコイン投げから、起こりやすさを数字で表す考え方を学びます。
- 第 4 章 · ばらつきを見る ─ 範囲と標準偏差平均だけ見ていてもデータは半分しか分かりません。『どれくらい散らばっているか』を表す指標を学びます。
- 第 5 章 · 割合とパーセントを読むニュースで毎日見る『◯◯%』。意味を取り違えると印象が大きく変わります。割合・百分率・比の正しい読み方を学びます。
- 第 6 章 · ニュースの統計を読む天気予報・選挙速報・健康記事 ─ ニュースに溢れる統計を、騙されずに読むための実践的な視点を学びます。
- 第 7 章 · 騙されない統計リテラシーニュース・広告・SNS で出会う統計は、ときに事実を歪めて伝えます。誤読の典型パターンを 3 節で整理し、見破る目を身につけます。
- 第 8 章 · 公的統計の読み方 ─ ニュースの数字の出どころテレビや新聞で見る『失業率』『GDP』『消費者物価』が、実は誰が・どう測っているか。身近な公的統計の読み方を学びます。
- 第 9 章 · 統計と日常生活 ─ 健康・天気・選挙統計は実は日常のあちこちに。健康診断・天気予報・選挙速報の裏側を覗きます。
- 第 10 章 · 次に進むためのロードマップ入門編の総まとめと、次のステップ(4 級・3 級・データ分析・AI)への学習ロードマップ。
第 1 章 · 数とデータに親しむ
大きな数とデータの読み方
ニュースを見ていると「日本の人口 約 1 億 2400 万人」「世界の温室効果ガス排出量 350 億トン」など、大きな数字がたくさん登場します。統計を学ぶ最初の一歩は、こうした大きな数を 正確に読める こと、そして だいたいの大きさを感じられる ことです。
大きな数の単位
- 千(せん):
- 万(まん): =
- 億(おく): 億 = = 1 万の 1 万倍
- 兆(ちょう): 兆 = = 1 億の 1 万倍
桁(けた)が大きくなると、たった「ひと桁違う」だけで意味が大きく変わります。「1 億円の予算」と「10 億円の予算」は 10 倍違う、という感覚を持っておくと、ニュースを読み間違えなくなります。
「日本の国家予算 110 兆円」と聞いてもピンと来ないのは普通です。こういうときは『国民 1 人あたり』に直すと一気に身近になります ─ 1.1 億人で割ると、1 人あたりおよそ 90 万円。家族 3 人なら年 270 万円分、政府が代わりに使っている、という見方ができます。大きな数は『割って身近にする』のがコツ。
表からデータを読む
統計でいちばんよく使うデータの形は「表」です。たとえば次のような身長の表を見てみましょう。
クラス 5 人の身長(cm):
| 名前 | 身長 | |---|--:| | A | 152 | | B | 158 | | C | 160 | | D | 165 | | E | 170 |
この表から「いちばん背が高いのは E」「平均的には 160 cm 前後」「みんなで 5 人」など、いくつもの情報がすぐに読み取れる。
実際の数字に触れる
統計は「実生活の数字」を扱う学問です。学校の人数、住んでいる町の人口、好きなスポーツの順位 ─ 身近にある数字をひとつ、メモにとってみましょう。「統計の素材は、わたしたちの生活そのもの」 ─ ここからすべてが始まります。
グラフの読み方
数字をたくさん並べた表は読み取りに時間がかかります。一目で全体の様子がつかめるよう、データを「絵」に変えたのがグラフです。本節では、もっとも基本的な 3 種類のグラフ ─ 棒グラフ・折れ線グラフ・円グラフ ─ の読み方を見ていきます。
棒グラフ ─ 大きさを比べる
棒の高さ(または長さ)で量を表す グラフ。横軸にカテゴリ(クラス・年・国名など)、縦軸に量を取ります。「どこがいちばん多い?」「2 位との差はどれくらい?」が一瞬でわかるのが強み。
読み取るときの注意点: 縦軸の目盛りが 0 から始まっているか を必ず確認します。0 から始まらないグラフは、わずかな差を大きく見せる「見かけのトリック」になっていることがあります。
売上が 100 から 110 に伸びたとき、縦軸を 95〜115 にしたグラフは「2 倍以上に増えた!」ように見え、縦軸を 0〜120 にしたグラフは「ちょっと伸びた」程度に見えます ─ 同じ数字なのに。広告やニュースのグラフではこの『誇張トリック』がよく使われるので、棒グラフを見たらまず縦軸の起点を確認するクセをつけましょう。
企業のダッシュボードでは「直近 12 か月の月別売上」「商品カテゴリ別の売上構成」「目標 vs 実績」などが棒グラフで並びます。意思決定者(社長・部長)が一目で『どこが伸びているか / 落ちているか』を判断する道具になっています。Excel・Google Sheets・BI ツール(Tableau、Looker など)はすべて棒グラフを基本機能として備えています。
折れ線グラフ ─ 移り変わりを見る
時間の流れに沿った変化 を見るためのグラフ。横軸に時間(年・月・日など)、縦軸に量を取ります。「上がっているか / 下がっているか」「いつから急に変化したか」を読み取るのに使います。気温・株価・売上の推移などでおなじみ。
折れ線グラフのいちばん大事な情報は『傾き』です。右上がりなら増加、右下がりなら減少、急な傾きなら変化が大きい ─ 値そのものよりも、線の形状(ナナメ具合)を見るのが折れ線グラフの読み方の基本。学校の成績や売上のグラフを見るとき、まず『どこで傾きが変わったか』を探す習慣をつけると、変化のきっかけが見えてきます。
円グラフ ─ 割合を比べる
全体に対する割合(シェア) を表すグラフ。円全体が 100% で、各部分(扇形)の角度がそのカテゴリの割合を示します。「どこが多数派?」「いちばん少ない部分は?」を見るのに最適。
ただし、項目が 5 つ以上に増えると見づらくなる、似た大きさの項目を比較しにくい、といった弱点があります。そのときは棒グラフのほうが見やすいことも。
グラフの選び方
- カテゴリの大きさ比較 → 棒グラフ
- 時間の流れに沿った変化 → 折れ線グラフ
- 全体に占める割合 → 円グラフ(項目少なめ)
- 割合の時間変化 → 帯グラフを並べる
グラフは「見せたい情報」に合わせて選ぶもの。「自分が何を伝えたいのか」をまず決めてから グラフを選ぶ、というクセをつけると、情報の伝え方が一段上手になります。
平均を体感する
「平均(へいきん)」は、たくさんの数を「ならした」ときの代表値です。学校のテストの平均点、平均身長、平均気温 ─ ニュースでも頻繁に登場する言葉ですが、計算自体はとてもシンプル。本節で、平均との出会いを果たしましょう。
平均の求め方
平均 = 合計 ÷ 個数
たとえば の 3 つの数の平均は、。
5 人のテスト点数が のとき、平均点を求めよ。
解 : 点。
平均の意味 ─ ならすってどういうこと?
「ならす」とは、「みんな同じ量にしたら 1 人分はいくらか」を考えること。たとえばお菓子を「全部足して人数で分けたら、ひとり何個?」を計算しているのが平均です。
A さんが 8 個、B さんが 4 個、C さんが 6 個のお菓子を持っている。3 人で平等にならすと、ひとりいくつになるか。
解 : 合計 個、3 人で割ると 個。
平均が「ふつう」とは限らない例
平均は便利な数字ですが、「平均的な人」がたくさんいるとは限らない という点には注意です。たとえば、ある会社の社員 5 人の年収が 万円だったら、平均は 万円。でも「だいたいの社員の年収が 1340 万円」と聞いたら、ほとんどの社員(年収 500 万円台)はびっくりしますね。
こうした「外れ値」がいるときは、4 級で学ぶ 中央値(まんなかの人)のほうが「ふつうの人」を表すのに向いています。「平均は便利だけど万能ではない」と覚えておきましょう。
数字を 1 列に並べたシーソーをイメージしてみてください。平均は「シーソーがちょうど釣り合う点」です。極端に重い人(=外れ値)が片端にいると、釣り合い点はそちらにグッと引っ張られます。だから平均は「集団の真ん中の人」とは限らないのです。中央値は「並んだ列のど真ん中の人」なので、極端な人がいても動じません。
「日本の平均年収は◯◯万円」というニュース。これは平均値で、上位の高所得層に引っ張られて実態より高めに出ます。同じ統計の中央値(=並べた列のど真ん中の人の年収)は、平均よりかなり低めです。「平均か中央値か」を見分けるだけで、ニュースの読み方が一段深くなります。
次の章へ
次の章では「データの種類」と「グラフ選びの基本」を学びます。続けて読み進めてみてください。
第 2 章 · データの種類とグラフ選び
データの種類
アンケートやテストで集まる『データ』には、大きく分けて 2 種類あります。種類が違うと、向いているグラフや計算方法も違います。
量的データ(数で測れる)
- 身長・体重・気温・売上: 大小関係や差・比率に意味がある
- 連続量: 身長(165.3 cm のように小数も意味がある)
- 離散量: 個数(りんご 3 個)。整数だけ意味がある
質的データ(カテゴリ)
- 血液型・好きな色・職業: 大小関係はない、分類のみ
- 順序あり: 満足度(良い・普通・悪い)など順序だけ意味がある
『数字に見えても質的データ』なケースに注意。たとえば学籍番号や郵便番号は数字だが計算に意味がない。『足し算・引き算して意味があるか?』で量的か質的かを見分けるのがコツ。
代表的なグラフと使い分け
データの種類によって、見やすいグラフが違います。間違ったグラフは情報を歪めます。
棒グラフ ─ カテゴリ別の比較
血液型別の人数、店舗別の売上など 質的データの量を比較 するときに最適。横軸に意味的な順序がないので、棒の間に隙間を空けて描きます。
ヒストグラム ─ 数値データの分布
身長の分布、テストの点数の分布など 量的データの広がり を見るときに最適。値の範囲を区切った『階級』ごとに度数を棒で表す。棒の間に隙間がない のが棒グラフとの違い。
折れ線グラフ ─ 時間の変化
毎月の売上、毎日の気温など 時間とともに変化する量 に最適。点を線で結ぶことで『増えている / 減っている / 横ばい』が一目で分かる。
円グラフ ─ 全体に占める割合
100% を全体として、各カテゴリの割合 を扇形の面積で表す。カテゴリ数は 5〜6 個までが上限。それ以上だと読みづらく、棒グラフの方が見やすい。
散布図 ─ 2 つの量の関係
身長と体重、気温とアイス売上など、2 つの量の関係 を点で表す。点が右肩上がりなら『正の相関』、右肩下がりなら『負の相関』、バラバラなら『相関なし』。
縦軸の途中を省略した棒グラフ(差を誇張)、3D 円グラフ(手前のカテゴリが大きく見える)、急上昇に見せる折れ線グラフ(縦軸を狭く取る) ─ 故意に印象を操作するグラフがあります。まず軸の目盛りを確認 する習慣をつけると騙されません。
第 3 章 · 確率の基礎 ─ サイコロから考える
確率とは何か
確率 は『どれくらい起こりやすいか』を 0〜1 の数字(または 0%〜100%)で表したもの。0 が『絶対起きない』、1 が『絶対起きる』、0.5 が『五分五分』。
サイコロの目が 6 になる確率
サイコロは 1〜6 の 6 通りの目があり、どれも同じくらい出やすい(=同様に確からしい)。だから 6 が出る確率は 1/6 ≒ 0.167 ≒ 16.7%。
確率 = (注目する場合の数) ÷ (全体の場合の数)
例: トランプ 52 枚から 1 枚引いてハートが出る確率 = 13 / 52 = 1/4
大数の法則 ─ 何回もやると確率に近づく
コインを 1 回投げると表か裏のどちらかしか出ません。でも 何百回・何千回と投げる と、表が出た割合は限りなく 1/2 に近づきます。これが 大数の法則。
100 回のコイン投げで表が 47 回・裏が 53 回出ても、1 万回やれば表が約 5,000 回・裏が約 5,000 回に近づく。サンプルが多いほど『真の確率』に近づくのが大数の法則。
場合の数と組み合わせ
確率を計算するには、まず 全部で何通りあるか を数える必要があります。
順列 ─ 順番が違えば別
5 人から 3 人を選んで一列に並べる方法は何通り? 1 番目に 5 人、2 番目に残り 4 人、3 番目に残り 3 人 → 5 × 4 × 3 = 60 通り。これを 順列 と呼びます。
組合せ ─ 順番は無視
5 人から 3 人を選ぶだけ(順番は気にしない)なら、上の 60 通りから順番違いを割って 60 ÷ (3×2×1) = 10 通り。これを 組合せ と呼びます。
実例: くじ引き
10 本のくじに当たりが 3 本。1 本引いて当たる確率 = 3/10 = 30%。これも『当たり 3 通り ÷ 全 10 通り』の式。
1 等の組合せが約 1,000 万通りなのに対して、買えるのは数枚。確率は 1 / 1,000 万 = 0.00001%。これが『期待値は買った金額より少ない』を意味し、長期的には買い手が損する仕組みです(数学的には公平でない=不利な賭け)。
次の章へ
次の章では、データの『ばらつき』に注目します。同じ平均でも、まとまったデータと散らばったデータでは意味が違うのです。
第 4 章 · ばらつきを見る ─ 範囲と標準偏差
同じ平均でも『散らばり』が違う
次の 2 つのテストの点数を比べてみましょう。どちらも平均 60 点ですが、印象がまったく違います。
- A クラス: 60, 60, 60, 60, 60(全員 60 点)
- B クラス: 20, 40, 60, 80, 100(0〜100 にばらける)
A クラスは『安定して同じ』、B クラスは『差が激しい』。平均は同じなのに、データの性格はまったく違います。だから平均だけでなく『散らばり方』も知る必要があるのです。
範囲(レンジ)─ いちばん簡単な指標
最大値から最小値を引くだけ。
- A クラス: 60 − 60 = 0(全くばらつきなし) - B クラス: 100 − 20 = 80(大きくばらつく)
長所: 計算が一瞬で終わる 短所: 1 人だけ極端な人がいると、全体の印象が歪む(後述の『外れ値』に弱い)
範囲は『データの両端の幅』。データ全体が川の流れだとすれば、範囲は最も外側の岸辺と岸辺の距離。広い川か狭い川か、ひと目で分かる指標。
標準偏差 ─ 真ん中からのズレ
範囲は単純すぎて、1 人の外れ値で大きく動く という弱点があります。そこで使われるのが『標準偏差(ひょうじゅんへんさ)』。「みんなが平均からどれくらいズレているか」を平均的に表します。
考え方の 4 ステップ
- 全員の点数から 平均 を引いて『ズレ』を出す(プラス・マイナス両方ある)
- ズレを 2 乗 する(マイナスを消すため)
- 2 乗ズレの 平均 を取る ← これが『分散(ぶんさん)』
- 分散の 平方根 を取る ← これが『標準偏差』
なぜ 2 乗するか? 単純にプラスとマイナスを足すと打ち消し合って 0 になってしまうから。2 乗するとどちらも正の値になり、ばらつきが消えません。
実例で計算してみる
B クラス(20, 40, 60, 80, 100、平均 60)の標準偏差:
- ズレ: −40, −20, 0, +20, +40
- 2 乗: 1600, 400, 0, 400, 1600
- 平均(分散): (1600+400+0+400+1600) / 5 = 800
- 平方根(標準偏差): √800 ≒ 28.3
A クラスは全員 60 点なのでズレが 0、標準偏差も 0。標準偏差が大きいほど、データはばらついている ということです。
標準偏差で見えるもの
- 0 に近い: みんな似たような値(均質な集団)
- 大きい: 差が大きい(多様な集団 or 外れ値あり)
- 比較に使える: 同じ平均のグループ同士で『どっちが安定してるか』が分かる
テストの『偏差値』は、自分の点数が平均からどれくらいズレているかを 標準偏差で割って 50 を中心に直したもの。偏差値 50 = 真ん中、60 = 上位約 16%、70 = 上位約 2%。標準偏差が分かると、偏差値の意味も自然に理解できます。
金融の世界では、株価の『リスク』を 日次リターンの標準偏差 で測ります。標準偏差が大きい銘柄 = 値動きが激しい = ハイリスク・ハイリターン。安定志向の人は標準偏差の小さい銘柄を選ぶ、というのが投資の基本。
第 5 章 · 割合とパーセントを読む
割合・百分率(%)・歩合の関係
割合 とは『全体に対する一部の大きさ』を表す数字。表現方法によって名前が変わるだけで、本質は同じです。
- 小数:
- 百分率(%): (× 100 して表記)
- 分数:
- 歩合: 3 割(野球の打率などで使う)
計算方法
割合 = 比べられる量 ÷ もとにする量
例: クラス 40 人中、10 人が女子
割合 = 10 / 40 = 0.25 = 25%
割合は 0 〜 100% に収まりそうな気がしますが、100% を超えることもあります。『前年比 150%』= 前年の 1.5 倍。『売上が 200% 増加』= 売上が 3 倍に(増加 200% = 元の 100% に 200% を加えるので合計 300%)。「○○%」と「○○%増」は違う という点に注意。
%増・%減・%ポイントの違い
ニュースで紛らわしいのが『%増 / %減』と『%ポイント』。意味が違うので使い分けが大切。
%増・%減
もとの値からどれくらい変化したか をもとの値に対する割合で表します。
- 100 → 120: 20% 増(20 / 100 × 100%)
- 100 → 80: 20% 減
- 100 → 200: 100% 増(2 倍)
%ポイント(percentage point)
割合の差そのもの を表します。% を引き算したいときに使う。
- 支持率: 30% → 40% に変化 → 10% ポイント上昇
- (間違いやすい言い方)『支持率が 10% 上昇』だと『30 × 1.1 = 33%』に取れる
2 % ポイント増(差が 2)、40 % 増(2 / 5 = 0.4)、両方とも正しい表現。ニュースは普通『2 ポイント増』と書きます。割合の話で『%』『% ポイント』を混同するとミスリーディング になるので、データを発信する側も注意が必要。
割合のトリックを見抜く
同じ事実なのに、見せ方で印象が大きく変わる のが割合の怖いところ。よくある『騙しのテクニック』を知っておきましょう。
1. 母数を隠す
「この治療法で 80% が改善!」と言われたら、まず聞くべきは『何人中の 80%?』。10 人中 8 人と 1 万人中 8 千人では信頼度がまったく違う。母数(分母)が小さいと偶然も多い。
2. 都合のよい比較対象を選ぶ
「売上 50% 増!」 ─ 比較対象が 特に売れなかった月 だと、簡単に 50% 増になる。比較対象を意図的に選ぶことで印象操作できる。何と比べているか を確認するのがポイント。
3. 増減のベースが違う
売上が 50% 減 → その後 50% 増 → 元に戻った? 答えは 戻らない。 100 → 50(50% 減)→ 50 × 1.5 = 75 → 元の 75% にしかなりません。マイナスとプラスは対称ではない。
4. シンプソンのパラドクス(発展)
部分ごとの傾向と全体の傾向が逆になる 現象。各学部別では女子の合格率が高いのに、大学全体で見ると男子の方が高い、というような奇妙なケースが起こり得る。これは『応募する学部の偏り』が原因で、3 級・2 級でも頻出します。
1. 何を母数にしているか?(分母を確認) 2. 何と比べているか?(比較対象は妥当か) 3. % と % ポイントを混同していないか? 4. 絶対数も併記されているか?(% だけだと規模感が分からない) 5. データの出所は明示されているか?
この 5 つを確認するだけで、ほとんどの誤読を防げます。
第 6 章 · ニュースの統計を読む
相関と因果は違う
ニュース記事で頻繁に見かけるのが『A をした人は B になりやすい』というパターン。でも『だから A をすれば B になる』とは限りません。これが 相関と因果の違い。
正の相関・負の相関・相関なし
- 正の相関: A が増えると B も増える(身長と体重)
- 負の相関: A が増えると B が減る(運動時間と肥満度)
- 相関なし: A と B にバラつきだけある
相関があっても因果とは限らない
アイスの売上が増えると、水難事故も増える。データではきれいに正の相関。
では、アイスを禁止すれば水難事故が減るでしょうか? もちろん 減りません。
真の原因: 気温(夏になる)。気温が上がるとアイスが売れ、海水浴客が増えるから水難事故も増える。アイスと事故は 同じ原因の結果(交絡 こうらく)で、お互いが原因ではない。
ニュースで『A の人は B になりやすい』と聞いたら、次の 3 つを疑うべし。
1. 逆向きでは?(B の人が A を選んでいるだけかも) 2. 共通の原因は?(C が両方を引き起こしてるかも) 3. 偶然では?(サンプル数が小さい)
天気予報・選挙速報の読み方
毎日触れる 天気予報 や 選挙速報。これらも統計の応用です。読み方を知ると、ニュースが何倍も面白くなります。
降水確率 30% の意味
多くの人が誤解する: 「30% の確率で雨が降る」≠「30% の時間だけ雨」≠「3 割の地域で雨」。 正しい意味: 同じ気象条件が 100 回あったとして、そのうち 30 回は 1 mm 以上の降雨があった という気象庁の統計的予測。
「30% って傘いる?」と迷いますよね。気象学的には『10 回中 7 回は降らない』だが、外れたときの被害(濡れる)が大きいなら持っていくべき。確率 + 自分の状況 で判断するのが合理的。
選挙速報の『当確』は何で決まるか
投票直後に『当選確実』と速報が出ますよね。これは 出口調査 という統計的推定の結果。投票所を出る人の 数千人 〜 数万人にアンケート して、実際の得票率を推定します。
- サンプリング: 全有権者ではなく、無作為に選んだ投票所 + 投票直後の人にだけ聞く
- 信頼区間: 各候補の予想得票率には誤差幅(±2% 程度)がある
- 当確判定: 誤差を考慮しても 2 位以下を確実に上回る とき発表
接戦のとき(僅差で 1 位 / 2 位の入れ替わりがあり得るとき)に発生。各社は誤判定を防ぐため『慎重に当確を出す』ルールを設けますが、それでも 出口調査が偏る(若年層が回答してくれない・特定支持層の投票時間が遅い等)と外れることがある。
健康記事・統計記事の読み方
「この食品でガンになりやすい」「◯◯ の人は寿命が短い」── 健康・医療系のニュースは、特に統計の読み方が問われる領域です。
リスクの『相対』と『絶対』
相対リスク: 『○○ をすると、しない人に比べてリスクが 2 倍』
絶対リスク: 『○○ をすると、リスクが 0.001% → 0.002%』
両方同じ事実だが、印象がまったく違う! 報道は驚かせるために『2 倍』と書きがち。絶対の数字を確認 することが大切。
もとのリスクが 1% なら、2 倍 = 2%(=ほぼ気にしなくていい)。もとが 30% なら、2 倍 = 60%(これは大事)。もとの大きさで重要度がまったく違う。
サンプルの偏り(セレクションバイアス)
「100 歳まで生きた人の 90% は ○○ を食べていた!」という記事 ─ これだけでは因果は分からない。100 歳まで生きた人(=死亡者を除いた人) という偏ったサンプルから引いた結論なので、若くして亡くなった人がもっと食べていた可能性も否定できない。
p 値・統計的有意性(中級レベル)
学術研究の引用で見かける『p < 0.05 で有意』は、『偶然では起きにくい結果』を意味します。ただし、統計的に有意 = 実用上意味がある とは限りません。サンプルが超大きいとごく僅かな差でも『有意』になります。
情報源の確認
- 査読付き論文か?(Nature, Lancet など信頼性が高い)
- サンプルサイズは?(100 人未満なら過信は禁物)
- 利益相反は?(食品メーカーが資金提供した『その食品が体にいい』研究は要注意)
- メタアナリシス(複数研究の統合)はあるか?(単発の論文より信頼度高い)
ニュース記事に『◯◯ ジャーナルの研究』とあれば、Google Scholar(scholar.google.com)で論文タイトルを検索 → アブストラクトを読む。本格的な健康判断は 元論文 + 医師の意見 で。記事の見出しだけで判断しない習慣を。
次のステップへ
ここまで読んだあなたは、もう ニュースの統計に騙されない読者 です! さらに体系的に学びたい方は、4 級・3 級の教科書へどうぞ。
- [4 級 教科書](/textbook/grade-4) ─ 中央値・最頻値・範囲などを深掘り
- [3 級 教科書](/textbook/grade-3) ─ 正規分布・推定・仮説検定の入り口
- [因果推論ミニ教科書](/causal-inference) ─ 相関と因果を厳密に
- [ブログ: 相関と因果はどう違うか](/blog/causal-inference-introduction)
第 7 章 · 騙されない統計リテラシー
グラフの『印象操作』を見破る
数字そのものは正直でも、グラフの 描き方 で印象は大きく変わります。広告・政治パンフレット・株価ニュースで頻出する、見破るべき 5 パターンを整理します。
縦軸の起点をいじる
棒グラフの縦軸を 0 から始めない と、わずかな差が大きく見える。例: 『1 位 65 点・2 位 64 点』を縦軸 60〜66 にすると、1 位が 2 位の 6 倍くらいに見える。棒グラフは原則として 0 起点で描くのが鉄則。折れ線グラフは差分や変化率を見るため、起点をずらしてもよい場合があります。
目盛りの不均等化
目盛りが等間隔でない、あるいは 対数スケール を黙って使われると、急激な伸びがなだらかに見えたり、その逆も起こります。コロナ感染者数の指数増加を線形目盛で示せば『大したことない』、対数目盛なら『指数的に増加』と印象が変わる ─ どちらも事実だが見方次第。
面積で誇張する
売上 2 倍を表すのに 円・正方形を縦横 2 倍 にすると、面積は 4 倍になり、視覚的には 4 倍の差に見える。インフォグラフィックでよくある手口。1 次元の量(売上)は 1 次元の図形(棒)で示すのが原則。
色の使い方で誤誘導
赤 vs 青(危険 vs 安全)、濃 vs 淡 など、色の社会的意味を使って数字以上の印象を作る。地図で『支持率 60% を真っ赤、40% を真っ青』のように両極端に塗ると『国が真っ二つ』のように見えるが、実際の差は 20pt に過ぎない。
切り取り(チェリーピッキング)
都合のよい期間・地域・属性だけを切り取って見せる。『過去 3 年で売上 2 倍』と謳っても、3 年前が極端な不況だっただけかもしれない。比較の起点・終点をずらすと結論が真逆になることも。常に『他の期間ではどうか』を確認するのが第一歩。
棒グラフを見たら、まず 縦軸が 0 から始まっているか を確認するクセを付けましょう。これだけで多くのミスリードに対抗できます。テレビの政治情勢・経済ニュースで、縦軸が途中から始まっているのは、ほぼ意図的な強調操作と思って間違いありません。
数字の表現で誤誘導される
数字そのものを変えなくても、表現の仕方 で印象は劇的に変わります。同じ事実を別の言い方で示したらどう見えるか、対比で確認します。
相対変化 vs 絶対変化
絶対変化(差): ポイント
相対変化(率): は の増加
両者は別物。広告は『20% 増加』と煽り、批判は『たった 1pt』と矮小化する ─ 数字は同じでも印象は逆。
リスクの表現:相対リスクと絶対リスク
『この食品で発がんリスクが 2 倍(相対リスク 2)』と聞くと怖い。しかし元々のリスクが 0.001% だったら、2 倍でも 0.002%(絶対リスク差 0.001pt)。相対リスクだけを示して怖がらせる のは健康・環境分野でよくある手口。Number Needed to Treat(NNT) や絶対リスク差を必ず確認しましょう。
平均だけを見ると騙される
『この町の年収は平均 800 万円』 ─ でも 99% は 400 万円で、1% が大富豪なら平均は跳ね上がります。外れ値に引っぱられる平均と、引っぱられない中央値 の使い分けが大事。所得・株価のように偏った分布では 中央値 が代表値として誠実です。
サバイバーシップバイアス
『成功した起業家を 100 人調査したら、彼らは皆熱心だった』 → だから熱心なら成功する? これは 失敗して消えた人 を調査していないだけ。第二次世界大戦中、戻ってきた爆撃機の被弾箇所を補強しようとした研究は、『戻ってきた』 = 被弾しても致命傷でなかった部分だと気づき、戻れなかった機の損傷部位(エンジン等)こそ補強対象だと結論しました。見えていないサンプルを忘れないのが鉄則。
ニュースで数字を見たら、自動的に頭で 3 つ問いましょう。①絶対値はいくらか?(率なら元値は?) ②比較対象は何か? ③見えていない人は誰か? ─ これで多くの誤解が防げます。
因果と相関、そしてシンプソンのパラドックス
ここまでの章でも触れてきた『相関 ≠ 因果』。本節では具体例とパラドックスを通じて、より深く感覚をつかみます。
相関は因果ではない ─ 第三因子
『アイス売上と水難事故が相関している』 → アイスを食べると溺れる? 違う。第三因子(交絡因子) は『気温』。暑いと両方が増える。相関を見たらまず『両方を引き起こす別の要因はないか』を疑うのが因果推論の出発点。
シンプソンのパラドックス
集団全体で見ると関係がある一方、部分集団ごとに見ると関係が逆転する 現象。
古典例: 大学院入試の性別差。全体では『男性の合格率 > 女性の合格率』だったが、各学科別に見るとほとんどの学科で『女性の合格率 > 男性』だった(UC Berkeley 1973)。女性が応募していた学科の合格率自体が低かった(難関学科に集中していた)ため、全体集計でズレた。
シンプソンのパラドックスを避ける鍵は 層別(stratification)。集団を意味のある部分集団に分けて見ると、隠れていた関係が見える。新薬の効果評価でも『全体では効いていない』が『重症度別に見ると有効』ということがありえます。集計の粒度を変えると結論が逆転することを知っておくと、データ分析の警戒心が育ちます。
結びに ─ 統計リテラシーの 3 か条
- グラフを見たら『縦軸ゼロ?』『目盛りは等間隔?』を確認
- 数字を見たら『絶対値は? 比較対象は? 見えていない人は?』を問う
- 相関を見たら『第三因子は? 層別したら逆転しない?』を考える
これら 3 か条は、統計検定の試験でも、日々のニュースを読むときも、ビジネスの意思決定でも有効です。本書を読み終えた今、騙されない目 を持って、4 級・3 級の世界に進みましょう。次の章数が増えるごとに、統計があなたの 強い味方 になっていくはずです。
- [4 級 教科書へ](/textbook/grade-4) ─ より体系的な統計の世界
- [統計用語集](/glossary) ─ 出会った用語をすぐ確認
- [因果推論ミニ教科書](/causal-inference) ─ 相関 vs 因果を深く
第 8 章 · 公的統計の読み方 ─ ニュースの数字の出どころ
国勢調査と労働力調査
ニュースで聞く統計 はほとんど、国(総務省・厚労省・経産省など)が責任をもって作っている 公的統計 です。3 つの代表例 ─ 国勢調査・労働力調査・家計調査 ─ から見てみましょう。
国勢調査(こくせいちょうさ)
5 年に 1 度、日本に住むすべての人と世帯を対象に行う 全数調査。総務省が実施。日本の人口・世帯・家族構成・住居形態などを正確に把握するための すべての公的統計の土台。
毎年やるとコストが膨大(郵送・調査員派遣・集計で数千億円)。一方、人口や世帯構造はそれほど急には変わらないので、5 年で十分。その間は『推計』で年次値を出す という運用。海外でもおおむね 5〜10 年ごとです。
労働力調査(ろうどうりょくちょうさ)
毎月 行われる 抽出調査(全世帯ではなく約 4 万世帯を選ぶ)。失業率・就業者数 を毎月発表する根拠データ。総務省が実施。失業率は『仕事を探していたが見つからなかった人の割合』で、計算には『労働力人口』(働いている人 + 仕事探しの人)を分母とします。
家計調査(かけいちょうさ)
毎月の 約 8000 世帯 から家計簿を提出してもらう調査。何にいくら使ったか が品目別に分かり、消費者物価指数(CPI) や GDP の家計消費 の計算に使われます。総務省が実施。
テレビで『先月の失業率は 2.5%』と聞いたら、その出どころは労働力調査。『消費者物価が前年比 +3.0%』なら家計調査と物価調査。いつも『この数字は誰が・どう測ったのか』を考えるクセを付けると、ニュースの読解力が一気に上がります。
GDP と物価指数の意味
経済ニュースで頻出の GDP と 物価指数。難しそうに聞こえますが、考え方はシンプルです。
GDP(国内総生産)
Gross Domestic Product(国内総生産)= 1 年(または 1 四半期)に国内で新しく生み出された価値の合計。家計の消費 + 企業の投資 + 政府の支出 + 純輸出(輸出 − 輸入)で計算する 支出側 GDP が標準的な理解。
名目 GDP と実質 GDP
名目 GDP: その年の価格で計算した GDP。実質 GDP: 物価変動を取り除き、生産量の真の変化を測る。物価が上がっただけで GDP が増えても『経済が成長した』とは言えないので、ニュースで使うのは実質 GDP の方。両者の比が GDP デフレータ。
消費者物価指数(CPI)
Consumer Price Index は、家計が買う品目の 価格の平均的変化 を表す指数。基準年を 100 として、現在の物価水準が何 % になっているかを示します。インフレ率 = CPI の前年比。日銀の金融政策の判断材料の一つ。
前年同月比とインフレ率
- 前年同月比 = (今月の値 / 前年同月の値 − 1) × 100
- 季節要因(冬の暖房費など)を自動的に除去できる
- 失業率・物価・小売販売額など多くのニュースで使われる
- 前月比 だと季節差で乱高下するので、季節調整 + 前月比換算する
公的統計を実際に使ってみる
公的統計は 誰でも無料で使える のが大きな特徴。e-Stat(政府統計の総合窓口)で API も含め公開されています。
e-Stat ─ 政府統計のポータル
- URL: e-stat.go.jp(総務省統計局運営)
- 全省庁の主要統計 を集約
- Excel・CSV で表をダウンロード
- API 経由で機械可読 取得も可能(プログラミングと組合せると便利)
- 地図で可視化する jSTAT MAP も同サイト
国際比較なら OECD・IMF
他国との比較は OECD Data(data.oecd.org)・IMF Data Mapper(imf.org/external/datamapper/)・世界銀行 World Bank Open Data(data.worldbank.org)。日本の数値だけ見ても良し悪しが分からない場面で、これらの 国際統計 が威力を発揮。
公的統計は 税金で作られている インフラ。誰でも自由に使えますし、政策・経営・研究のすべての基盤になっています。SNS の意見ではなく公的統計に当たる クセが、情報リテラシーの第一歩です。
第 9 章 · 統計と日常生活 ─ 健康・天気・選挙
健康診断と基準値
健康診断結果に並ぶ 『基準値』。これは『健康な人の値の 95% が収まる範囲』として作られているのをご存じでしょうか? 統計の考え方が直接使われています。
基準値の作り方
健康な数千人を測定し、その分布(多くは正規分布に近い)で 平均 ± 2σ の範囲 を基準値とするのが伝統的な作り方。これは『健康な人の 95% が収まる範囲』を意味します。裏返すと『健康な人の 5% は基準値外』 で、その人たちを過剰検査することになる ─ これが基準値の宿命的限界。
ベイズ的な感度・特異度
ある検査が 感度 99%・特異度 99% で精度が高そうに見えても、対象疾患の 有病率が 1% なら、検査陽性者の中で実際に病気の人は約 50% しかいない(ベイズの定理)。これが 集団検診のジレンマ で、稀な病気の検診では『陽性 = 即病気』ではないことが多いのです。
数字に騙されないために
- 基準値は『健康な人の 95%』の範囲 ─ 5% は外れる
- 有病率が低い病気の検査陽性は再検査が標準
- 血液検査値の推移(前年比較)が単発値より重要
- 個人差が大きい指標(コレステロール等)は基準値の意味が限定的
天気予報 ─ 降水確率の意味
『明日の 降水確率は 60%』 ─ これは何の確率でしょう? 雨が 降る面積の 60% ? 1 日のうち 60% の時間? どちらも違います。
降水確率の正しい解釈
気象庁の定義: その時間帯に 1mm 以上の雨が降る確率を、過去の同じ気象状況での頻度から推定したもの(0%、10%、…、100% の 11 段階で発表)。
例えば『60%』は『こういう気象状況のとき、過去 10 回中 6 回は雨が降った』を意味します。1 mm 未満の小雨は『降った』とはカウントしないので、霧雨は除外されます。
予報の精度
天気予報の精度は、『60% と予報した日のうち、実際に雨だった日の割合が 60% に近いか』で評価されます。これが 較正(calibration) の概念で、機械学習の確率予測の評価でも同じ発想です。気象庁の予報は、長年の機械学習的改善で 信頼性図がほぼ対角線上(よく較正されている)に乗っています。
アンサンブル予報
近年の天気予報は、初期条件をわずかに変えた 多数のシミュレーション(アンサンブル) を実行し、その分布から確率を出します。台風の進路予報の 予想円 がだんだん広がっていくのは、シミュレーション間のばらつきが時間とともに増えるから。アンサンブル法 はモンテカルロ的な手法で、ML や金融でも使われます。
選挙速報 ─ なぜ 8 時 0 分に当確が出るか
テレビの選挙速報で『投票終了 8 時 0 分、当選確実!』 ─ 開票がまだ始まってもいないのに、なぜ当確が出せるのでしょう。背景には 出口調査 という統計手法があります。
出口調査(でぐちちょうさ)
投票所を出てきた有権者にアンケート を行う標本調査。各投票所で 100 人前後 × 全国 1000 投票所程度 = 十数万件 の標本になります。各社(NHK・民放・新聞各紙)が独自に実施。
なぜ 8 時 0 分に当確が出せるか
出口調査の標本誤差は概ね ±1〜2pt。だから 得票率の差が誤差を大きく超える候補(例えば 10pt 以上の差) があれば『ほぼ確実に勝った』と統計的に言える ─ これが『当確』の判断基準。差が小さい激戦区では当確発表が 23 時・25 時 とずれ込むのは、標本誤差のせい。
出口調査の限界
- 期日前投票が増えると精度低下(投票所で出会えない)
- 回答拒否者 に偏りがあると非標本誤差が混入
- 接戦 では当確判定不可、開票結果待ちに
- 2016 年米大統領選・2017 年英総選挙など、大事件で予想を外す例も
天気予報・選挙速報・健康診断・経済政策 ─ 私たちの生活の重要な場面で統計が裏方として動いている。それを意識すると、ニュースの数字が単なる飾りでなく、社会の意思決定の根拠として見えてきます。これが統計を学ぶ最大のメリットの一つです。
第 10 章 · 次に進むためのロードマップ
入門編の総振り返り
ここまで 9 章で扱った内容を 5 つのキーワード にまとめると、統計の基礎の地図が見えてきます。
5 つのキーワード
- 整理する ─ 平均・中央値・標準偏差で データを要約 する
- 可視化する ─ ヒストグラム・棒グラフ・散布図で 目で見て理解 する
- 確率で考える ─ サイコロ・コインから 不確実性を数値化 する
- 読み解く ─ ニュースの統計を『誰が、どう測ったか』で考える
- 騙されない ─ グラフのトリック・相関と因果の区別を見抜く
統計学は、世の中の不確かさに対して、データに基づいて冷静に判断する言葉 です。学べば学ぶほど、ニュース・健康診断・職場のデータ・選挙結果のすべてが、別の角度から見えてきます。
次のステップ ─ 学習ロードマップ
入門編の次は、目的に応じて選ぶのがおすすめです。すべてを学ぼうとせず、今の興味に合った道 から進みましょう。
ルート A: 統計検定で力試し
- 4 級(中高生・大人の入門) → 数式に慣れる、確率分布の入口
- 3 級 → 推定と検定の基礎
- 2 級 → 大学レベルの推定・検定・回帰分析
- 準 1 級 → 多変量解析・ベイズ・時系列など応用
- 1 級 → 数理統計学の理論
ルート B: データ分析の実務
- Excel → DS 基礎(統計検定 データサイエンス基礎)
- Python / R → DS 検定リテラシー、Kaggle で腕試し
- SQL → データベースから自分でデータを引く
- 機械学習 → scikit-learn・XGBoost で予測モデル
- 深層学習 → PyTorch で画像・自然言語処理
ルート C: AI 系検定
- G 検定(JDLA) → AI / ディープラーニングを事業に活かす知識
- E 資格(JDLA) → AI エンジニアの認定資格
- DS 検定リテラシー(DS 協会) → データサイエンスの基礎
ルート D: 専門領域
- 統計調査士・専門統計調査士 → 公的統計・調査設計
- QC 検定 → 製造業の品質管理
- 因果推論 → 政策評価・経営判断
- 時系列分析 → 金融・需要予測
学び続けるためのコツ
統計の学習は 長期戦。続けるためのコツを 5 つ。
- 完璧を求めない ─ 6 割理解で次へ進み、後で戻る
- 手を動かす ─ Excel・Python・R で実際に計算する
- 身近なデータで遊ぶ ─ 家計簿・体重・通勤時間など、自分のデータを分析
- 定期的に復習 ─ 忘却曲線に沿って、間隔反復で長期記憶へ
- 仲間を作る ─ X(旧 Twitter)・Qiita・Kaggle で他の学習者とつながる
本サイトの活用法
- [ロードマップ](/roadmap) ─ AI エンジニアまでの全体像
- [級診断](/diagnose) ─ どの級から始めるか 3 問でわかる
- [統計用語集](/glossary) ─ わからない言葉をすぐ確認(検索可)
- [統計図解集](/figures) ─ 概念を SVG で見直す
- [統計計算ツール](/tools) ─ ブラウザで信頼区間・p 値計算
- [演習問題](/quiz) ─ 級別の練習問題で力試し
- [ブックマーク機能](/bookmarks) ─ 大事な問題・公式・記事を保存
ここまで読み進めてくださった方は、もう 統計に親しんだ仲間 です。これから学ぶごとに、世界の見え方が少しずつ変わっていく感覚を、ぜひ楽しんでください。本サイトは無料で、いつでも戻ってこれる場所 として用意されています。学習の旅、応援しています!