本文へスキップ
統計ロードマップ
Interactive

動かして学ぶ統計

スライダーやボタンでパラメータを動かし、 式・図・動きの 3 軸 から統計の直感を養えます。「正規分布の σ を 0.5 にしたら山はどれくらい鋭くなる?」「中心極限定理は本当にどんな分布でも効くの?」という問いに、その場で答えが出る。

※ すべて完全クライアントサイド・端末内で動作。データ送信なし・ログイン不要・印刷可。

正規分布 N(μ, σ²) を動かす

μ で中心が動き、σ で幅が変わる。±σ・±2σ の帯は常に 68% / 95% を占めるのを確認しよう。

-6-4-20246μ = 0.0
0.0
1.0

確率密度関数: f(x) = (1 / (σ√(2π))) · exp(−(x−μ)² / (2σ²))

二項分布 Bin(n, p) を動かす

n を増やすと釣鐘型に。p が 0.5 から離れるほど歪む。np と n(1-p) が両方 5 以上だと正規近似可。

05101520np = 8.0
20
0.40

平均 np = 8.00 / 分散 np(1−p) = 4.80 / 標準偏差 = 2.19

中心極限定理を体感する

どの分布(一様・指数・二峰)も、標本平均は n が大きいと正規型に近づく。スライダーで n を増やしてみよう。

元の分布標本平均の分布(CLT)
5

標本平均の標準誤差 = σ / √n = 0.129。n が大きいほど分布は鋭くなる。

p 値の面積を動かす

z* を動かすと面積(p 値)が変わる。両側 / 片側を切り替えて違いを見よう。

-3-2-10123z* = 1.70
1.70
p 値 = 0.0891 α=0.05 では棄却できず

信頼区間を 24 回作って眺める

標本サイズ n と信頼水準を変えると、区間の幅と『母平均を含む区間の数』が変化する。

母平均-11
20
区間幅 = ±0.438(95% × σ/√n)

24 回中 23 本が母平均を含んだ(理論値: 約 23 本)

ベイズ更新 ─ 事前 × 尤度 = 事後

コインの表が出る確率 θ をベイズ推定。Beta(a,b) を事前分布として、観測データで分布が更新される様子を体感。

00.250.50.751事後平均=0.64─ ─ 事前 ── 事後
2
2
7
3

事前 Beta(2,2) 平均=0.500 → 事後 Beta(9,5) 平均=0.643 / データが多いほど事前の影響は小さくなる。

散布図と回帰直線 ─ 点をドラッグして動かす

点をドラッグすると、最小二乗法で回帰直線が即座に再計算される。外れ値が傾きと相関係数にどう効くか体感。

024681004812
傾き β₁
0.994
切片 β₀
1.214
相関係数 r
0.994
残差平方和
0.47

ヒント: 1 つの点を大きく外すと r が劇的に下がる。これが「外れ値の影響」。

カイ二乗適合度検定 ─ 観測度数を動かす

4 カテゴリで「均等」が帰無仮説。観測度数を偏らせると χ² が大きく・p 値が小さくなる様子を体感。

期待度数 E=25.028カテゴリ A22カテゴリ B25カテゴリ C25カテゴリ D
28
22
25
25
χ² 統計量
0.720
自由度
3
p 値
0.8685

p < 0.05 で「均等」の帰無仮説を棄却。観測の合計 N=100、期待値 E=N/4=25.0

ベイズの定理 ─ 医療検査の真実

「精度 95% の検査で陽性なら、本当に病気である確率は?」 直感に反する答えをスライダーで体感。

人口 1000 人 ─ 罹患 10 人 / 健常 990真陽性 9.5偽陰性 0.5偽陽性 49.5真陰性 940.5陽性的中率(PPV)16.1%陰性的中率(NPV)99.9%
1.0%
95.0%
95.0%

陽性的中率 = TP / (TP + FP)。**有病率が低いほど偽陽性が増え、PPV が劇的に下がる** ── これが集団検診の根本問題。

t 分布 vs 標準正規分布

自由度を動かすと、t 分布の裾(テール)の厚さが変化。df → ∞ で正規分布に一致。

-4-2024─ ─ N(0,1) / ── t(df=5)
5

df=1(コーシー分布)は裾が極端に厚く外れ値に頑健。df → ∞ で N(0,1) に収束。実務では **df ≥ 30** で正規近似 OK というのが慣習。

ポアソン分布 Po(λ) を動かす

単位時間に起こる「まれな事象の回数」のモデル。λ を増やすと右にずれて釣鐘型に近づき、λ ≥ 10 程度で正規近似が効きはじめます。平均と分散はどちらも λ。

0481115λ = 4.0
4.0

平均 = 分散 = λ = 4.00 / 標準偏差 = √λ ≈ 2.00 / モード = ⌊λ⌋ = 4

指数分布 Exp(λ) を動かす

次のイベントまでの待ち時間の分布。λ(発生率) が高いほど短時間に集中します。記憶喪失性(memoryless)があり、過去の経過時間に依存しません。ポアソン過程の到着間隔と表裏一体。

μ = 1/λ = 1.000.01.32.53.85.0
1.00

平均 = 1/λ = 1.000 / 中央値 = ln(2)/λ = 0.693 / 標準偏差 = 1/λ

相関係数 r を動かす

2 変数の散布図を相関係数 r でコントロールします。r = 0 に近いほど雲状に、|r| → 1 で直線に集まります。サンプルサイズを変えると、同じ r でも見え方がどう変わるか体感できます。

0.70
60

目標 r = 0.70 / 標本 r ≈ 0.782 / R² = 0.612

ブートストラップ標本分布

観測データから復元抽出を 800 回繰り返し、統計量(平均または中央値)の分布を構築。理論分布に頼らず信頼区間を作る現代統計学の基本ツール。

観測値 20.0716.4020.4724.53
統計量
800

観測値: 20.067 / 標準誤差(SE): 1.405 / 95% パーセンタイル CI: [17.467, 23.000]

2 変量正規分布の等高線

平均 0 を共有する 2 変量正規分布の確率密度を等高線で表示。相関係数 ρ で楕円の傾きと細さが変わります。条件付き分布(回帰直線)の傾きも視覚的に体感できます。

E[Y | X = x] = 0.60 x
0.60
1.00
1.00

条件付き期待値 E[Y | X = x] = ρ · (σ_y / σ_x) · x = 0.600 · x。 ρ → ±1 で楕円が直線に潰れ、ρ = 0 で軸並行の円(σ_x = σ_y のとき)。

Kaplan-Meier 生存曲線

指数分布で発生する『真の生存時間』に一様な打ち切りを加えた合成データから、Kaplan-Meier 推定量(階段曲線)が真の生存関数(滑らかな曲線)に近づく様子を体感できます。

0.000.250.500.751.000.08.316.5
0.50
6.0
80

観測イベント 51 件 / 打ち切り 29 件 / 真の中央生存時間 = ln(2)/λ ≈ 1.39

Next Steps

次に進む