統計のための数学基礎
統計学を学ぶうえで前提となる数学の道具を、最小限・実用本位でまとめた補助教材です。3 級以降で必須の総和記号 Σ・指数と対数、準1級以降で必須の微分積分・線形代数 ─ 「思い出す」「初めて触れる」のどちらにも使えるよう、簡潔に整理します。統計検定本体の章でつまずいたとき、ここに戻ってきて確認するのに使ってください。
目次
- 第 1 章 · 数と式の復習割合・百分率・指数表記など、算数〜中学数学レベルで押さえておきたい基礎を確認します。
- 第 2 章 · 代数の道具総和記号 Σ と、指数・対数 ─ 3 級以降で必須となる代数の道具を整理します。
- 第 3 章 · 微分積分の入口2 級以降の理論的話題で必須となる微分・積分の感覚を、数式に頼りすぎず整理します。
- 第 4 章 · 線形代数の基礎準1級以降の重回帰・主成分分析・多変量正規分布で必要なベクトル・行列の基本。
第 1 章 · 数と式の復習
割合・百分率・歩合 ─ 同じことの違う表現
統計学はあらゆる場面で「割合」を扱います。「サイコロで偶数が出る確率」「標本のうちアンケートに答えた人の比率」「合格率」「失業率」 ─ どれも形式は割合です。本節ではまず、割合の 3 つの表現(割合・百分率・歩合)を整理します。
割合の基本式
割合 = 比べる量 ÷ もとにする量
「もとにする量」を 1 としたとき、「比べる量」が何倍にあたるかを表す数。 から (またはそれ以上)の小数になる。
全校生徒 200 人のうち、男子が 120 人。男子の割合は?
解 : 。「男子は全体の 0.6 倍」という意味。
百分率(%)
百分率 = 割合 × 100(%)
割合を 100 倍した値。「100 のうちいくつぶんか」を直感的に表す。
上の例 1.1 で、男子の割合 を百分率にすると 。「男子は全体の 60% を占める」と読める。
歩合(割・分・厘)
野球の打率や金利でよく使う表記。「3 割 2 分」「年利 5 厘」のような形。
- 1 割 = 0.1 = 10%
- 1 分 = 0.01 = 1%
- 1 厘 = 0.001 = 0.1%
打率 の選手。歩合と百分率で言い直すと?
解 : 「3 割 2 分 5 厘」、または「」。
増加率・減少率の計算
変化率 = (変化後の値 − 変化前の値) ÷ 変化前の値
増えていれば正、減っていれば負。 すれば %。
円のおかしが 円に値上げされた。値上げ率は?
解 : 。
統計のニュースで「物価が前年比 +3.2% 上昇」「失業率が 0.1 ポイント低下」のような表現を見ます。「率」と「ポイント」の違い に注意 ─ 失業率が 5.0% から 4.9% になったとき、減少幅は 「0.1 ポイント」(ポイント差)、減少率は 「2%」(0.1/5.0)。混同しやすいので、ニュースを読むときは意識してみましょう。
事業レポートで「コンバージョン率が 2.0% から 2.4% に上がりました」と書くとき、「+0.4 ポイント」と「+20% の改善」のどちらの表現も正しいのですが、印象は大きく異なります。社内向けなら『ポイント差』の控えめな表現、外部向けプレゼンなら『相対的な改善率』の派手な表現と、目的に応じて選び分けるのが実務の使いどころ。読み手としては『どちらの定義で語っているか』を必ず確認するクセが必要です。
指数表記と科学記法 ─ 大きい数・小さい数を扱う
「日本の人口 約 1.24 億人」「光の速さ 約 3 × 10^8 m/s」 ─ 統計や科学では大きな数や小さな数が頻繁に登場します。これらを効率よく扱うのが指数表記と科学記法です。
指数(累乗)の基本
( を 回掛け合わせる)という形を 累乗 といい、 を底、 を指数(べき)という。
例: 。
指数法則(暗記必須)
は実数(底)、 は整数(指数)。
- (掛け算 → 指数を足す) - (割り算 → 指数を引く) - (累乗の累乗 → 指数を掛ける) - (積の累乗 → それぞれの累乗の積) - (、約束) - (マイナスの指数 → 逆数)
次を計算せよ: 。
解 : 指数法則より 。
科学記法(指数表記)
数を (1 以上 10 未満の数)× の形で書く方法。 のように記す。 が正なら大きな数、負なら小さな数。
- (千)
- (万)
- (百万)
- (億)
- (マイクロ)
次を科学記法で表せ:
(1) →
(2) →
なぜ統計で使うか
統計学では、「とても小さな確率」(p 値)や「とても大きな数」(母集団サイズ)を扱う場面が頻繁にあります。例: は と書けば一目瞭然。電卓やプログラミング言語の出力でも科学記法(`2.1e-6` のような表記)が標準です。
第 2 章 · 代数の道具
総和記号 Σ の使い方
「データ を全部足す」 ─ 統計学で最も頻繁に使う操作のひとつ。これを短く書くのが総和記号 Σ(シグマ)です。3 級以降の教科書ではほぼ全ページに登場するので、見た目に慣れておきましょう。
Σ の基本
「 を から まで動かして を足し上げる」と読む。 は 添字(ダミー変数)で、 や でも意味は同じ。
を計算せよ。
解 : 。「 に を順に代入して足す」。
Σ の便利な公式
から までの和:
2 乗の和:
定数 の和:
定数倍の取り出し:
和の和(線型性):
を求めよ。
解 : 公式より 。
統計での典型的な使い方
統計の式で Σ がどう使われているか、代表的なものを 3 つ。
- 標本平均: ─ 全部足して個数で割る
- 標本分散: ─ 偏差の 2 乗の平均
- 期待値: ─ 値 × 確率の和
添字の範囲を省略する慣例
文脈から添字の範囲が明らかなときは、上下を省略して と書くことがあります。「全部の について足す」と暗黙に解釈される、と覚えましょう。Σ を見たら、まず「何を足しているか / 添字はどう動くか」を頭で展開するクセをつけると、複雑な式も読み解けるようになります。
プログラミングを知っているなら、 は次の for ループに対応します:`total = 0; for i in 1..n: total += x[i]`。Σ の上に書く がループの上限、下に書く がループ変数の初期値、右にある がループの中身です。「数学の記号」と身構えず、コードを読むつもりで眺めるとスッと入ります。
指数と対数
対数(ログ) は指数の逆向きの操作。「 を何回掛けたら になる?」という問いの答えが対数です。最尤推定、情報量、複利計算、地震のマグニチュードなど、応用が非常に広い概念。
対数の定義
のとき、 とは を意味する。
( を底、 を真数、 を対数の値という)
、 ─ つまり常用対数は『数の桁数(マイナス 1)』を返します。だから所得・地震の規模・音の大きさ・pH のように『桁が大きく違う量』を扱うとき、対数を取ると比較しやすくなる。地震のマグニチュード(M7 と M8 の違い=エネルギー 32 倍差)や音圧のデシベル(20 dB ≒ 10 倍)は、すべて対数スケールです。
次を計算せよ:
(1)
(2)
解 :
(1) なので 。
(2) なので 。
対数の性質
、 は実数、 のとき:
- (積 → 和) - (商 → 差) - (累乗 → 係数倍) - - 底の変換公式:
底による分類
- 常用対数 : 底が 10。日常的な計算・情報量(ビット)で使う
- 自然対数 または : 底が (ネイピア数 )。微積分・統計理論で標準
- 二進対数 : 底が 2。情報量・コンピュータサイエンスで使う
ネイピア数 $e$
微積分でもっとも自然に現れる無理数。 は微分しても のまま、というユニークな性質をもつ。
統計でなぜ対数を使うか
- 最尤推定: 尤度関数 の対数 を最大化する。積 → 和に変えて微分しやすくするため
- 指数分布・正規分布など: 確率密度関数の形に が含まれる
- 情報量: (エントロピー)
- ロジスティック回帰: を線形回帰でモデル化
- 桁数を圧縮: 大きな数を小さな数に変換できる(例: 売上 円 → )
解 : 。「累乗 → 係数」「商 → 差」を使う。
対数は最初は取っつきにくいですが、性質を 5 つ覚えれば応用は機械的にできます。3 級では「式を読めれば OK」、2 級以降では「自分で計算する」レベルに引き上げていきましょう。
第 3 章 · 微分積分の入口
微分の意味と基本公式
微分 は、関数の「変化の速さ」を測る道具です。統計学では「最尤推定で を解く」ような場面で必ず登場します。本節では、微分の 意味の感覚 と 最低限覚える公式 4 つ を整理します。
微分とは何か ─ 直感的な意味
「車の位置を時刻で微分すると速度になる」と言われるように、微分は「ある瞬間の変化の速さ」を表します。
数式で言えば、 が少しだけ変化したときに がどれだけ変わるか ─ その「変化の比」を、変化幅を限りなく小さくしていったときの極限で定義します。
関数 の における微分(導関数)を
で定義する。 はその点での 接線の傾き に等しい。
統計で微分が出てくるほぼすべての場面は『何かを最大化する』ためです。最尤推定なら尤度を最大化、最小二乗法なら誤差の 2 乗和を最小化、ロジスティック回帰の収束点を求めるのも全て微分。「山頂は傾きがゼロ」という幾何学的事実(=)を使うことで、最大値の場所を式で求めるのが微分の最大の使いどころです。
微分の基本公式(最低限の 4 つ)
1. 累乗の微分:
2. 定数の微分: ( は定数)
3. 線型性:
4. 指数・対数(自然対数):
次を で微分せよ:
(1)
(2)
解 :
(1) 。「指数を前に出して、指数を 1 減らす」。
(2) 。線型性で項ごとに微分。
「微分 = 0」の意味 ─ 統計で頻出の場面
関数の 極値(最大値・最小値)では、必ず接線が水平になる ─ つまり微分が になります。
- : グラフは右上がり(増加中)
- : 接線が水平 ─ 山頂(極大)or 谷底(極小)or 屈曲点
- : グラフは右下がり(減少中)
統計での使い場面 ─ 最尤推定
1 級のキー定理 ─ 最尤推定 は、まさに「対数尤度を最大化するパラメータを探す」操作。具体的には次のステップ:
- 対数尤度関数 を で微分
- の方程式を解く(スコア方程式)
- 得られた が最尤推定量
コインの表確率 を、 回中 回表が出たデータから推定したい。
対数尤度
微分:
これを 0 とおいて解くと ─「成功した割合」が最尤推定量、という直感的な結果になる。
微分の道具を持っていると、こうした「最も自然な推定量」が機械的に導けます。準1級・1級では避けて通れない技なので、最低限の 4 公式は必ず手で動かせるようにしておきましょう。
積分の意味と基本
積分 は、関数の「累積した量(面積)」を求める道具。微分の逆向きの操作とも言えます。統計学では 連続確率変数の確率計算(密度関数の面積)で必須となる概念です。
積分とは何か ─ 面積を求める
関数 のグラフと 軸 で囲まれた、 から までの 面積 を、
と書きます(「 から までの の積分」と読む)。 は「 の小さな幅」を表す記号で、「小さな短冊の面積を足し合わせていく」というイメージです。
微分と積分の関係(微積分の基本定理)
となる関数 を 原始関数 とすると、
つまり、「原始関数を求めて、上端の値から下端の値を引く」 で定積分が計算できる。
積分の基本公式
( は積分定数)
累乗: ()
定数:
指数・対数:
線型性:
を計算せよ。
解 : 原始関数は 。。
統計での使い場面 ─ 連続分布の確率
離散確率変数では「特定の値をとる確率」を と表せましたが、連続確率変数では 「ぴったりこの値」となる確率は 0(密度関数なので)。代わりに、ある区間に入る確率は密度関数の積分で計算します。
確率密度関数 をもつ連続確率変数 について、
全空間での積分は必ず :
(密度 )のとき、 を求めよ。
解 : 。
「区間で確率」の重要な性質
- (連続変数は「ぴったり」の確率が常に 0)
- (端点の有無は無関係)
- 累積分布関数 ─「 以下の確率」を表す関数
- ─ 余事象を使った計算
統計検定 2 級では「正規分布の値が の範囲に入る確率は 」のような結果を 暗記 で済ませますが、その背景には密度関数の積分があります。準 1 級・1 級では実際に積分を計算する場面が出てきます。
第 4 章 · 線形代数の基礎
ベクトルと内積
ベクトル は「向きと大きさ」を持つ量。多変量データを扱う統計学では、データ 1 件をベクトルとして表します。本節では、ベクトルの基本的な演算と、統計学でとくに重要な 内積 の意味を整理します。
ベクトルの定義
個の数を縦に並べたものを 次元ベクトルといい、 のように書く。
統計学では「ある 1 人の身長・体重・年齢」のように、複数の特徴をまとめた データ 1 件 をベクトルとして扱う。
和・スカラー倍
和: 同じ次元のベクトルどうしを成分ごとに足す:
スカラー倍: 各成分に同じ数を掛ける:
内積(ドット積)
2 つの 次元ベクトル の内積を
で定義する。結果は スカラー(数)。
の内積を計算せよ。
解 : 。
ノルム ─ ベクトルの「長さ」
ベクトル のノルム(L² ノルム)を
で定義する。「原点から までの距離」。
内積の幾何的意味
ベクトル がなす角を とすると、
したがって
統計での使い場面 ─ 相関係数の幾何的解釈
実は 相関係数 は、平均を引いた 2 つのデータベクトルの「内積を長さで割った値」(= cos θ) に等しいんです。
データ , について、平均を引いたベクトル , とすると:
「相関係数が に収まる」のは「コサインが に収まる」から、と幾何的に理解できます。これがベクトルの威力 ─ 統計の式が幾何的に「見える」ようになる、というメリットです。
行列の基本
行列(matrix)はベクトルを縦横に並べたもの。データ全体を行列で表すことで、複数のデータをまとめて一気に処理できます。準1級・1級の 重回帰・PCA・多変量正規分布 などでは、行列なしでは式を書くことすらできません。
行列の定義
行 列の長方形に並べた数の表を 行列 という。一般に
と書く。 は「 行 列の要素」。
統計でデータを扱うときは、行 = データ 1 件、列 = 1 つの特徴(身長・体重など) とするのが標準。 人 × 特徴のデータは 行列で表せます。
ベクトルが『矢印』なら、行列は『矢印を別の矢印に変える装置』です。例えば 90 度回転・引き伸ばし・斜めにつぶす ─ こうした幾何学的操作はすべて行列で表現できます。重回帰の も、データ行列 という『装置』を使って を係数ベクトルに変換する、という幾何学的操作。機械学習の内部はほぼすべて行列演算 ─ 行列の感覚を持つかどうかが、後続の学習の質を大きく左右します。
行列の積
行列 と 行列 の積 は 行列で、 成分は
つまり「 の 行ベクトルと の 列ベクトルの内積」。
注意: の 列数 と の 行数 が一致しないと積は計算できません。また、 が一般に成立(可換でない)。
単位行列と逆行列
単位行列 : 対角成分が 、それ以外は の正方行列。 を満たす(掛け算の「」)。
逆行列 : を満たす行列。逆行列が存在する正方行列を 正則 という。
「逆行列がない」(= 行列式が 0)ような行列は、列同士に 線形従属 がある状態。重回帰モデルでは、説明変数間に強い相関があると が逆行列を持ちにくくなり、推定が不安定になる ─ いわゆる 多重共線性 の問題です。
転置・対称行列
転置 : 行と列を入れ替えた行列。。
対称行列: を満たす行列(対角線で折り返したときに同じ)。分散共分散行列 や 相関行列 はすべて対称行列。
統計での使い場面 ─ 重回帰の正規方程式
重回帰モデル の最小二乗推定量は、
という、行列の積と逆行列だけ で書ける美しい形になります。スカラーの式 (単回帰)と本質は同じ ─ 「分子 ÷ 分母」 ─ ですが、行列で書くことで一般の説明変数の数に拡張できます。
固有値・固有ベクトル(さわり)
正方行列 について、 を満たすスカラー を 固有値、ベクトル を 固有ベクトル という。
主成分分析(PCA) は分散共分散行列 の固有値分解を行い、固有ベクトルを「主成分の方向」、固有値を「その方向の分散」として使います。固有値・固有ベクトルは線形代数の本格的な道具で、本格的な学習は専門書をどうぞ。本サイト準1級教科書の[主成分分析の節](/textbook/grade-pre1#ch3-sec3)では、概念面の解説をしています。
ここまでで「統計のための数学基礎」全 4 章の主要部分が出そろいました。割合・Σ・対数・微分積分・ベクトル・行列 ─ これらが手元にあれば、統計検定の式は怖くなくなります。あとは個々の式と意味を、各級の教科書で深く学んでいきましょう。