Textbook

統計のための数学基礎

統計学を学ぶうえで前提となる数学の道具を、最小限・実用本位でまとめた補助教材です。3 級以降で必須の総和記号 Σ・指数と対数、準1級以降で必須の微分積分・線形代数 ─ 「思い出す」「初めて触れる」のどちらにも使えるよう、簡潔に整理します。統計検定本体の章でつまずいたとき、ここに戻ってきて確認するのに使ってください。

第 1 章 · 数と式の復習
割合・百分率・指数表記など、算数〜中学数学レベルで押さえておきたい基礎を確認します。
- 1.1 割合・百分率・歩合 ─ 同じことの違う表現
- 1.2 指数表記と科学記法 ─ 大きい数・小さい数を扱う
第 2 章 · 代数の道具
総和記号 Σ と、指数・対数 ─ 3 級以降で必須となる代数の道具を整理します。
- 2.1 総和記号 Σ の使い方
- 2.2 指数と対数
第 3 章 · 微分積分の入口
2 級以降の理論的話題で必須となる微分・積分の感覚を、数式に頼りすぎず整理します。
- 3.1 微分の意味と基本公式
- 3.2 積分の意味と基本
第 4 章 · 線形代数の基礎
準1級以降の重回帰・主成分分析・多変量正規分布で必要なベクトル・行列の基本。
- 4.1 ベクトルと内積
- 4.2 行列の基本

Chapter 1

第 1 章 · 数と式の復習

§1.1

割合・百分率・歩合 ─ 同じことの違う表現

統計学はあらゆる場面で「割合」を扱います。「サイコロで偶数が出る確率」「標本のうちアンケートに答えた人の比率」「合格率」「失業率」 ─ どれも形式は割合です。本節ではまず、割合の 3 つの表現(割合・百分率・歩合)を整理します。

割合の基本式

定義 ─ 割合

割合 = 比べる量 ÷ もとにする量

「もとにする量」を 1 としたとき、「比べる量」が何倍にあたるかを表す数。 $0$ から $1$ (またはそれ以上)の小数になる。

例 1.1

全校生徒 200 人のうち、男子が 120 人。男子の割合は?

解 : $120 \div 200 = 0.6$ 。「男子は全体の 0.6 倍」という意味。

百分率(%)

定義 ─ 百分率

百分率 = 割合 × 100(%)

割合を 100 倍した値。「100 のうちいくつぶんか」を直感的に表す。

上の例 1.1 で、男子の割合 $0.6$ を百分率にすると $0.6 \times 100 = 60%$ 。「男子は全体の 60% を占める」と読める。

歩合(割・分・厘)

野球の打率や金利でよく使う表記。「3 割 2 分」「年利 5 厘」のような形。

1 割 = 0.1 = 10%
1 分 = 0.01 = 1%
1 厘 = 0.001 = 0.1%

例 1.2

打率 $0.325$ の選手。歩合と百分率で言い直すと?

解 : $0.325 = 0.3 + 0.02 + 0.005 =$ 「3 割 2 分 5 厘」、または「 $32.5%$ 」。

増加率・減少率の計算

公式 ─ 変化率

変化率 = (変化後の値 − 変化前の値) ÷ 変化前の値

増えていれば正、減っていれば負。 $\times 100$ すれば %。

例 1.3 ─ 値上げの計算

$200$ 円のおかしが $250$ 円に値上げされた。値上げ率は?

解 : $(250 - 200) /200 = 50/200 = 0.25 = 25%$ 。

統計のニュースで「物価が前年比 +3.2% 上昇」「失業率が 0.1 ポイント低下」のような表現を見ます。「率」と「ポイント」の違い に注意 ─ 失業率が 5.0% から 4.9% になったとき、減少幅は 「0.1 ポイント」(ポイント差)、減少率は 「2%」(0.1/5.0)。混同しやすいので、ニュースを読むときは意識してみましょう。

実務での使い方:KPI レポートでの罠

事業レポートで「コンバージョン率が 2.0% から 2.4% に上がりました」と書くとき、「+0.4 ポイント」と「+20% の改善」のどちらの表現も正しいのですが、印象は大きく異なります。社内向けなら『ポイント差』の控えめな表現、外部向けプレゼンなら『相対的な改善率』の派手な表現と、目的に応じて選び分けるのが実務の使いどころ。読み手としては『どちらの定義で語っているか』を必ず確認するクセが必要です。

§1.2

指数表記と科学記法 ─ 大きい数・小さい数を扱う

「日本の人口約 1.24 億人」「光の速さ約 3 × 10^8 m/s」 ─ 統計や科学では大きな数や小さな数が頻繁に登場します。これらを効率よく扱うのが指数表記と科学記法です。

指数(累乗)の基本

定義 ─ 累乗

$a^{n}$ ( $a$ を $n$ 回掛け合わせる)という形を累乗といい、 $a$ を底、 $n$ を指数(べき)という。

例: $2^{3} = 2 \times 2 \times 2 = 8$ 。

指数法則(暗記必須)

公式 ─ 指数法則

$a, b$ は実数(底)、 $m, n$ は整数(指数)。

- $a^{m} \times a^{n} = a^{m + n}$ (掛け算 → 指数を足す) - $a^{m} \div a^{n} = a^{m - n}$ (割り算 → 指数を引く) - $(a^{m})^{n} = a^{mn}$ (累乗の累乗 → 指数を掛ける) - $(ab)^{n} = a^{n} b^{n}$ (積の累乗 → それぞれの累乗の積) - $a^{0} = 1$ ( $a \neq = 0$ 、約束) - $a^{- n} = 1/ a^{n}$ (マイナスの指数 → 逆数)

例題 1.4

次を計算せよ: $2^{3} \times 2^{4}$ 。

解 : 指数法則より $2^{3} \times 2^{4} = 2^{3 + 4} = 2^{7} = 128$ 。

科学記法(指数表記)

定義 ─ 科学記法

数を (1 以上 10 未満の数)× $1 0^{n}$ の形で書く方法。 $1.5 \times 1 0^{8}$ のように記す。 $n$ が正なら大きな数、負なら小さな数。

$1 0^{3} = 1, 000$ (千)
$1 0^{4} = 10, 000$ (万)
$1 0^{6} = 1, 000, 000$ (百万)
$1 0^{8} = 100, 000, 000$ (億)
$1 0^{- 3} = 0.001$
$1 0^{- 6} = 0.000001$ (マイクロ)

例題 1.5 ─ 数を科学記法で書く

次を科学記法で表せ:

(1) $124, 000, 000$ → $1.24 \times 1 0^{8}$

(2) $0.000 0032$ → $3.2 \times 1 0^{- 6}$

なぜ統計で使うか

統計学では、「とても小さな確率」(p 値)や「とても大きな数」(母集団サイズ)を扱う場面が頻繁にあります。例: $p = 0.000 0021$ は $p = 2.1 \times 1 0^{- 6}$ と書けば一目瞭然。電卓やプログラミング言語の出力でも科学記法(`2.1e-6` のような表記)が標準です。

Chapter 2

第 2 章 · 代数の道具

§2.1

総和記号 Σ の使い方

「データ $x_{1}, x_{2}, \dots, x_{n}$ を全部足す」 ─ 統計学で最も頻繁に使う操作のひとつ。これを短く書くのが総和記号 Σ(シグマ)です。3 級以降の教科書ではほぼ全ページに登場するので、見た目に慣れておきましょう。

Σ の基本

定義 ─ 総和記号

$\sum_{i = 1}^{n} x_{i} = x_{1} + x_{2} + x_{3} + \dots + x_{n}$

「 $i$ を $1$ から $n$ まで動かして $x_{i}$ を足し上げる」と読む。 $i$ は添字(ダミー変数)で、 $j$ や $k$ でも意味は同じ。

例題 2.1

$\sum_{i = 1}^{4} i$ を計算せよ。

解 : $1 + 2 + 3 + 4 = 10$ 。「 $i$ に $1, 2, 3, 4$ を順に代入して足す」。

Σ の便利な公式

公式 ─ Σ の和の公式

$1$ から $n$ までの和:

$\sum_{i = 1}^{n} i = \frac{n ( n + 1 )}{2}$

2 乗の和:

$\sum_{i = 1}^{n} i^{2} = \frac{n ( n + 1 ) ( 2 n + 1 )}{6}$

定数 $c$ の和:

$\sum_{i = 1}^{n} c = n c$

定数倍の取り出し:

$\sum_{i = 1}^{n} c x_{i} = c \sum_{i = 1}^{n} x_{i}$

和の和(線型性):

$\sum_{i = 1}^{n} (x_{i} + y_{i}) = \sum_{i = 1}^{n} x_{i} + \sum_{i = 1}^{n} y_{i}$

例題 2.2

$\sum_{i = 1}^{10} i$ を求めよ。

解 : 公式より $\frac{10 \times 11}{2} = 55$ 。

統計での典型的な使い方

統計の式で Σ がどう使われているか、代表的なものを 3 つ。

標本平均: $\overset{x}{ˉ} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}$ ─ 全部足して個数で割る
標本分散: $s^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \overset{x}{ˉ})^{2}$ ─ 偏差の 2 乗の平均
期待値: $E [X] = \sum_{i} x_{i} P (X = x_{i})$ ─ 値 × 確率の和

添字の範囲を省略する慣例

文脈から添字の範囲が明らかなときは、上下を省略して $\sum x_{i}$ と書くことがあります。「全部の $i$ について足す」と暗黙に解釈される、と覚えましょう。Σ を見たら、まず「何を足しているか / 添字はどう動くか」を頭で展開するクセをつけると、複雑な式も読み解けるようになります。

Σ は『for ループ』

プログラミングを知っているなら、 $\sum_{i = 1}^{n} x_{i}$ は次の for ループに対応します:`total = 0; for i in 1..n: total += x[i]`。Σ の上に書く $n$ がループの上限、下に書く $i = 1$ がループ変数の初期値、右にある $x_{i}$ がループの中身です。「数学の記号」と身構えず、コードを読むつもりで眺めるとスッと入ります。

§2.2

指数と対数

対数(ログ) は指数の逆向きの操作。「 $2$ を何回掛けたら $8$ になる?」という問いの答えが対数です。最尤推定、情報量、複利計算、地震のマグニチュードなど、応用が非常に広い概念。

対数の定義

定義 ─ 対数

$a > 0, a \neq = 1, M > 0$ のとき、 $lo g_{a} M = N$ とは $a^{N} = M$ を意味する。

( $a$ を底、 $M$ を真数、 $N$ を対数の値という)

対数は『桁数を測る道具』

$lo g_{10} 1000 = 3$ 、 $lo g_{10} 100000 = 5$ ─ つまり常用対数は『数の桁数(マイナス 1)』を返します。だから所得・地震の規模・音の大きさ・pH のように『桁が大きく違う量』を扱うとき、対数を取ると比較しやすくなる。地震のマグニチュード(M7 と M8 の違い=エネルギー 32 倍差)や音圧のデシベル(20 dB ≒ 10 倍)は、すべて対数スケールです。

例題 2.3

次を計算せよ:

(1) $lo g_{2} 8 = ?$

(2) $lo g_{10} 1000 = ?$

解 :

(1) $2^{3} = 8$ なので $lo g_{2} 8 = 3$ 。

(2) $1 0^{3} = 1000$ なので $lo g_{10} 1000 = 3$ 。

対数の性質

公式 ─ 対数法則

$M, N > 0$ 、 $r$ は実数、 $a > 0, a \neq = 1$ のとき:

- $lo g_{a} (M N) = lo g_{a} M + lo g_{a} N$ (積 → 和) - $lo g_{a} (M / N) = lo g_{a} M - lo g_{a} N$ (商 → 差) - $lo g_{a} M^{r} = r lo g_{a} M$ (累乗 → 係数倍) - $lo g_{a} 1 = 0, lo g_{a} a = 1$ - 底の変換公式: $lo g_{a} M = \frac{lo g _{b} M}{lo g _{b} a}$

底による分類

常用対数 $lo g_{10}$ : 底が 10。日常的な計算・情報量(ビット)で使う
自然対数 $ln$ または $lo g_{e}$ : 底が $e$ (ネイピア数 $\approx 2.718$ )。微積分・統計理論で標準
二進対数 $lo g_{2}$ : 底が 2。情報量・コンピュータサイエンスで使う

ネイピア数 $e$

定義 ─ $e$

$e = lim_{n \to \infty} (1 + \frac{1}{n})^{n} \approx 2.71828 \dots$

微積分でもっとも自然に現れる無理数。 $e^{x}$ は微分しても $e^{x}$ のまま、というユニークな性質をもつ。

統計でなぜ対数を使うか

最尤推定: 尤度関数 $L (θ) = \prod f (x_{i}; θ)$ の対数 $lo g L$ を最大化する。積 → 和に変えて微分しやすくするため
指数分布・正規分布など: 確率密度関数の形に $e$ が含まれる
情報量: $H (X) = - \sum p_{i} lo g_{2} p_{i}$ (エントロピー)
ロジスティック回帰: $lo g (p / (1 - p))$ を線形回帰でモデル化
桁数を圧縮: 大きな数を小さな数に変換できる(例: 売上 $1 0^{8}$ 円 → $lo g_{10} = 8$ )

例題 2.4 ─ 統計での典型計算

$lo g (x^{2} / y) = ?$

解 : $lo g x^{2} - lo g y = 2 lo g x - lo g y$ 。「累乗 → 係数」「商 → 差」を使う。

対数は最初は取っつきにくいですが、性質を 5 つ覚えれば応用は機械的にできます。3 級では「式を読めれば OK」、2 級以降では「自分で計算する」レベルに引き上げていきましょう。

Chapter 3

第 3 章 · 微分積分の入口

§3.1

微分の意味と基本公式

微分は、関数の「変化の速さ」を測る道具です。統計学では「最尤推定で $\partial lo g L / \partial θ = 0$ を解く」ような場面で必ず登場します。本節では、微分の 意味の感覚 と 最低限覚える公式 4 つ を整理します。

微分とは何か ─ 直感的な意味

「車の位置を時刻で微分すると速度になる」と言われるように、微分は「ある瞬間の変化の速さ」を表します。

数式で言えば、 $x$ が少しだけ変化したときに $f (x)$ がどれだけ変わるか ─ その「変化の比」を、変化幅を限りなく小さくしていったときの極限で定義します。

定義 ─ 微分(微分係数)

関数 $y = f (x)$ の $x$ における微分(導関数)を

$f^{'} (x) = \frac{d y}{d x} = lim_{h \to 0} \frac{f ( x + h ) - f ( x )}{h}$

で定義する。 $f^{'} (x)$ はその点での 接線の傾き に等しい。

統計でいう微分=『最大値を探す道具』

統計で微分が出てくるほぼすべての場面は『何かを最大化する』ためです。最尤推定なら尤度を最大化、最小二乗法なら誤差の 2 乗和を最小化、ロジスティック回帰の収束点を求めるのも全て微分。「山頂は傾きがゼロ」という幾何学的事実(= $f^{'} (θ) = 0$ )を使うことで、最大値の場所を式で求めるのが微分の最大の使いどころです。

微分の基本公式(最低限の 4 つ)

公式 ─ 微分の基本

1. 累乗の微分: $\frac{d}{d x} x^{n} = n x^{n - 1}$

2. 定数の微分: $\frac{d}{d x} c = 0$ ( $c$ は定数)

3. 線型性: $\frac{d}{d x} (a f (x) + b g (x)) = a f^{'} (x) + b g^{'} (x)$

4. 指数・対数(自然対数): $\frac{d}{d x} e^{x} = e^{x}, \frac{d}{d x} lo g x = \frac{1}{x}$

例題 3.1

次を $x$ で微分せよ:

(1) $f (x) = x^{3}$

(2) $g (x) = 5 x^{2} + 3 x - 7$

解 :

(1) $f^{'} (x) = 3 x^{2}$ 。「指数を前に出して、指数を 1 減らす」。

(2) $g^{'} (x) = 5 \cdot 2 x + 3 \cdot 1 - 0 = 10 x + 3$ 。線型性で項ごとに微分。

「微分 = 0」の意味 ─ 統計で頻出の場面

関数の極値(最大値・最小値)では、必ず接線が水平になる ─ つまり微分が $0$ になります。

$f^{'} (x) > 0$ : グラフは右上がり(増加中)
$f^{'} (x) = 0$ : 接線が水平 ─ 山頂(極大)or 谷底(極小)or 屈曲点
$f^{'} (x) < 0$ : グラフは右下がり(減少中)

統計での使い場面 ─ 最尤推定

1 級のキー定理 ─ 最尤推定 は、まさに「対数尤度を最大化するパラメータを探す」操作。具体的には次のステップ:

対数尤度関数 $lo g L (θ)$ を $θ$ で微分
$\frac{d}{d θ} lo g L (θ) = 0$ の方程式を解く(スコア方程式)
得られた $\hat{θ}$ が最尤推定量

例 ─ ベルヌーイ分布の MLE

コインの表確率 $θ$ を、 $n$ 回中 $k$ 回表が出たデータから推定したい。

対数尤度 $lo g L (θ) = k lo g θ + (n - k) lo g (1 - θ)$

微分: $\frac{d}{d θ} lo g L = \frac{k}{θ} - \frac{n - k}{1 - θ}$

これを 0 とおいて解くと $\hat{θ} = k / n$ ─「成功した割合」が最尤推定量、という直感的な結果になる。

微分の道具を持っていると、こうした「最も自然な推定量」が機械的に導けます。準1級・1級では避けて通れない技なので、最低限の 4 公式は必ず手で動かせるようにしておきましょう。

§3.2

積分の意味と基本

積分は、関数の「累積した量(面積)」を求める道具。微分の逆向きの操作とも言えます。統計学では 連続確率変数の確率計算(密度関数の面積)で必須となる概念です。

積分とは何か ─ 面積を求める

関数 $y = f (x)$ のグラフと $x$ 軸で囲まれた、 $x = a$ から $x = b$ までの面積を、

\int_{a}^{b} f (x) d x

と書きます(「 $a$ から $b$ までの $f (x)$ の積分」と読む)。 $d x$ は「 $x$ の小さな幅」を表す記号で、「小さな短冊の面積を足し合わせていく」というイメージです。

微分と積分の関係(微積分の基本定理)

定理 ─ 微積分の基本定理

$F^{'} (x) = f (x)$ となる関数 $F (x)$ を 原始関数 とすると、

$\int_{a}^{b} f (x) d x = F (b) - F (a)$

つまり、「原始関数を求めて、上端の値から下端の値を引く」 で定積分が計算できる。

積分の基本公式

公式 ─ 不定積分の基本

( $C$ は積分定数)

累乗: $\int x^{n} d x = \frac{x ^{n + 1}}{n + 1} + C$ ( $n \neq = - 1$ )

定数: $\int c d x = c x + C$

指数・対数: $\int e^{x} d x = e^{x} + C, \int \frac{1}{x} d x = lo g ∣ x ∣ + C$

線型性: $\int (a f + b g) d x = a \int f d x + b \int g d x$

例題 3.2

$\int_{0}^{2} 3 x^{2} d x$ を計算せよ。

解 : 原始関数は $x^{3}$ 。 $\int_{0}^{2} 3 x^{2} d x = [x^{3}]_{0}^{2} = 2^{3} - 0^{3} = 8$ 。

統計での使い場面 ─ 連続分布の確率

離散確率変数では「特定の値をとる確率」を $P (X = k)$ と表せましたが、連続確率変数では 「ぴったりこの値」となる確率は 0(密度関数なので)。代わりに、ある区間に入る確率は密度関数の積分で計算します。

公式 ─ 連続確率変数の確率

確率密度関数 $f (x)$ をもつ連続確率変数 $X$ について、

$P (a \leq X \leq b) = \int_{a}^{b} f (x) d x$

全空間での積分は必ず $1$ :

$\int_{- \infty}^{\infty} f (x) d x = 1$

例 3.3 ─ 指数分布の確率

$X \sim Exp (1)$ (密度 $f (x) = e^{- x}, x \geq 0$ )のとき、 $P (X \leq 1)$ を求めよ。

解 : $\int_{0}^{1} e^{- x} d x = [- e^{- x}]_{0}^{1} = - e^{- 1} + 1 = 1 - 1/ e \approx 0.632$ 。

「区間で確率」の重要な性質

$P (X = c) = 0$ (連続変数は「ぴったり」の確率が常に 0)
$P (a < X < b) = P (a \leq X \leq b)$ (端点の有無は無関係)
累積分布関数 $F (x) = \int_{- \infty}^{x} f (t) d t$ ─「 $x$ 以下の確率」を表す関数
$P (X > x) = 1 - F (x)$ ─ 余事象を使った計算

統計検定 2 級では「正規分布の値が $μ \pm σ$ の範囲に入る確率は $\approx 68%$ 」のような結果を暗記で済ませますが、その背景には密度関数の積分があります。準 1 級・1 級では実際に積分を計算する場面が出てきます。

Chapter 4

第 4 章 · 線形代数の基礎

§4.1

ベクトルと内積

ベクトル は「向きと大きさ」を持つ量。多変量データを扱う統計学では、データ 1 件をベクトルとして表します。本節では、ベクトルの基本的な演算と、統計学でとくに重要な内積の意味を整理します。

ベクトルの定義

定義 ─ ベクトル

$n$ 個の数を縦に並べたものを $n$ 次元ベクトルといい、 $x = x_{1} x_{2} ⋮ x_{n}$ のように書く。

統計学では「ある 1 人の身長・体重・年齢」のように、複数の特徴をまとめた データ 1 件 をベクトルとして扱う。

和・スカラー倍

公式 ─ ベクトルの基本演算

和: 同じ次元のベクトルどうしを成分ごとに足す:

$(12) + (34) = (46)$

スカラー倍: 各成分に同じ数を掛ける:

$3 \cdot (12) = (36)$

内積(ドット積)

定義 ─ 内積

2 つの $n$ 次元ベクトル $x, y$ の内積を

$x \cdot y = x^{⊤} y = \sum_{i = 1}^{n} x_{i} y_{i}$

で定義する。結果は スカラー(数)。

例題 4.1

$x = (1, 2, 3), y = (4, 5, 6)$ の内積を計算せよ。

解 : $1 \cdot 4 + 2 \cdot 5 + 3 \cdot 6 = 4 + 10 + 18 = 32$ 。

ノルム ─ ベクトルの「長さ」

定義 ─ ノルム

ベクトル $x$ のノルム(L² ノルム)を

$∥ x ∥ = x \cdot x = \sum x_{i}^{2}$

で定義する。「原点から $x$ までの距離」。

内積の幾何的意味

公式 ─ 内積と角度

ベクトル $x, y$ がなす角を $θ$ とすると、

$x \cdot y = ∥ x ∥ ∥ y ∥ cos θ$

したがって $cos θ = \frac{x \cdot y}{∥ x ∥ ∥ y ∥}$

統計での使い場面 ─ 相関係数の幾何的解釈

実は 相関係数 $r$ は、平均を引いた 2 つのデータベクトルの「内積を長さで割った値」(= cos θ) に等しいんです。

性質 ─ 相関係数 = cos θ

データ $x = (x_{1}, \dots, x_{n})$ , $y = (y_{1}, \dots, y_{n})$ について、平均を引いたベクトル $x^{'} = x - \overset{x}{ˉ} 1$ , $y^{'} = y - \overset{y}{ˉ} 1$ とすると:

$r_{x y} = \frac{x ^{'} \cdot y ^{'}}{∥ x ^{'} ∥ ∥ y ^{'} ∥} = cos θ$

「相関係数が $- 1 \leq r \leq 1$ に収まる」のは「コサインが $- 1 \leq cos θ \leq 1$ に収まる」から、と幾何的に理解できます。これがベクトルの威力 ─ 統計の式が幾何的に「見える」ようになる、というメリットです。

§4.2

行列の基本

行列(matrix)はベクトルを縦横に並べたもの。データ全体を行列で表すことで、複数のデータをまとめて一気に処理できます。準1級・1級の 重回帰・PCA・多変量正規分布 などでは、行列なしでは式を書くことすらできません。

行列の定義

定義 ─ 行列

$m$ 行 $n$ 列の長方形に並べた数の表を $m \times n$ 行列 という。一般に

$A = a_{11} a_{21} ⋮ a_{m 1} a_{12} a_{22} a_{m 2} \dots \dots \dots a_{1 n} a_{2 n} ⋮ a_{mn}$

と書く。 $a_{ij}$ は「 $i$ 行 $j$ 列の要素」。

統計でデータを扱うときは、行 = データ 1 件、列 = 1 つの特徴(身長・体重など) とするのが標準。 $n$ 人 × $p$ 特徴のデータは $n \times p$ 行列で表せます。

行列は『変換装置』

ベクトルが『矢印』なら、行列は『矢印を別の矢印に変える装置』です。例えば 90 度回転・引き伸ばし・斜めにつぶす ─ こうした幾何学的操作はすべて行列で表現できます。重回帰の $\hat{β} = (X^{⊤} X)^{- 1} X^{⊤} y$ も、データ行列 $X$ という『装置』を使って $y$ を係数ベクトルに変換する、という幾何学的操作。機械学習の内部はほぼすべて行列演算 ─ 行列の感覚を持つかどうかが、後続の学習の質を大きく左右します。

行列の積

定義 ─ 行列の積

$m \times k$ 行列 $A$ と $k \times n$ 行列 $B$ の積 $A B$ は $m \times n$ 行列で、 $(i, j)$ 成分は

$(A B)_{ij} = \sum_{l = 1}^{k} a_{i l} b_{l j}$

つまり「 $A$ の $i$ 行ベクトルと $B$ の $j$ 列ベクトルの内積」。

注意: $A$ の列数と $B$ の行数が一致しないと積は計算できません。また、 $A B \neq = B A$ が一般に成立(可換でない)。

単位行列と逆行列

用語 ─ 単位行列と逆行列

単位行列 $I$ : 対角成分が $1$ 、それ以外は $0$ の正方行列。 $A I = I A = A$ を満たす(掛け算の「 $1$ 」)。

逆行列 $A^{- 1}$ : $A A^{- 1} = A^{- 1} A = I$ を満たす行列。逆行列が存在する正方行列を正則という。

「逆行列がない」(= 行列式が 0)ような行列は、列同士に 線形従属 がある状態。重回帰モデルでは、説明変数間に強い相関があると $X^{⊤} X$ が逆行列を持ちにくくなり、推定が不安定になる ─ いわゆる 多重共線性 の問題です。

転置・対称行列

用語 ─ 転置・対称行列

転置 $A^{⊤}$ : 行と列を入れ替えた行列。 $(A^{⊤})_{ij} = A_{j i}$ 。

対称行列: $A^{⊤} = A$ を満たす行列(対角線で折り返したときに同じ)。分散共分散行列 や 相関行列 はすべて対称行列。

統計での使い場面 ─ 重回帰の正規方程式

重回帰モデル $y = X β + ε$ の最小二乗推定量は、

\hat{β} = (X^{⊤} X)^{- 1} X^{⊤} y

という、行列の積と逆行列だけ で書ける美しい形になります。スカラーの式 $\hat{β} = s_{x y} / s_{x}^{2}$ (単回帰)と本質は同じ ─ 「分子 ÷ 分母」 ─ ですが、行列で書くことで一般の説明変数の数に拡張できます。

固有値・固有ベクトル(さわり)

定義 ─ 固有値と固有ベクトル

正方行列 $A$ について、 $A v = λ v$ を満たすスカラー $λ$ を 固有値、ベクトル $v \neq = 0$ を 固有ベクトル という。

主成分分析(PCA) は分散共分散行列 $Σ$ の固有値分解を行い、固有ベクトルを「主成分の方向」、固有値を「その方向の分散」として使います。固有値・固有ベクトルは線形代数の本格的な道具で、本格的な学習は専門書をどうぞ。本サイト準1級教科書の[主成分分析の節](/textbook/grade-pre1#ch3-sec3)では、概念面の解説をしています。

ここまでで「統計のための数学基礎」全 4 章の主要部分が出そろいました。割合・Σ・対数・微分積分・ベクトル・行列 ─ これらが手元にあれば、統計検定の式は怖くなくなります。あとは個々の式と意味を、各級の教科書で深く学んでいきましょう。

目次