本文へスキップ
統計ロードマップ
Textbook

統計のための数学基礎

統計学を学ぶうえで前提となる数学の道具を、最小限・実用本位でまとめた補助教材です。3 級以降で必須の総和記号 Σ・指数と対数、準1級以降で必須の微分積分・線形代数 ─ 「思い出す」「初めて触れる」のどちらにも使えるよう、簡潔に整理します。統計検定本体の章でつまずいたとき、ここに戻ってきて確認するのに使ってください。

目次

  1. 1 章 · 数と式の復習
    割合・百分率・指数表記など、算数〜中学数学レベルで押さえておきたい基礎を確認します。
  2. 2 章 · 代数の道具
    総和記号 Σ と、指数・対数 ─ 3 級以降で必須となる代数の道具を整理します。
  3. 3 章 · 微分積分の入口
    2 級以降の理論的話題で必須となる微分・積分の感覚を、数式に頼りすぎず整理します。
  4. 4 章 · 線形代数の基礎
    準1級以降の重回帰・主成分分析・多変量正規分布で必要なベクトル・行列の基本。
  5. 5 章 · 確率の数学 ─ 確率変数・期待値・分散
    統計学の心臓部となる『確率変数』の扱い方。期待値・分散の計算ルールと、よく使う離散・連続分布の数式を整理。
  6. 6 章 · 多変数の微分 ─ 偏微分と勾配
    機械学習・深層学習で必須の『偏微分』『勾配ベクトル』『連鎖律』を整理。最適化の数学的背景。
  7. 7 章 · 線形代数の発展 ─ 固有値・対角化・SVD
    Ch4 で行列の基本を学んだ後、ここでは固有値分解と特異値分解(SVD)を扱います。これは PCA・推薦システム・ニューラルネットの理解に直結する、AI/ML の中核数学です。
  8. 8 章 · 数値計算と数値解析の基礎
    コンピュータで統計計算を行うときの誤差・反復解法・モンテカルロ法。AI / ML の実装で前提となる数値感覚を養います。
  9. 9 章 · 情報理論の基礎 ─ エントロピー・KL・相互情報量
    確率と情報を結ぶ理論。機械学習の損失関数・モデル選択・通信の数学的基盤。
  10. 10 章 · 凸最適化と機械学習の最適化
    凸関数・凸集合・KKT 条件・SGD・Adam ─ 機械学習で動くアルゴリズムの数学的根拠。
  11. 11 章 · グラフ理論とスペクトラルグラフ ─ ネットワーク AI の数学
    ノード・エッジ・隣接行列・ラプラシアン行列・スペクトラルクラスタリング・GNN の数学的基盤を 3 節で。
Chapter 1

1 章 · 数と式の復習


§1.1

割合・百分率・歩合 ─ 同じことの違う表現

統計学はあらゆる場面で「割合」を扱います。「サイコロで偶数が出る確率」「標本のうちアンケートに答えた人の比率」「合格率」「失業率」 ─ どれも形式は割合です。本節ではまず、割合の 3 つの表現(割合・百分率・歩合)を整理します。

割合の基本式

定義 ─ 割合

割合 = 比べる量 ÷ もとにする量

「もとにする量」を 1 としたとき、「比べる量」が何倍にあたるかを表す数。 から (またはそれ以上)の小数になる。

例 1.1

全校生徒 200 人のうち、男子が 120 人。男子の割合は?

: 。「男子は全体の 0.6 倍」という意味。

百分率(%)

定義 ─ 百分率

百分率 = 割合 × 100(%)

割合を 100 倍した値。「100 のうちいくつぶんか」を直感的に表す。

上の例 1.1 で、男子の割合 を百分率にすると 。「男子は全体の 60% を占める」と読める。

歩合(割・分・厘)

野球の打率や金利でよく使う表記。「3 割 2 分」「年利 5 厘」のような形。

  • 1 割 = 0.1 = 10%
  • 1 分 = 0.01 = 1%
  • 1 厘 = 0.001 = 0.1%
例 1.2

打率 の選手。歩合と百分率で言い直すと?

: 「3 割 2 分 5 厘」、または「」。

増加率・減少率の計算

公式 ─ 変化率

変化率 = (変化後の値 − 変化前の値) ÷ 変化前の値

増えていれば正、減っていれば負。 すれば %。

例 1.3 ─ 値上げの計算

円のおかしが 円に値上げされた。値上げ率は?

:

統計のニュースで「物価が前年比 +3.2% 上昇」「失業率が 0.1 ポイント低下」のような表現を見ます。「率」と「ポイント」の違い に注意 ─ 失業率が 5.0% から 4.9% になったとき、減少幅は 「0.1 ポイント」(ポイント差)、減少率は 「2%」(0.1/5.0)。混同しやすいので、ニュースを読むときは意識してみましょう。

実務での使い方:KPI レポートでの罠

事業レポートで「コンバージョン率が 2.0% から 2.4% に上がりました」と書くとき、「+0.4 ポイント」と「+20% の改善」のどちらの表現も正しいのですが、印象は大きく異なります。社内向けなら『ポイント差』の控えめな表現、外部向けプレゼンなら『相対的な改善率』の派手な表現と、目的に応じて選び分けるのが実務の使いどころ。読み手としては『どちらの定義で語っているか』を必ず確認するクセが必要です。

§1.2

指数表記と科学記法 ─ 大きい数・小さい数を扱う

「日本の人口 約 1.24 億人」「光の速さ 約 3 × 10^8 m/s」 ─ 統計や科学では大きな数や小さな数が頻繁に登場します。これらを効率よく扱うのが指数表記と科学記法です。

指数(累乗)の基本

定義 ─ 累乗

( 回掛け合わせる)という形を 累乗 といい、 を底、 を指数(べき)という。

例:

指数法則(暗記必須)

公式 ─ 指数法則

は実数(底)、 は整数(指数)。

- (掛け算 → 指数を足す) - (割り算 → 指数を引く) - (累乗の累乗 → 指数を掛ける) - (積の累乗 → それぞれの累乗の積) - (、約束) - (マイナスの指数 → 逆数)

例題 1.4

次を計算せよ:

: 指数法則より

科学記法(指数表記)

定義 ─ 科学記法

数を (1 以上 10 未満の数)× の形で書く方法。 のように記す。 が正なら大きな数、負なら小さな数。

  • (千)
  • (万)
  • (百万)
  • (億)
  • (マイクロ)
例題 1.5 ─ 数を科学記法で書く

次を科学記法で表せ:

(1)

(2)

なぜ統計で使うか

統計学では、「とても小さな確率」(p 値)や「とても大きな数」(母集団サイズ)を扱う場面が頻繁にあります。例: と書けば一目瞭然。電卓やプログラミング言語の出力でも科学記法(`2.1e-6` のような表記)が標準です。

Chapter 2

2 章 · 代数の道具


§2.1

総和記号 Σ の使い方

「データ を全部足す」 ─ 統計学で最も頻繁に使う操作のひとつ。これを短く書くのが総和記号 Σ(シグマ)です。3 級以降の教科書ではほぼ全ページに登場するので、見た目に慣れておきましょう。

Σ の基本

定義 ─ 総和記号

から まで動かして を足し上げる」と読む。添字(ダミー変数)で、 でも意味は同じ。

例題 2.1

を計算せよ。

: 。「 を順に代入して足す」。

Σ の便利な公式

公式 ─ Σ の和の公式

から までの和:

2 乗の和:

定数 の和:

定数倍の取り出し:

和の和(線型性):

例題 2.2

を求めよ。

: 公式より

統計での典型的な使い方

統計の式で Σ がどう使われているか、代表的なものを 3 つ。

  • 標本平均: ─ 全部足して個数で割る
  • 標本分散: ─ 偏差の 2 乗の平均
  • 期待値: ─ 値 × 確率の和

添字の範囲を省略する慣例

文脈から添字の範囲が明らかなときは、上下を省略して と書くことがあります。「全部の について足す」と暗黙に解釈される、と覚えましょう。Σ を見たら、まず「何を足しているか / 添字はどう動くか」を頭で展開するクセをつけると、複雑な式も読み解けるようになります。

Σ は『for ループ』

プログラミングを知っているなら、 は次の for ループに対応します:`total = 0; for i in 1..n: total += x[i]`。Σ の上に書く がループの上限、下に書く がループ変数の初期値、右にある がループの中身です。「数学の記号」と身構えず、コードを読むつもりで眺めるとスッと入ります。

§2.2

指数と対数

対数(ログ) は指数の逆向きの操作。「 を何回掛けたら になる?」という問いの答えが対数です。最尤推定、情報量、複利計算、地震のマグニチュードなど、応用が非常に広い概念。

対数の定義

定義 ─ 対数

のとき、 とは を意味する。

( を底、 を真数、 を対数の値という)

対数は『桁数を測る道具』

─ つまり常用対数は『数の桁数(マイナス 1)』を返します。だから所得・地震の規模・音の大きさ・pH のように『桁が大きく違う量』を扱うとき、対数を取ると比較しやすくなる。地震のマグニチュード(M7 と M8 の違い=エネルギー 32 倍差)や音圧のデシベル(20 dB ≒ 10 倍)は、すべて対数スケールです。

例題 2.3

次を計算せよ:

(1)

(2)

:

(1) なので

(2) なので

対数の性質

公式 ─ 対数法則

は実数、 のとき:

- (積 → 和) - (商 → 差) - (累乗 → 係数倍) - - 底の変換公式:

底による分類

  • 常用対数 : 底が 10。日常的な計算・情報量(ビット)で使う
  • 自然対数 または : 底が (ネイピア数 )。微積分・統計理論で標準
  • 二進対数 : 底が 2。情報量・コンピュータサイエンスで使う

ネイピア数 $e$

定義 ─ $e$

微積分でもっとも自然に現れる無理数。 は微分しても のまま、というユニークな性質をもつ。

統計でなぜ対数を使うか

  • 最尤推定: 尤度関数 の対数 を最大化する。積 → 和に変えて微分しやすくするため
  • 指数分布・正規分布など: 確率密度関数の形に が含まれる
  • 情報量: (エントロピー)
  • ロジスティック回帰: を線形回帰でモデル化
  • 桁数を圧縮: 大きな数を小さな数に変換できる(例: 売上 円 → )
例題 2.4 ─ 統計での典型計算

: 。「累乗 → 係数」「商 → 差」を使う。

対数は最初は取っつきにくいですが、性質を 5 つ覚えれば応用は機械的にできます。3 級では「式を読めれば OK」、2 級以降では「自分で計算する」レベルに引き上げていきましょう。

Chapter 3

3 章 · 微分積分の入口


§3.1

微分の意味と基本公式

微分 は、関数の「変化の速さ」を測る道具です。統計学では「最尤推定で を解く」ような場面で必ず登場します。本節では、微分の 意味の感覚最低限覚える公式 4 つ を整理します。

微分とは何か ─ 直感的な意味

「車の位置を時刻で微分すると速度になる」と言われるように、微分は「ある瞬間の変化の速さ」を表します。

数式で言えば、 が少しだけ変化したときに がどれだけ変わるか ─ その「変化の比」を、変化幅を限りなく小さくしていったときの極限で定義します。

定義 ─ 微分(微分係数)

関数 における微分(導関数)を

で定義する。 はその点での 接線の傾き に等しい。

統計でいう微分=『最大値を探す道具』

統計で微分が出てくるほぼすべての場面は『何かを最大化する』ためです。最尤推定なら尤度を最大化、最小二乗法なら誤差の 2 乗和を最小化、ロジスティック回帰の収束点を求めるのも全て微分。「山頂は傾きがゼロ」という幾何学的事実(=)を使うことで、最大値の場所を式で求めるのが微分の最大の使いどころです。

微分の基本公式(最低限の 4 つ)

公式 ─ 微分の基本

1. 累乗の微分:

2. 定数の微分: ( は定数)

3. 線型性:

4. 指数・対数(自然対数):

例題 3.1

次を で微分せよ:

(1)

(2)

:

(1) 。「指数を前に出して、指数を 1 減らす」。

(2) 。線型性で項ごとに微分。

「微分 = 0」の意味 ─ 統計で頻出の場面

関数の 極値(最大値・最小値)では、必ず接線が水平になる ─ つまり微分が になります。

  • : グラフは右上がり(増加中)
  • : 接線が水平 ─ 山頂(極大)or 谷底(極小)or 屈曲点
  • : グラフは右下がり(減少中)

統計での使い場面 ─ 最尤推定

1 級のキー定理 ─ 最尤推定 は、まさに「対数尤度を最大化するパラメータを探す」操作。具体的には次のステップ:

  1. 対数尤度関数 で微分
  2. の方程式を解く(スコア方程式)
  3. 得られた が最尤推定量
例 ─ ベルヌーイ分布の MLE

コインの表確率 を、 回中 回表が出たデータから推定したい。

対数尤度

微分:

これを 0 とおいて解くと ─「成功した割合」が最尤推定量、という直感的な結果になる。

微分の道具を持っていると、こうした「最も自然な推定量」が機械的に導けます。準1級・1級では避けて通れない技なので、最低限の 4 公式は必ず手で動かせるようにしておきましょう。

§3.2

積分の意味と基本

積分 は、関数の「累積した量(面積)」を求める道具。微分の逆向きの操作とも言えます。統計学では 連続確率変数の確率計算(密度関数の面積)で必須となる概念です。

積分とは何か ─ 面積を求める

関数 のグラフと 軸 で囲まれた、 から までの 面積 を、

と書きます(「 から までの の積分」と読む)。 は「 の小さな幅」を表す記号で、「小さな短冊の面積を足し合わせていく」というイメージです。

微分と積分の関係(微積分の基本定理)

定理 ─ 微積分の基本定理

となる関数 原始関数 とすると、

つまり、「原始関数を求めて、上端の値から下端の値を引く」 で定積分が計算できる。

積分の基本公式

公式 ─ 不定積分の基本

( は積分定数)

累乗: ()

定数:

指数・対数:

線型性:

例題 3.2

を計算せよ。

: 原始関数は

統計での使い場面 ─ 連続分布の確率

離散確率変数では「特定の値をとる確率」を と表せましたが、連続確率変数では 「ぴったりこの値」となる確率は 0(密度関数なので)。代わりに、ある区間に入る確率は密度関数の積分で計算します。

公式 ─ 連続確率変数の確率

確率密度関数 をもつ連続確率変数 について、

全空間での積分は必ず :

例 3.3 ─ 指数分布の確率

(密度 )のとき、 を求めよ。

:

「区間で確率」の重要な性質

  • (連続変数は「ぴったり」の確率が常に 0)
  • (端点の有無は無関係)
  • 累積分布関数 ─「 以下の確率」を表す関数
  • ─ 余事象を使った計算

統計検定 2 級では「正規分布の値が の範囲に入る確率は 」のような結果を 暗記 で済ませますが、その背景には密度関数の積分があります。準 1 級・1 級では実際に積分を計算する場面が出てきます。

Chapter 4

4 章 · 線形代数の基礎


§4.1

ベクトルと内積

ベクトル は「向きと大きさ」を持つ量。多変量データを扱う統計学では、データ 1 件をベクトルとして表します。本節では、ベクトルの基本的な演算と、統計学でとくに重要な 内積 の意味を整理します。

ベクトルの定義

定義 ─ ベクトル

個の数を縦に並べたものを 次元ベクトルといい、 のように書く。

統計学では「ある 1 人の身長・体重・年齢」のように、複数の特徴をまとめた データ 1 件 をベクトルとして扱う。

和・スカラー倍

公式 ─ ベクトルの基本演算

: 同じ次元のベクトルどうしを成分ごとに足す:

スカラー倍: 各成分に同じ数を掛ける:

内積(ドット積)

定義 ─ 内積

2 つの 次元ベクトル の内積を

で定義する。結果は スカラー(数)

例題 4.1

の内積を計算せよ。

:

ノルム ─ ベクトルの「長さ」

定義 ─ ノルム

ベクトル のノルム(L² ノルム)を

で定義する。「原点から までの距離」。

内積の幾何的意味

公式 ─ 内積と角度

ベクトル がなす角を とすると、

したがって

統計での使い場面 ─ 相関係数の幾何的解釈

実は 相関係数 は、平均を引いた 2 つのデータベクトルの「内積を長さで割った値」(= cos θ) に等しいんです。

性質 ─ 相関係数 = cos θ

データ , について、平均を引いたベクトル , とすると:

「相関係数が に収まる」のは「コサインが に収まる」から、と幾何的に理解できます。これがベクトルの威力 ─ 統計の式が幾何的に「見える」ようになる、というメリットです。

§4.2

行列の基本

行列(matrix)はベクトルを縦横に並べたもの。データ全体を行列で表すことで、複数のデータをまとめて一気に処理できます。準1級・1級の 重回帰・PCA・多変量正規分布 などでは、行列なしでは式を書くことすらできません。

行列の定義

定義 ─ 行列

列の長方形に並べた数の表を 行列 という。一般に

と書く。 は「 列の要素」。

統計でデータを扱うときは、行 = データ 1 件列 = 1 つの特徴(身長・体重など) とするのが標準。 人 × 特徴のデータは 行列で表せます。

行列は『変換装置』

ベクトルが『矢印』なら、行列は『矢印を別の矢印に変える装置』です。例えば 90 度回転・引き伸ばし・斜めにつぶす ─ こうした幾何学的操作はすべて行列で表現できます。重回帰の も、データ行列 という『装置』を使って を係数ベクトルに変換する、という幾何学的操作。機械学習の内部はほぼすべて行列演算 ─ 行列の感覚を持つかどうかが、後続の学習の質を大きく左右します。

行列の積

定義 ─ 行列の積

行列 行列 の積 行列で、 成分は

つまり「 行ベクトルと 列ベクトルの内積」。

注意: 列数行数 が一致しないと積は計算できません。また、 が一般に成立(可換でない)。

単位行列と逆行列

用語 ─ 単位行列と逆行列

単位行列 : 対角成分が 、それ以外は の正方行列。 を満たす(掛け算の「」)。

逆行列 : を満たす行列。逆行列が存在する正方行列を 正則 という。

「逆行列がない」(= 行列式が 0)ような行列は、列同士に 線形従属 がある状態。重回帰モデルでは、説明変数間に強い相関があると が逆行列を持ちにくくなり、推定が不安定になる ─ いわゆる 多重共線性 の問題です。

転置・対称行列

用語 ─ 転置・対称行列

転置 : 行と列を入れ替えた行列。

対称行列: を満たす行列(対角線で折り返したときに同じ)。分散共分散行列相関行列 はすべて対称行列。

統計での使い場面 ─ 重回帰の正規方程式

重回帰モデル の最小二乗推定量は、

という、行列の積と逆行列だけ で書ける美しい形になります。スカラーの式 (単回帰)と本質は同じ ─ 「分子 ÷ 分母」 ─ ですが、行列で書くことで一般の説明変数の数に拡張できます。

固有値・固有ベクトル(さわり)

定義 ─ 固有値と固有ベクトル

正方行列 について、 を満たすスカラー 固有値、ベクトル 固有ベクトル という。

主成分分析(PCA) は分散共分散行列 の固有値分解を行い、固有ベクトルを「主成分の方向」、固有値を「その方向の分散」として使います。固有値・固有ベクトルは線形代数の本格的な道具で、本格的な学習は専門書をどうぞ。本サイト準1級教科書の[主成分分析の節](/textbook/grade-pre1#ch3-sec3)では、概念面の解説をしています。

ここまでで「統計のための数学基礎」前半 4 章が出そろいました。割合・Σ・対数・微分積分・ベクトル・行列 ─ これらが手元にあれば、統計検定の式は怖くなくなります。続く 2 章は応用的内容です。

Chapter 5

5 章 · 確率の数学 ─ 確率変数・期待値・分散


§5.1

確率変数と確率分布

確率変数(random variable) は、ランダムな現象の結果に 数値を割り当てる関数。例: サイコロを振る → 出た目を数字で表す → 確率変数

離散と連続

  • 離散確率変数: 取りうる値が飛び飛び(0, 1, 2, ...)。例: コイン投げの表回数
  • 連続確率変数: 取りうる値が実数全体や区間。例: 身長・気温

確率質量関数(PMF)と確率密度関数(PDF)

PMF と PDF

離散: 確率質量関数 。すべての の和は 1。

連続: 確率密度関数 特定の点での値ではなく区間の積分で確率を表す。

累積分布関数(CDF): 。離散も連続も統一的に定義可能。

💡 連続変数で『P(X = 5)』はゼロ?

連続変数では特定の 1 点に確率が貯まらない。あくまで のような区間で確率が定まる。だから連続では PDF(密度)を使い、面積で確率を表す。

§5.2

期待値と分散の計算

確率変数を要約する 2 つの基本量。期待値は『重心』、分散は『散らばり』。

期待値の定義

取りうる値 × その確率の和」という直感的な式。サイコロの期待値:

期待値の重要な性質

  • 線形性:
  • 和の期待値: (独立でなくても OK!)
  • 独立な積: (独立のときだけ)

分散の定義

期待値からのズレを 2 乗した平均。標準偏差は

分散の重要な性質

  • (定数 は影響しない、 は 2 乗で効く)
  • 独立変数の和: (独立のときだけ!)
  • 従属変数の和:
Python で確認
初回のみ Pyodide(~10MB)を CDN から読み込みます
§5.3

代表的な確率分布の式

統計でよく使う分布の PMF / PDF・期待値・分散 をまとめます。

二項分布 Bin(n, p)

ポアソン分布 Po(λ)

正規分布 N(μ, σ²)

指数分布 Exp(λ)

🛠 各分布の使い所

二項: コイン・A/B テスト・成功失敗 / ポアソン: 単位時間内の発生件数(電話・地震・スパムメール) / 正規: 多数の独立要因の和(身長・テスト点数) / 指数: 待ち時間・寿命

Chapter 6

6 章 · 多変数の微分 ─ 偏微分と勾配


§6.1

偏微分 ─ 1 変数だけ動かす

のような 複数変数 の関数の場合、『 について微分』『 について微分』のように 特定の変数だけ動かして 微分するのが 偏微分(partial derivative)

記号と計算

例: のとき

💡 偏微分の直感

山の地図を考える。東西方向の傾き(東に 1 歩進んだら何 m 上がる?)が 南北方向の傾き。山頂では両方とも 0(平ら)。

勾配ベクトル(Gradient)

全方向の傾きをまとめたベクトル

勾配の方向 = 関数が最も急速に増加する方向

勾配の逆向き = 最も急速に減少する方向(勾配降下法の基礎)

§6.2

連鎖律(Chain Rule)

合成関数の微分。深層学習の誤差逆伝播法はこれの応用。

1 変数の連鎖律

例: のとき、, と分けて、

多変数の連鎖律

💡 ニューラルネットの誤差逆伝播

ニューラルネットは『入力 → 線形変換 → 活性化 → 線形変換 → ... → 損失』という 長い合成関数。各重みに対する勾配は 連鎖律で連鎖的に計算 される。これが backpropagation の数学的本質。

ヘッセ行列(Hessian)─ 2 階偏微分の行列

曲率を表す行列

用途: - ニュートン法による最適化 - 損失関数の曲率分析(極小・鞍点の判定) - 自然勾配法・第 2 階最適化

大規模 NN では計算コストが高すぎるため、近似(L-BFGS・K-FAC)が使われる。

§6.3

ラグランジュ未定乗数法

制約付き最適化 の道具。「 という制約のもとで を最大化(最小化)せよ」というタイプの問題を解く。

アイデア

ラグランジュ関数 を作り、すべての偏微分を 0 にする方程式を解く。

応用例

  • SVM: マージン最大化(制約 = 全データを正しく分類)
  • PCA: 分散最大化(制約 = ノルム = 1)
  • ポートフォリオ最適化: リターン最大化(制約 = リスク ≤ X)
  • 情報量最大化: エントロピー最大化(制約 = 確率の和 = 1)
🛠 KKT 条件

不等式制約()も含む一般化が KKT 条件(Karush-Kuhn-Tucker)。SVM・凸最適化・線形計画法の理論基盤。E 資格・専門レベルで重要。

まとめ

確率の数学(Ch5)+ 多変数の微分(Ch6)── これで統計検定 2 級・準 1 級・E 資格までの 数学的下地 がほぼ揃いました。続く 7 章では、AI/機械学習で必須となる 線形代数の発展(固有値・対角化・SVD) に進みます。

Chapter 7

7 章 · 線形代数の発展 ─ 固有値・対角化・SVD


§7.1

固有値と固有ベクトル

の正方行列 と非ゼロベクトル について、 となる スカラー が存在するとき、固有値固有ベクトル と呼びます。

固有ベクトルは『方向が変わらない特別なベクトル』

ふつうのベクトル に行列 をかけると、回転 + 伸縮で別の方向を向きます。しかし 特別な方向のベクトル(固有ベクトル)に対しては、 の作用は ただの伸縮(スケーリング) だけ ─ 方向は変わらない。これが固有ベクトルの直感です。回転を伴う変換の中で、軸として動かない方向を見つけるイメージ。

-202-101xyvAvwAw = 3wA = [[2,1],[1,2]] / 固有値 λ = 1, 3固有ベクトル: 方向不変・長さ λ 倍
図: ふつうのベクトル v は Av で方向が変わるが、固有ベクトル w は Aw = λw で方向不変・長さ λ 倍

固有値の求め方

公式 ─ 特性方程式

固有値 特性方程式

の解として求められる( は単位行列)。 行列なら 個の固有値(重複・複素数を含む)。

例題 7.1 ─ 2x2 行列の固有値

の固有値を求めよ。

:

より

固有ベクトル: (定数倍を除く)

固有値の重要な性質

  • トレース = 固有値の和:
  • 行列式 = 固有値の積:
  • が逆行列をもつ ⇔ すべての固有値が非ゼロ
  • 対称行列()の固有値はすべて 実数、固有ベクトルは互いに 直交 する
  • 正定値行列(対称かつすべて正の固有値)は二次形式 を満たす
対称行列の固有値が実数になる理由

対称行列(例: 共分散行列、ヘッセ行列)の固有値はすべて実数で、固有ベクトルは直交する。これは PCA(主成分分析)2 次形式の最適化 の数学的根拠。一般の行列だと固有値が複素数になり得て扱いが面倒だが、統計・最適化で出てくる行列はほぼ対称なので、実用上はこの『楽園』に住める。

§7.2

対角化と行列のべき乗

個の固有値・固有ベクトルが揃えば、行列 対角化 できます。これにより行列計算が劇的に簡単になります。

対角化の定義

公式 ─ 対角化

の固有ベクトル を列に並べた行列 、固有値を対角に並べた行列 とすると、

と表せる(これを 対角化 と呼ぶ)。 の列が 個独立であることが必要条件。

行列のべき乗

公式 ─ 対角化を使ったべき乗

なら、

も固有値の 100 乗だけで計算でき、実質的にスカラー計算 1 行で終わる。

なぜ対角化で計算が楽になるか

が打ち消し合う。行列のかけ算が、固有値というスカラーのかけ算に変換される。マルコフ連鎖の長期挙動・指数行列 ・微分方程式の解の表現など、無数の応用で活用されます。

直交行列による対角化

公式 ─ 対称行列のスペクトル分解

対称行列 では、直交行列(各列が単位ベクトルかつ互いに直交)に取れる。すなわち 。よって

( は直交行列)。これを スペクトル分解(spectral decomposition) と呼び、PCA の数学的中核。

🛠 PCA との関係

主成分分析(PCA) はデータの 共分散行列 をスペクトル分解する手法。固有ベクトルが『主成分』、固有値が『その方向の分散』に対応。固有値の大きい順に主成分を採用 → 次元削減。E 資格・統計検定 2 級・データサイエンティスト のすべてで頻出。

§7.3

特異値分解(SVD)

特異値分解(Singular Value Decomposition, SVD) は、対角化が `n×n` 正方行列に限られるのに対し、任意の 行列 に拡張できる強力な分解。AI/ML の理論で最も重要な行列分解の一つです。

SVD の定義

公式 ─ 特異値分解

任意の実行列 は次の形に一意に分解できる:

- : 直交行列(左特異ベクトル) - : 直交行列(右特異ベクトル) - : 対角に 特異値 が並ぶ(他は 0)

特異値の数 = のランク。(または )の固有値。

SVD は『一般行列の幾何学』

正方対称行列の固有分解が『軸方向の伸縮』を表すように、任意の行列の SVD は『回転 → 伸縮 → 回転』 という幾何変換の分解です。 で入力を回し直し、 で各方向に異なる倍率で伸縮し、 で出力を回す ─ どんな線形変換もこの 3 段階で表せる、というのが SVD の主張。

単位円V^⊤ で回転Σ で伸縮U で再回転SVD: A = U Σ V^⊤ ─ 任意の線形変換 = 回転 → 伸縮 → 回転例: σ₁ = 3, σ₂ = 1 ─ 第一特異値の方向に 3 倍、垂直方向は等倍
図: 単位円が V^⊤ で回転 → Σ で軸方向に伸縮 → U で再回転されて楕円に。任意の線形変換はこの 3 段階に分解できる

低ランク近似

公式 ─ 切り捨て SVD(rank-k 近似)

上位 個の特異値だけ残し、残りを 0 にすると最良の rank- 近似が得られる:

これは Eckart-Young の定理 により、フロベニウスノルム を最小化する rank- 行列。

情報の圧縮としての SVD

は『 の情報を上位 個の方向だけで近似』した行列。 を小さくすれば情報損失が増えるが、データサイズは劇的に減る。画像圧縮・推薦システム・自然言語処理(LSI、word2vec の前身)の中核アイデアで、現代の トランスフォーマー の低ランク適応(LoRA)もこの考え方の延長線上にあります。

SVD の応用例

  • PCA: 中心化したデータ行列の SVD = 共分散行列のスペクトル分解
  • 画像圧縮: 写真行列を低ランク近似(可逆 JPEG とは別系統)
  • Latent Semantic Analysis (LSA): 文書 × 単語行列を低ランク化 → 意味的類似度
  • Netflix Prize: ユーザー × 映画の評価行列を低ランク補完(行列分解推薦)
  • LoRA(Low-Rank Adaptation): 巨大言語モデルの fine-tuning で重み更新を低ランク行列で近似
🛠 Python での SVD 実行

NumPy: `U, s, Vt = numpy.linalg.svd(A)`、scikit-learn の `TruncatedSVD` で高速近似。データサイエンス実務の必須ツール。手で計算する機会はほぼないが、結果の読み方(特異値の大きさで情報量を測る) は習得しておくと診断力が上がります。

§7.4

二次形式と正定値性

二次形式(quadratic form) は、最適化・統計・物理で頻出。正定値・半正定値・不定の分類は固有値で決まります。

二次形式の定義

定義 ─ 二次形式

対称行列 とベクトル に対し、

例: 2 次元なら 変数の 2 次の項だけからなる関数

正定値行列とその判定

定義 ─ 正定値・半正定値

対称行列 について:

- 正定値(positive definite): 任意の非ゼロ すべての固有値 > 0 - 半正定値: ⇔ すべての固有値 - 不定(indefinite): 正と負の固有値が混在 - 負定値: 全固有値 < 0

正定値性の幾何的意味

二次形式 のグラフを描くと、正定値なら原点が最小点の 谷型(凸関数)負定値なら最大点の 山型不定なら 鞍型。最適化問題で『この点は本当に最小値か?』を判定するのに、ヘッセ行列の固有値を見る ─ これが二階条件です。

応用 ─ 統計と最適化

  • 共分散行列: 必ず半正定値。固有値は分散の最大化方向(PCA)
  • ヘッセ行列: 多変数関数の極値判定に使用。正定値 → 極小、負定値 → 極大、不定 → 鞍点
  • ニュートン法: 反復に を使うので、正定値性が収束の鍵
  • SVM の双対問題: 正定値カーネル行列 → 一意解
  • ガウス分布の密度関数 ─ 共分散逆行列が二次形式を作る

まとめ ─ 線形代数の地図

Ch4(基礎)→ Ch7(発展)で線形代数の主要道具が揃いました。ベクトル・行列・行列式 → 固有値・対角化 → SVD → 二次形式・正定値性。これらは PCA・回帰・最適化・ニューラルネット・推薦・画像処理 すべての基盤。E 資格・統計検定 2 級〜準 1 級・DS 検定の数学パートで頻出する AI 時代の必修教養 です。

🛠 次のステップ

ここから先は『使う側』の世界。統計検定 2 級 の回帰分析章で固有値・SVD の応用を、準 1 級 の多変量解析で PCA・因子分析を、E 資格 で SVD ベースの次元削減・低ランク近似を学びます。線形代数は『手で計算するもの』から『結果を読む / 設計するもの』にシフトしていきます。

Chapter 8

8 章 · 数値計算と数値解析の基礎


§8.1

浮動小数点と数値誤差

コンピュータは実数を 浮動小数点 で近似的にしか表せません。 になる現象は有名で、統計計算でも同じ問題が現れます。

用語 ─ 主要な誤差

丸め誤差: 有限ビットでの近似による誤差(IEEE 754 64-bit で約 16 桁)

桁落ち: 大きさが近い数の差で有効桁が失われる(分散計算の素朴な式が代表例)

情報落ち: 大きい数に小さい数を足したとき、小さい数が無視される

累積誤差: 反復計算で誤差が蓄積する

分散計算の素朴な式は危険

教科書の式 をそのまま実装すると、 が近い値で 桁落ち が起きやすい。安全な実装は Welford のオンラインアルゴリズム で、各サンプルごとに平均と二乗和を逐次更新する。NumPy / pandas / R の `var()` はこちらを使っています。

対数空間の計算

公式 ─ logsumexp トリック

から最大値 を引いてから指数化することで オーバーフロー回避。確率モデル(ベイズ・隠れマルコフ・ニューラルネット softmax)で必須。`scipy.special.logsumexp`、PyTorch の `torch.logsumexp`。

§8.2

反復法 ─ ニュートン法と勾配降下

閉形式解が得られない方程式や最適化問題は、反復で近似解 を求めるしかない。ニュートン法と勾配降下法は、最適化の二大基本アルゴリズムです。

ニュートン法

公式 ─ 1 変数のニュートン法

の解を反復で求める。 が滑らか・初期値が良ければ 二次収束(誤差が反復毎に二乗で減る)。多変数化は

勾配降下法(Gradient Descent)

公式 ─ 勾配降下

最小化問題 について:

は学習率(step size)。一次収束 だが計算が軽く、ヘッセ行列が不要。深層学習はこの確率版(SGD・Adam)で動く。

ニュートン法 vs 勾配降下

ニュートン法は 収束が速い が、ヘッセ行列の計算 + 反転が重い()。深層学習のように が数億のスケールでは現実的でない。勾配降下は 遅いが軽い ため、大規模問題で勝つ。中間的な 準ニュートン法(BFGS / L-BFGS) が古典最適化の主役。

§8.3

モンテカルロ法

モンテカルロ法(Monte Carlo) は乱数を使って数値解を得る一群の手法。閉形式の積分が不可能な高次元問題で必須です。

基本原理 ─ 大数の法則

公式 ─ 期待値のモンテカルロ近似

標本平均で期待値を近似。誤差は で次元によらない ─ これが高次元で他手法に勝る理由。

代表的な応用

  • π の近似: 単位正方形に乱数を打ち、円内に入る割合 × 4(教育的だが π を知る最古典例)
  • 金融工学: オプション価格の経路依存型評価
  • 物理: 統計力学・粒子シミュレーション
  • ベイズ統計: MCMC で事後分布からサンプリング
  • ML: モンテカルロ・ドロップアウトで予測の不確実性推定

MCMC ─ マルコフ連鎖モンテカルロ

MCMC は事後分布の正規化定数が不明でもサンプリングできる手法。Metropolis-Hastings・Gibbs サンプラー・HMC(NUTS)が主要アルゴリズム。Stan / PyMC / brms の中核です。準 1 級〜1 級レベルで深く扱います。

Chapter 9

9 章 · 情報理論の基礎 ─ エントロピー・KL・相互情報量


§9.1

情報量とエントロピー

情報理論(information theory) はクロード・シャノンが 1948 年に体系化した、確率と情報を結ぶ理論。機械学習・通信・暗号・統計の中核に組み込まれています。

自己情報量

公式 ─ 自己情報量

事象 が確率 で起こるときの情報量:

稀な事象( 小)は 情報量が大きい(ニュースバリュー)、頻繁な事象は情報量が小。 で 1 bit、 で 3 bit。

シャノン エントロピー

公式 ─ エントロピー

確率分布 のエントロピー:

分布の不確かさ・無秩序さ を測る指標。一様分布で最大、デルタ分布で 0。コインの表確率 0.5 で 1 bit、0 や 1 で 0 bit。

決定木の情報利得

決定木の分割基準 情報利得(information gain)は、分割前のエントロピーから分割後の条件付きエントロピーを引いたもの。分割で 不確かさがどれだけ減ったか を測る。ID3・C4.5 アルゴリズムの基本原理で、CART のジニ不純度の親戚です。

§9.2

KL ダイバージェンスと交差エントロピー

2 つの分布の 距離(に近いもの) を測る情報理論的指標。機械学習の損失関数として中心的役割を果たします。

KL ダイバージェンス

公式 ─ Kullback-Leibler divergence

(連続なら積分)

真の分布 を予測分布 で近似したときの『情報損失』、等号は 非対称( 一般に)で『距離』ではない。

交差エントロピー

公式 ─ Cross-Entropy

分類問題の 損失関数 として頻用。真のラベル分布 と予測分布 の交差エントロピーを最小化 = 最尤推定 = KL 最小化(同値)。

VAE と KL 正則化

変分オートエンコーダ(VAE) の損失は 再構成誤差 + KL ダイバージェンス。KL 項は『潜在変数の事後分布を標準正規に近づける』正則化として働き、学習が滑らかに整う。生成モデルでこの構造は普遍的です。

§9.3

相互情報量とモデル選択

相互情報量(mutual information) は 2 変数の 依存度 を情報理論的に測る指標。線形依存しか捉えない相関係数を超えて、任意の依存関係 を捉えます。

相互情報量の定義

公式 ─ 相互情報量

が独立 ⇔ 。値が大きいほど依存が強い。線形・非線形を問わない依存度 を測れる。

情報量規準と AIC・BIC・WAIC

公式 ─ 主要な情報量規準

AIC(赤池):。予測誤差の漸近的最小化

BIC(ベイズ情報量規準):。標本サイズ で罰則強化、真のモデル選択向き

WAIC(Watanabe):特異モデル・階層モデルにも対応(渡辺澄夫 2010)

いずれも 対数尤度 - 罰則項 の形で、情報理論を背景に持つ。

🛠 ML での応用

特徴選択: 相互情報量で『目的変数との依存』を測り、上位を採用(`sklearn.feature_selection.mutual_info_classif`)。情報ボトルネック(Tishby): 深層学習の表現学習を情報理論で説明する理論的枠組み。InfoGAN・InfoVAE: 情報量を陽に扱った生成モデル。

結びに

情報理論は『確率の言語で情報を測る』分野。機械学習の損失関数・モデル選択・表現学習のすべてに食い込んでおり、AI 時代の数学的素養として今後も価値を増していきます。E 資格・準 1 級でより深く扱います。

Chapter 10

10 章 · 凸最適化と機械学習の最適化


§10.1

凸性と最適化

凸最適化(convex optimization) は、目的関数が凸・制約が凸集合の最適化問題。任意の局所最適解が大域最適解 という強力な性質をもち、機械学習の理論的解析の中心です。

凸関数の定義

用語 ─ 凸関数

関数 凸(convex) とは、任意の について:

グラフが 下に凸(谷型)。任意の 2 点を結ぶ線分が、関数の上にある。

代表的な凸関数

  • 線形関数 (凸かつ凹)
  • 二次形式 ( が半正定値なら凸)
  • 指数関数
  • ノルム ()
  • 最小二乗誤差 ─ 線形回帰の損失
  • 交差エントロピー ─ ロジスティック回帰の損失
なぜ凸性が大事か

凸 = 局所最適 = 大域最適。勾配降下法は局所最適に落ちますが、凸問題なら局所 = 大域 なので最適性が保証されます。線形回帰・SVM・ロジスティック回帰は凸 → 解が一意・大域最適。一方 ニューラルネットは非凸 で、複数の局所最適があり、初期化に依存します。

§10.2

ラグランジュ乗数法と KKT 条件

制約付き最適化 の標準ツール。等式制約はラグランジュ乗数、不等式制約は KKT 条件 で扱います。

ラグランジュ関数

公式 ─ ラグランジュ関数

等式制約 付きの について:

極値条件は かつ シャドウ価格(制約緩和の限界価値)を表す経済学的解釈も。

KKT 条件

公式 ─ KKT(Karush-Kuhn-Tucker)条件

不等式制約 も含む一般化:

1. 停留性: 2. 主問題実行可能性: , 3. 双対実行可能性: 4. 相補スラック性:

SVM は KKT そのもの

サポートベクターマシン(SVM) の解は KKT 条件から導かれる。マージン上の点(サポートベクター)で 、それ以外で ─ これが『サポートベクター以外のデータは予測に寄与しない』という SVM の特徴を生む。最適化と機械学習の美しい接続点。

§10.3

SGD と現代の最適化アルゴリズム

深層学習の心臓部 ─ 確率的勾配降下法(SGD) とその発展系。データ全体で勾配を計算する古典手法では大規模学習が不可能なため、ミニバッチで近似します。

SGD と ミニバッチ

公式 ─ SGD

ミニバッチ (サイズ 32〜512)で勾配を近似。バッチ勾配降下より速く、純粋な確率的勾配より安定。深層学習の標準。

Momentum と Adam

公式 ─ Momentum SGD

勾配の 指数移動平均 で慣性を加える。 が標準。地形のジグザグを抑え、収束を速める。

公式 ─ Adam(Adaptive Moment)

1 次モーメント (平均)と 2 次モーメント (分散)を指数平均で追跡:

パラメータごとに適応的な学習率。深層学習のデファクト標準(Kingma & Ba 2014)。AdamW(weight decay 改善版)が現代の改良。

学習率スケジューラ

  • Step decay: 一定エポックごとに学習率を 1/10 に
  • Exponential decay: で指数的に
  • Cosine annealing: コサイン関数で滑らかに下げる(SGDR)
  • Warmup: 最初の数エポックは学習率を徐々に上げる(Transformer 学習で必須)
  • One-cycle policy: 一山型で上昇 → 下降(Smith 2018)
🛠 実務でのガイダンス

最初の選択は Adam(lr=1e-3)+ Cosine decay。バッチサイズは GPU メモリと相談(32〜256 が多い)。LR Range Test(Smith 2017)で適切な学習率を見つける手法も実用的。困ったら Karpathy の有名 tweet「Adam の lr=3e-4 はだいたい何でも動く」が指針になります。

結びに ─ 数学基礎の地図完成

Ch1-10 で 統計のための数学 が一通り揃いました。指数対数・微積分・線形代数(基礎/発展)・確率・多変数微分・数値計算・情報理論・凸最適化 ─ これらは 統計検定 1 級・E 資格・データサイエンティスト の数学パートで前提となる教養です。

  • [統計検定 2 級教科書](/textbook/grade-2) ─ ここまでの数学の応用
  • [E 資格教科書](/certs/e-shikaku/textbook) ─ 深層学習の理論と実装
  • [プログラミング教科書](/programming) ─ Python / R で実装する
  • [統計用語集](/glossary) ─ 出会った用語をすぐ確認
Chapter 11

11 章 · グラフ理論とスペクトラルグラフ ─ ネットワーク AI の数学


§11.1

グラフの基礎と隣接行列

グラフ(graph) は『ノード(頂点)+ エッジ(辺)』の構造。SNS のフォロー関係・分子構造・タンパク質間相互作用・知識グラフなど、現代 AI のあらゆる応用分野で登場します。

グラフの主要種類

  • 無向グラフ: エッジに方向がない(友達関係)
  • 有向グラフ: エッジに方向がある(フォロー・引用)
  • 重み付きグラフ: エッジに重み(距離・強度)
  • 多重グラフ: 同じノードペアに複数エッジ
  • 二部グラフ: ノードを 2 種類に分けてエッジは異種間のみ(ユーザー-アイテム)

隣接行列(Adjacency Matrix)

公式 ─ 隣接行列

ノードのグラフについて の行列 :

重み付きなら 無向グラフ → 対称行列 成分は から への長さ の経路数を表す。

次数行列とラプラシアン

次数行列 は対角に各ノードの次数(エッジ数)を並べた行列。ラプラシアン行列 がスペクトラルグラフ理論の中核。対称・半正定値(固有値非負)で、math Ch7 のスペクトル分解が直接応用されます。

§11.2

グラフラプラシアンとスペクトラルクラスタリング

グラフラプラシアン の固有値・固有ベクトルから、グラフの本質的構造を抽出できる ─ これが スペクトラルグラフ理論 の核心です。

正規化ラプラシアン

公式 ─ 正規化ラプラシアン

対称正規化:

ランダムウォーク正規化:

両者とも固有値は の区間に収まる。0 固有値の重複度 = 連結成分の個数 という重要性質。

スペクトラルクラスタリング

アルゴリズム ─ Spectral Clustering

1. 類似度グラフを構築(-NN またはガウスカーネル) 2. 正規化ラプラシアン を計算 3. 下位 個の固有ベクトル を列に並べた 行列 を構成 4. の各行を正規化(球面射影) 5. -means で各行をクラスタリング

ノード数が多くてもクラスタ数 が小さければ高速。任意形状のクラスタ に強い。

Cheeger 不等式

固有値とグラフのクラスタ性

Cheeger 不等式: (2 番目に小さい固有値、Fiedler 値)が グラフが 2 つに分かれやすいか を量的に測る。 で『ほぼ非連結』 = クラスタ性あり。コミュニティ検出の理論的基盤。

§11.3

Graph Neural Network(GNN)の数学的基盤

GNN(Graph Neural Network) は『グラフ構造を入力として深層学習する』モデル。SNS・推薦・創薬・知識グラフ ─ 現代の関係データ学習の中核です。

メッセージ パッシング

公式 ─ メッセージパッシング更新式

ノード の埋め込み更新:

各層で 隣接ノードからメッセージを集約 → 自分の埋め込みを更新 層で ホップ先まで情報が伝播。

主要な GNN 系

  • GCN(Graph Convolutional Network)(Kipf & Welling 2016): 半教師あり学習のパイオニア
  • GraphSAGE(Hamilton et al. 2017): 大規模グラフ向けのサンプリング集約
  • GAT(Graph Attention Network)(Veličković et al. 2018): Attention で隣接ノードの重みを学習
  • GIN(Graph Isomorphism Network)(Xu et al. 2019): WL test と同等の表現力
  • Graph Transformer: フルグラフ Self-Attention

応用領域

  • 推薦システム: ユーザー-アイテム二部グラフで Pinterest が実用化
  • 創薬: 分子グラフからの活性予測(DeepMind AlphaFold は Transformer ベース)
  • ソーシャル: Twitter/X のフェイクニュース検出
  • 交通: 地図ネットワークでの経路最適化(Google Maps の到着予測)
  • サイバーセキュリティ: 通信ネットワークの異常検知
💡 グラフ × 行列 × 深層学習の三位一体

グラフラプラシアン(行列)を 固有値分解(線形代数)し、深層学習(微分)で更新する ─ math 教科書の Ch4 線形代数 → Ch6 多変数微分 → Ch7 固有値・SVD → Ch11 グラフ理論 が一つの流れで応用される現代 AI の中核です。

結びに

Ch1-11 で 古典数学から現代 AI までの数学的素養 が一通り揃いました。グラフ理論は math の最終章として、すべての章の道具(線形代数・微分・確率・最適化)が結集する分野です。統計とネットワーク科学の融合領域 は、今後さらに拡大していくでしょう。