統計のための数学基礎
統計学を学ぶうえで前提となる数学の道具を、最小限・実用本位でまとめた補助教材です。3 級以降で必須の総和記号 Σ・指数と対数、準1級以降で必須の微分積分・線形代数 ─ 「思い出す」「初めて触れる」のどちらにも使えるよう、簡潔に整理します。統計検定本体の章でつまずいたとき、ここに戻ってきて確認するのに使ってください。
目次
- 第 1 章 · 数と式の復習割合・百分率・指数表記など、算数〜中学数学レベルで押さえておきたい基礎を確認します。
- 第 2 章 · 代数の道具総和記号 Σ と、指数・対数 ─ 3 級以降で必須となる代数の道具を整理します。
- 第 3 章 · 微分積分の入口2 級以降の理論的話題で必須となる微分・積分の感覚を、数式に頼りすぎず整理します。
- 第 4 章 · 線形代数の基礎準1級以降の重回帰・主成分分析・多変量正規分布で必要なベクトル・行列の基本。
- 第 5 章 · 確率の数学 ─ 確率変数・期待値・分散統計学の心臓部となる『確率変数』の扱い方。期待値・分散の計算ルールと、よく使う離散・連続分布の数式を整理。
- 第 6 章 · 多変数の微分 ─ 偏微分と勾配機械学習・深層学習で必須の『偏微分』『勾配ベクトル』『連鎖律』を整理。最適化の数学的背景。
- 第 7 章 · 線形代数の発展 ─ 固有値・対角化・SVDCh4 で行列の基本を学んだ後、ここでは固有値分解と特異値分解(SVD)を扱います。これは PCA・推薦システム・ニューラルネットの理解に直結する、AI/ML の中核数学です。
- 第 8 章 · 数値計算と数値解析の基礎コンピュータで統計計算を行うときの誤差・反復解法・モンテカルロ法。AI / ML の実装で前提となる数値感覚を養います。
- 第 9 章 · 情報理論の基礎 ─ エントロピー・KL・相互情報量確率と情報を結ぶ理論。機械学習の損失関数・モデル選択・通信の数学的基盤。
- 第 10 章 · 凸最適化と機械学習の最適化凸関数・凸集合・KKT 条件・SGD・Adam ─ 機械学習で動くアルゴリズムの数学的根拠。
- 第 11 章 · グラフ理論とスペクトラルグラフ ─ ネットワーク AI の数学ノード・エッジ・隣接行列・ラプラシアン行列・スペクトラルクラスタリング・GNN の数学的基盤を 3 節で。
第 1 章 · 数と式の復習
割合・百分率・歩合 ─ 同じことの違う表現
統計学はあらゆる場面で「割合」を扱います。「サイコロで偶数が出る確率」「標本のうちアンケートに答えた人の比率」「合格率」「失業率」 ─ どれも形式は割合です。本節ではまず、割合の 3 つの表現(割合・百分率・歩合)を整理します。
割合の基本式
割合 = 比べる量 ÷ もとにする量
「もとにする量」を 1 としたとき、「比べる量」が何倍にあたるかを表す数。 から (またはそれ以上)の小数になる。
全校生徒 200 人のうち、男子が 120 人。男子の割合は?
解 : 。「男子は全体の 0.6 倍」という意味。
百分率(%)
百分率 = 割合 × 100(%)
割合を 100 倍した値。「100 のうちいくつぶんか」を直感的に表す。
上の例 1.1 で、男子の割合 を百分率にすると 。「男子は全体の 60% を占める」と読める。
歩合(割・分・厘)
野球の打率や金利でよく使う表記。「3 割 2 分」「年利 5 厘」のような形。
- 1 割 = 0.1 = 10%
- 1 分 = 0.01 = 1%
- 1 厘 = 0.001 = 0.1%
打率 の選手。歩合と百分率で言い直すと?
解 : 「3 割 2 分 5 厘」、または「」。
増加率・減少率の計算
変化率 = (変化後の値 − 変化前の値) ÷ 変化前の値
増えていれば正、減っていれば負。 すれば %。
円のおかしが 円に値上げされた。値上げ率は?
解 : 。
統計のニュースで「物価が前年比 +3.2% 上昇」「失業率が 0.1 ポイント低下」のような表現を見ます。「率」と「ポイント」の違い に注意 ─ 失業率が 5.0% から 4.9% になったとき、減少幅は 「0.1 ポイント」(ポイント差)、減少率は 「2%」(0.1/5.0)。混同しやすいので、ニュースを読むときは意識してみましょう。
事業レポートで「コンバージョン率が 2.0% から 2.4% に上がりました」と書くとき、「+0.4 ポイント」と「+20% の改善」のどちらの表現も正しいのですが、印象は大きく異なります。社内向けなら『ポイント差』の控えめな表現、外部向けプレゼンなら『相対的な改善率』の派手な表現と、目的に応じて選び分けるのが実務の使いどころ。読み手としては『どちらの定義で語っているか』を必ず確認するクセが必要です。
指数表記と科学記法 ─ 大きい数・小さい数を扱う
「日本の人口 約 1.24 億人」「光の速さ 約 3 × 10^8 m/s」 ─ 統計や科学では大きな数や小さな数が頻繁に登場します。これらを効率よく扱うのが指数表記と科学記法です。
指数(累乗)の基本
( を 回掛け合わせる)という形を 累乗 といい、 を底、 を指数(べき)という。
例: 。
指数法則(暗記必須)
は実数(底)、 は整数(指数)。
- (掛け算 → 指数を足す) - (割り算 → 指数を引く) - (累乗の累乗 → 指数を掛ける) - (積の累乗 → それぞれの累乗の積) - (、約束) - (マイナスの指数 → 逆数)
次を計算せよ: 。
解 : 指数法則より 。
科学記法(指数表記)
数を (1 以上 10 未満の数)× の形で書く方法。 のように記す。 が正なら大きな数、負なら小さな数。
- (千)
- (万)
- (百万)
- (億)
- (マイクロ)
次を科学記法で表せ:
(1) →
(2) →
なぜ統計で使うか
統計学では、「とても小さな確率」(p 値)や「とても大きな数」(母集団サイズ)を扱う場面が頻繁にあります。例: は と書けば一目瞭然。電卓やプログラミング言語の出力でも科学記法(`2.1e-6` のような表記)が標準です。
第 2 章 · 代数の道具
総和記号 Σ の使い方
「データ を全部足す」 ─ 統計学で最も頻繁に使う操作のひとつ。これを短く書くのが総和記号 Σ(シグマ)です。3 級以降の教科書ではほぼ全ページに登場するので、見た目に慣れておきましょう。
Σ の基本
「 を から まで動かして を足し上げる」と読む。 は 添字(ダミー変数)で、 や でも意味は同じ。
を計算せよ。
解 : 。「 に を順に代入して足す」。
Σ の便利な公式
から までの和:
2 乗の和:
定数 の和:
定数倍の取り出し:
和の和(線型性):
を求めよ。
解 : 公式より 。
統計での典型的な使い方
統計の式で Σ がどう使われているか、代表的なものを 3 つ。
- 標本平均: ─ 全部足して個数で割る
- 標本分散: ─ 偏差の 2 乗の平均
- 期待値: ─ 値 × 確率の和
添字の範囲を省略する慣例
文脈から添字の範囲が明らかなときは、上下を省略して と書くことがあります。「全部の について足す」と暗黙に解釈される、と覚えましょう。Σ を見たら、まず「何を足しているか / 添字はどう動くか」を頭で展開するクセをつけると、複雑な式も読み解けるようになります。
プログラミングを知っているなら、 は次の for ループに対応します:`total = 0; for i in 1..n: total += x[i]`。Σ の上に書く がループの上限、下に書く がループ変数の初期値、右にある がループの中身です。「数学の記号」と身構えず、コードを読むつもりで眺めるとスッと入ります。
指数と対数
対数(ログ) は指数の逆向きの操作。「 を何回掛けたら になる?」という問いの答えが対数です。最尤推定、情報量、複利計算、地震のマグニチュードなど、応用が非常に広い概念。
対数の定義
のとき、 とは を意味する。
( を底、 を真数、 を対数の値という)
、 ─ つまり常用対数は『数の桁数(マイナス 1)』を返します。だから所得・地震の規模・音の大きさ・pH のように『桁が大きく違う量』を扱うとき、対数を取ると比較しやすくなる。地震のマグニチュード(M7 と M8 の違い=エネルギー 32 倍差)や音圧のデシベル(20 dB ≒ 10 倍)は、すべて対数スケールです。
次を計算せよ:
(1)
(2)
解 :
(1) なので 。
(2) なので 。
対数の性質
、 は実数、 のとき:
- (積 → 和) - (商 → 差) - (累乗 → 係数倍) - - 底の変換公式:
底による分類
- 常用対数 : 底が 10。日常的な計算・情報量(ビット)で使う
- 自然対数 または : 底が (ネイピア数 )。微積分・統計理論で標準
- 二進対数 : 底が 2。情報量・コンピュータサイエンスで使う
ネイピア数 $e$
微積分でもっとも自然に現れる無理数。 は微分しても のまま、というユニークな性質をもつ。
統計でなぜ対数を使うか
- 最尤推定: 尤度関数 の対数 を最大化する。積 → 和に変えて微分しやすくするため
- 指数分布・正規分布など: 確率密度関数の形に が含まれる
- 情報量: (エントロピー)
- ロジスティック回帰: を線形回帰でモデル化
- 桁数を圧縮: 大きな数を小さな数に変換できる(例: 売上 円 → )
解 : 。「累乗 → 係数」「商 → 差」を使う。
対数は最初は取っつきにくいですが、性質を 5 つ覚えれば応用は機械的にできます。3 級では「式を読めれば OK」、2 級以降では「自分で計算する」レベルに引き上げていきましょう。
第 3 章 · 微分積分の入口
微分の意味と基本公式
微分 は、関数の「変化の速さ」を測る道具です。統計学では「最尤推定で を解く」ような場面で必ず登場します。本節では、微分の 意味の感覚 と 最低限覚える公式 4 つ を整理します。
微分とは何か ─ 直感的な意味
「車の位置を時刻で微分すると速度になる」と言われるように、微分は「ある瞬間の変化の速さ」を表します。
数式で言えば、 が少しだけ変化したときに がどれだけ変わるか ─ その「変化の比」を、変化幅を限りなく小さくしていったときの極限で定義します。
関数 の における微分(導関数)を
で定義する。 はその点での 接線の傾き に等しい。
統計で微分が出てくるほぼすべての場面は『何かを最大化する』ためです。最尤推定なら尤度を最大化、最小二乗法なら誤差の 2 乗和を最小化、ロジスティック回帰の収束点を求めるのも全て微分。「山頂は傾きがゼロ」という幾何学的事実(=)を使うことで、最大値の場所を式で求めるのが微分の最大の使いどころです。
微分の基本公式(最低限の 4 つ)
1. 累乗の微分:
2. 定数の微分: ( は定数)
3. 線型性:
4. 指数・対数(自然対数):
次を で微分せよ:
(1)
(2)
解 :
(1) 。「指数を前に出して、指数を 1 減らす」。
(2) 。線型性で項ごとに微分。
「微分 = 0」の意味 ─ 統計で頻出の場面
関数の 極値(最大値・最小値)では、必ず接線が水平になる ─ つまり微分が になります。
- : グラフは右上がり(増加中)
- : 接線が水平 ─ 山頂(極大)or 谷底(極小)or 屈曲点
- : グラフは右下がり(減少中)
統計での使い場面 ─ 最尤推定
1 級のキー定理 ─ 最尤推定 は、まさに「対数尤度を最大化するパラメータを探す」操作。具体的には次のステップ:
- 対数尤度関数 を で微分
- の方程式を解く(スコア方程式)
- 得られた が最尤推定量
コインの表確率 を、 回中 回表が出たデータから推定したい。
対数尤度
微分:
これを 0 とおいて解くと ─「成功した割合」が最尤推定量、という直感的な結果になる。
微分の道具を持っていると、こうした「最も自然な推定量」が機械的に導けます。準1級・1級では避けて通れない技なので、最低限の 4 公式は必ず手で動かせるようにしておきましょう。
積分の意味と基本
積分 は、関数の「累積した量(面積)」を求める道具。微分の逆向きの操作とも言えます。統計学では 連続確率変数の確率計算(密度関数の面積)で必須となる概念です。
積分とは何か ─ 面積を求める
関数 のグラフと 軸 で囲まれた、 から までの 面積 を、
と書きます(「 から までの の積分」と読む)。 は「 の小さな幅」を表す記号で、「小さな短冊の面積を足し合わせていく」というイメージです。
微分と積分の関係(微積分の基本定理)
となる関数 を 原始関数 とすると、
つまり、「原始関数を求めて、上端の値から下端の値を引く」 で定積分が計算できる。
積分の基本公式
( は積分定数)
累乗: ()
定数:
指数・対数:
線型性:
を計算せよ。
解 : 原始関数は 。。
統計での使い場面 ─ 連続分布の確率
離散確率変数では「特定の値をとる確率」を と表せましたが、連続確率変数では 「ぴったりこの値」となる確率は 0(密度関数なので)。代わりに、ある区間に入る確率は密度関数の積分で計算します。
確率密度関数 をもつ連続確率変数 について、
全空間での積分は必ず :
(密度 )のとき、 を求めよ。
解 : 。
「区間で確率」の重要な性質
- (連続変数は「ぴったり」の確率が常に 0)
- (端点の有無は無関係)
- 累積分布関数 ─「 以下の確率」を表す関数
- ─ 余事象を使った計算
統計検定 2 級では「正規分布の値が の範囲に入る確率は 」のような結果を 暗記 で済ませますが、その背景には密度関数の積分があります。準 1 級・1 級では実際に積分を計算する場面が出てきます。
第 4 章 · 線形代数の基礎
ベクトルと内積
ベクトル は「向きと大きさ」を持つ量。多変量データを扱う統計学では、データ 1 件をベクトルとして表します。本節では、ベクトルの基本的な演算と、統計学でとくに重要な 内積 の意味を整理します。
ベクトルの定義
個の数を縦に並べたものを 次元ベクトルといい、 のように書く。
統計学では「ある 1 人の身長・体重・年齢」のように、複数の特徴をまとめた データ 1 件 をベクトルとして扱う。
和・スカラー倍
和: 同じ次元のベクトルどうしを成分ごとに足す:
スカラー倍: 各成分に同じ数を掛ける:
内積(ドット積)
2 つの 次元ベクトル の内積を
で定義する。結果は スカラー(数)。
の内積を計算せよ。
解 : 。
ノルム ─ ベクトルの「長さ」
ベクトル のノルム(L² ノルム)を
で定義する。「原点から までの距離」。
内積の幾何的意味
ベクトル がなす角を とすると、
したがって
統計での使い場面 ─ 相関係数の幾何的解釈
実は 相関係数 は、平均を引いた 2 つのデータベクトルの「内積を長さで割った値」(= cos θ) に等しいんです。
データ , について、平均を引いたベクトル , とすると:
「相関係数が に収まる」のは「コサインが に収まる」から、と幾何的に理解できます。これがベクトルの威力 ─ 統計の式が幾何的に「見える」ようになる、というメリットです。
行列の基本
行列(matrix)はベクトルを縦横に並べたもの。データ全体を行列で表すことで、複数のデータをまとめて一気に処理できます。準1級・1級の 重回帰・PCA・多変量正規分布 などでは、行列なしでは式を書くことすらできません。
行列の定義
行 列の長方形に並べた数の表を 行列 という。一般に
と書く。 は「 行 列の要素」。
統計でデータを扱うときは、行 = データ 1 件、列 = 1 つの特徴(身長・体重など) とするのが標準。 人 × 特徴のデータは 行列で表せます。
ベクトルが『矢印』なら、行列は『矢印を別の矢印に変える装置』です。例えば 90 度回転・引き伸ばし・斜めにつぶす ─ こうした幾何学的操作はすべて行列で表現できます。重回帰の も、データ行列 という『装置』を使って を係数ベクトルに変換する、という幾何学的操作。機械学習の内部はほぼすべて行列演算 ─ 行列の感覚を持つかどうかが、後続の学習の質を大きく左右します。
行列の積
行列 と 行列 の積 は 行列で、 成分は
つまり「 の 行ベクトルと の 列ベクトルの内積」。
注意: の 列数 と の 行数 が一致しないと積は計算できません。また、 が一般に成立(可換でない)。
単位行列と逆行列
単位行列 : 対角成分が 、それ以外は の正方行列。 を満たす(掛け算の「」)。
逆行列 : を満たす行列。逆行列が存在する正方行列を 正則 という。
「逆行列がない」(= 行列式が 0)ような行列は、列同士に 線形従属 がある状態。重回帰モデルでは、説明変数間に強い相関があると が逆行列を持ちにくくなり、推定が不安定になる ─ いわゆる 多重共線性 の問題です。
転置・対称行列
転置 : 行と列を入れ替えた行列。。
対称行列: を満たす行列(対角線で折り返したときに同じ)。分散共分散行列 や 相関行列 はすべて対称行列。
統計での使い場面 ─ 重回帰の正規方程式
重回帰モデル の最小二乗推定量は、
という、行列の積と逆行列だけ で書ける美しい形になります。スカラーの式 (単回帰)と本質は同じ ─ 「分子 ÷ 分母」 ─ ですが、行列で書くことで一般の説明変数の数に拡張できます。
固有値・固有ベクトル(さわり)
正方行列 について、 を満たすスカラー を 固有値、ベクトル を 固有ベクトル という。
主成分分析(PCA) は分散共分散行列 の固有値分解を行い、固有ベクトルを「主成分の方向」、固有値を「その方向の分散」として使います。固有値・固有ベクトルは線形代数の本格的な道具で、本格的な学習は専門書をどうぞ。本サイト準1級教科書の[主成分分析の節](/textbook/grade-pre1#ch3-sec3)では、概念面の解説をしています。
ここまでで「統計のための数学基礎」前半 4 章が出そろいました。割合・Σ・対数・微分積分・ベクトル・行列 ─ これらが手元にあれば、統計検定の式は怖くなくなります。続く 2 章は応用的内容です。
第 5 章 · 確率の数学 ─ 確率変数・期待値・分散
確率変数と確率分布
確率変数(random variable) は、ランダムな現象の結果に 数値を割り当てる関数。例: サイコロを振る → 出た目を数字で表す → 確率変数 。
離散と連続
- 離散確率変数: 取りうる値が飛び飛び(0, 1, 2, ...)。例: コイン投げの表回数
- 連続確率変数: 取りうる値が実数全体や区間。例: 身長・気温
確率質量関数(PMF)と確率密度関数(PDF)
離散: 確率質量関数 。すべての の和は 1。
連続: 確率密度関数 。。特定の点での値ではなく区間の積分で確率を表す。
累積分布関数(CDF): 。離散も連続も統一的に定義可能。
連続変数では特定の 1 点に確率が貯まらない。あくまで のような区間で確率が定まる。だから連続では PDF(密度)を使い、面積で確率を表す。
期待値と分散の計算
確率変数を要約する 2 つの基本量。期待値は『重心』、分散は『散らばり』。
期待値の定義
「取りうる値 × その確率の和」という直感的な式。サイコロの期待値:
期待値の重要な性質
- 線形性:
- 和の期待値: (独立でなくても OK!)
- 独立な積: (独立のときだけ)
分散の定義
期待値からのズレを 2 乗した平均。標準偏差は 。
分散の重要な性質
- (定数 は影響しない、 は 2 乗で効く)
- 独立変数の和: (独立のときだけ!)
- 従属変数の和:
代表的な確率分布の式
統計でよく使う分布の PMF / PDF・期待値・分散 をまとめます。
二項分布 Bin(n, p)
ポアソン分布 Po(λ)
正規分布 N(μ, σ²)
指数分布 Exp(λ)
二項: コイン・A/B テスト・成功失敗 / ポアソン: 単位時間内の発生件数(電話・地震・スパムメール) / 正規: 多数の独立要因の和(身長・テスト点数) / 指数: 待ち時間・寿命
第 6 章 · 多変数の微分 ─ 偏微分と勾配
偏微分 ─ 1 変数だけ動かす
のような 複数変数 の関数の場合、『 について微分』『 について微分』のように 特定の変数だけ動かして 微分するのが 偏微分(partial derivative)。
記号と計算
例: のとき
山の地図を考える。東西方向の傾き(東に 1 歩進んだら何 m 上がる?)が 、南北方向の傾き が 。山頂では両方とも 0(平ら)。
勾配ベクトル(Gradient)
勾配の方向 = 関数が最も急速に増加する方向
勾配の逆向き = 最も急速に減少する方向(勾配降下法の基礎)
連鎖律(Chain Rule)
合成関数の微分。深層学習の誤差逆伝播法はこれの応用。
1 変数の連鎖律
例: のとき、, と分けて、
多変数の連鎖律
ニューラルネットは『入力 → 線形変換 → 活性化 → 線形変換 → ... → 損失』という 長い合成関数。各重みに対する勾配は 連鎖律で連鎖的に計算 される。これが backpropagation の数学的本質。
ヘッセ行列(Hessian)─ 2 階偏微分の行列
用途: - ニュートン法による最適化 - 損失関数の曲率分析(極小・鞍点の判定) - 自然勾配法・第 2 階最適化
大規模 NN では計算コストが高すぎるため、近似(L-BFGS・K-FAC)が使われる。
ラグランジュ未定乗数法
制約付き最適化 の道具。「 という制約のもとで を最大化(最小化)せよ」というタイプの問題を解く。
アイデア
ラグランジュ関数 を作り、すべての偏微分を 0 にする方程式を解く。
応用例
- SVM: マージン最大化(制約 = 全データを正しく分類)
- PCA: 分散最大化(制約 = ノルム = 1)
- ポートフォリオ最適化: リターン最大化(制約 = リスク ≤ X)
- 情報量最大化: エントロピー最大化(制約 = 確率の和 = 1)
不等式制約()も含む一般化が KKT 条件(Karush-Kuhn-Tucker)。SVM・凸最適化・線形計画法の理論基盤。E 資格・専門レベルで重要。
まとめ
確率の数学(Ch5)+ 多変数の微分(Ch6)── これで統計検定 2 級・準 1 級・E 資格までの 数学的下地 がほぼ揃いました。続く 7 章では、AI/機械学習で必須となる 線形代数の発展(固有値・対角化・SVD) に進みます。
第 7 章 · 線形代数の発展 ─ 固有値・対角化・SVD
固有値と固有ベクトル
の正方行列 と非ゼロベクトル について、 となる スカラー が存在するとき、 を 固有値、 を 固有ベクトル と呼びます。
ふつうのベクトル に行列 をかけると、回転 + 伸縮で別の方向を向きます。しかし 特別な方向のベクトル(固有ベクトル)に対しては、 の作用は ただの伸縮(スケーリング) だけ ─ 方向は変わらない。これが固有ベクトルの直感です。回転を伴う変換の中で、軸として動かない方向を見つけるイメージ。
固有値の求め方
固有値 は 特性方程式
の解として求められる( は単位行列)。 行列なら 個の固有値(重複・複素数を含む)。
の固有値を求めよ。
解:
より
固有ベクトル: → 、 → (定数倍を除く)
固有値の重要な性質
- トレース = 固有値の和:
- 行列式 = 固有値の積:
- が逆行列をもつ ⇔ すべての固有値が非ゼロ
- 対称行列()の固有値はすべて 実数、固有ベクトルは互いに 直交 する
- 正定値行列(対称かつすべて正の固有値)は二次形式 を満たす
対称行列(例: 共分散行列、ヘッセ行列)の固有値はすべて実数で、固有ベクトルは直交する。これは PCA(主成分分析) や 2 次形式の最適化 の数学的根拠。一般の行列だと固有値が複素数になり得て扱いが面倒だが、統計・最適化で出てくる行列はほぼ対称なので、実用上はこの『楽園』に住める。
対角化と行列のべき乗
個の固有値・固有ベクトルが揃えば、行列 は 対角化 できます。これにより行列計算が劇的に簡単になります。
対角化の定義
の固有ベクトル を列に並べた行列 、固有値を対角に並べた行列 とすると、
と表せる(これを 対角化 と呼ぶ)。 の列が 個独立であることが必要条件。
行列のべき乗
なら、
も固有値の 100 乗だけで計算でき、実質的にスカラー計算 1 行で終わる。
─ と が打ち消し合う。行列のかけ算が、固有値というスカラーのかけ算に変換される。マルコフ連鎖の長期挙動・指数行列 ・微分方程式の解の表現など、無数の応用で活用されます。
直交行列による対角化
対称行列 では、 を 直交行列(各列が単位ベクトルかつ互いに直交)に取れる。すなわち 、。よって
( は直交行列)。これを スペクトル分解(spectral decomposition) と呼び、PCA の数学的中核。
主成分分析(PCA) はデータの 共分散行列 をスペクトル分解する手法。固有ベクトルが『主成分』、固有値が『その方向の分散』に対応。固有値の大きい順に主成分を採用 → 次元削減。E 資格・統計検定 2 級・データサイエンティスト のすべてで頻出。
特異値分解(SVD)
特異値分解(Singular Value Decomposition, SVD) は、対角化が `n×n` 正方行列に限られるのに対し、任意の 行列 に拡張できる強力な分解。AI/ML の理論で最も重要な行列分解の一つです。
SVD の定義
任意の実行列 は次の形に一意に分解できる:
- : 直交行列(左特異ベクトル) - : 直交行列(右特異ベクトル) - : 対角に 特異値 が並ぶ(他は 0)
特異値の数 = のランク。 は (または )の固有値。
正方対称行列の固有分解が『軸方向の伸縮』を表すように、任意の行列の SVD は『回転 → 伸縮 → 回転』 という幾何変換の分解です。 で入力を回し直し、 で各方向に異なる倍率で伸縮し、 で出力を回す ─ どんな線形変換もこの 3 段階で表せる、というのが SVD の主張。
低ランク近似
上位 個の特異値だけ残し、残りを 0 にすると最良の rank- 近似が得られる:
これは Eckart-Young の定理 により、フロベニウスノルム を最小化する rank- 行列。
は『 の情報を上位 個の方向だけで近似』した行列。 を小さくすれば情報損失が増えるが、データサイズは劇的に減る。画像圧縮・推薦システム・自然言語処理(LSI、word2vec の前身)の中核アイデアで、現代の トランスフォーマー の低ランク適応(LoRA)もこの考え方の延長線上にあります。
SVD の応用例
- PCA: 中心化したデータ行列の SVD = 共分散行列のスペクトル分解
- 画像圧縮: 写真行列を低ランク近似(可逆 JPEG とは別系統)
- Latent Semantic Analysis (LSA): 文書 × 単語行列を低ランク化 → 意味的類似度
- Netflix Prize: ユーザー × 映画の評価行列を低ランク補完(行列分解推薦)
- LoRA(Low-Rank Adaptation): 巨大言語モデルの fine-tuning で重み更新を低ランク行列で近似
NumPy: `U, s, Vt = numpy.linalg.svd(A)`、scikit-learn の `TruncatedSVD` で高速近似。データサイエンス実務の必須ツール。手で計算する機会はほぼないが、結果の読み方(特異値の大きさで情報量を測る) は習得しておくと診断力が上がります。
二次形式と正定値性
二次形式(quadratic form) は、最適化・統計・物理で頻出。正定値・半正定値・不定の分類は固有値で決まります。
二次形式の定義
対称行列 とベクトル に対し、
例: 2 次元なら 。変数の 2 次の項だけからなる関数。
正定値行列とその判定
対称行列 について:
- 正定値(positive definite): 任意の非ゼロ で ⇔ すべての固有値 > 0 - 半正定値: ⇔ すべての固有値 - 不定(indefinite): 正と負の固有値が混在 - 負定値: 全固有値 < 0
二次形式 のグラフを描くと、正定値なら原点が最小点の 谷型(凸関数)、負定値なら最大点の 山型、不定なら 鞍型。最適化問題で『この点は本当に最小値か?』を判定するのに、ヘッセ行列の固有値を見る ─ これが二階条件です。
応用 ─ 統計と最適化
- 共分散行列: 必ず半正定値。固有値は分散の最大化方向(PCA)
- ヘッセ行列: 多変数関数の極値判定に使用。正定値 → 極小、負定値 → 極大、不定 → 鞍点
- ニュートン法: 反復に を使うので、正定値性が収束の鍵
- SVM の双対問題: 正定値カーネル行列 → 一意解
- ガウス分布の密度関数 ─ 共分散逆行列が二次形式を作る
まとめ ─ 線形代数の地図
Ch4(基礎)→ Ch7(発展)で線形代数の主要道具が揃いました。ベクトル・行列・行列式 → 固有値・対角化 → SVD → 二次形式・正定値性。これらは PCA・回帰・最適化・ニューラルネット・推薦・画像処理 すべての基盤。E 資格・統計検定 2 級〜準 1 級・DS 検定の数学パートで頻出する AI 時代の必修教養 です。
ここから先は『使う側』の世界。統計検定 2 級 の回帰分析章で固有値・SVD の応用を、準 1 級 の多変量解析で PCA・因子分析を、E 資格 で SVD ベースの次元削減・低ランク近似を学びます。線形代数は『手で計算するもの』から『結果を読む / 設計するもの』にシフトしていきます。
第 8 章 · 数値計算と数値解析の基礎
浮動小数点と数値誤差
コンピュータは実数を 浮動小数点 で近似的にしか表せません。 になる現象は有名で、統計計算でも同じ問題が現れます。
丸め誤差: 有限ビットでの近似による誤差(IEEE 754 64-bit で約 16 桁)
桁落ち: 大きさが近い数の差で有効桁が失われる(分散計算の素朴な式が代表例)
情報落ち: 大きい数に小さい数を足したとき、小さい数が無視される
累積誤差: 反復計算で誤差が蓄積する
教科書の式 をそのまま実装すると、 と が近い値で 桁落ち が起きやすい。安全な実装は Welford のオンラインアルゴリズム で、各サンプルごとに平均と二乗和を逐次更新する。NumPy / pandas / R の `var()` はこちらを使っています。
対数空間の計算
各 から最大値 を引いてから指数化することで オーバーフロー回避。確率モデル(ベイズ・隠れマルコフ・ニューラルネット softmax)で必須。`scipy.special.logsumexp`、PyTorch の `torch.logsumexp`。
反復法 ─ ニュートン法と勾配降下
閉形式解が得られない方程式や最適化問題は、反復で近似解 を求めるしかない。ニュートン法と勾配降下法は、最適化の二大基本アルゴリズムです。
ニュートン法
の解を反復で求める。 が滑らか・初期値が良ければ 二次収束(誤差が反復毎に二乗で減る)。多変数化は 。
勾配降下法(Gradient Descent)
最小化問題 について:
は学習率(step size)。一次収束 だが計算が軽く、ヘッセ行列が不要。深層学習はこの確率版(SGD・Adam)で動く。
ニュートン法は 収束が速い が、ヘッセ行列の計算 + 反転が重い()。深層学習のように が数億のスケールでは現実的でない。勾配降下は 遅いが軽い ため、大規模問題で勝つ。中間的な 準ニュートン法(BFGS / L-BFGS) が古典最適化の主役。
モンテカルロ法
モンテカルロ法(Monte Carlo) は乱数を使って数値解を得る一群の手法。閉形式の積分が不可能な高次元問題で必須です。
基本原理 ─ 大数の法則
標本平均で期待値を近似。誤差は で次元によらない ─ これが高次元で他手法に勝る理由。
代表的な応用
- π の近似: 単位正方形に乱数を打ち、円内に入る割合 × 4(教育的だが π を知る最古典例)
- 金融工学: オプション価格の経路依存型評価
- 物理: 統計力学・粒子シミュレーション
- ベイズ統計: MCMC で事後分布からサンプリング
- ML: モンテカルロ・ドロップアウトで予測の不確実性推定
MCMC ─ マルコフ連鎖モンテカルロ
MCMC は事後分布の正規化定数が不明でもサンプリングできる手法。Metropolis-Hastings・Gibbs サンプラー・HMC(NUTS)が主要アルゴリズム。Stan / PyMC / brms の中核です。準 1 級〜1 級レベルで深く扱います。
第 9 章 · 情報理論の基礎 ─ エントロピー・KL・相互情報量
情報量とエントロピー
情報理論(information theory) はクロード・シャノンが 1948 年に体系化した、確率と情報を結ぶ理論。機械学習・通信・暗号・統計の中核に組み込まれています。
自己情報量
事象 が確率 で起こるときの情報量:
稀な事象( 小)は 情報量が大きい(ニュースバリュー)、頻繁な事象は情報量が小。 で 1 bit、 で 3 bit。
シャノン エントロピー
確率分布 のエントロピー:
分布の不確かさ・無秩序さ を測る指標。一様分布で最大、デルタ分布で 0。コインの表確率 0.5 で 1 bit、0 や 1 で 0 bit。
決定木の分割基準 情報利得(information gain)は、分割前のエントロピーから分割後の条件付きエントロピーを引いたもの。分割で 不確かさがどれだけ減ったか を測る。ID3・C4.5 アルゴリズムの基本原理で、CART のジニ不純度の親戚です。
KL ダイバージェンスと交差エントロピー
2 つの分布の 距離(に近いもの) を測る情報理論的指標。機械学習の損失関数として中心的役割を果たします。
KL ダイバージェンス
(連続なら積分)
真の分布 を予測分布 で近似したときの『情報損失』。、等号は 。非対称( 一般に)で『距離』ではない。
交差エントロピー
分類問題の 損失関数 として頻用。真のラベル分布 と予測分布 の交差エントロピーを最小化 = 最尤推定 = KL 最小化(同値)。
変分オートエンコーダ(VAE) の損失は 再構成誤差 + KL ダイバージェンス。KL 項は『潜在変数の事後分布を標準正規に近づける』正則化として働き、学習が滑らかに整う。生成モデルでこの構造は普遍的です。
相互情報量とモデル選択
相互情報量(mutual information) は 2 変数の 依存度 を情報理論的に測る指標。線形依存しか捉えない相関係数を超えて、任意の依存関係 を捉えます。
相互情報量の定義
と が独立 ⇔ 。値が大きいほど依存が強い。線形・非線形を問わない依存度 を測れる。
情報量規準と AIC・BIC・WAIC
AIC(赤池):。予測誤差の漸近的最小化
BIC(ベイズ情報量規準):。標本サイズ で罰則強化、真のモデル選択向き
WAIC(Watanabe):特異モデル・階層モデルにも対応(渡辺澄夫 2010)
いずれも 対数尤度 - 罰則項 の形で、情報理論を背景に持つ。
特徴選択: 相互情報量で『目的変数との依存』を測り、上位を採用(`sklearn.feature_selection.mutual_info_classif`)。情報ボトルネック(Tishby): 深層学習の表現学習を情報理論で説明する理論的枠組み。InfoGAN・InfoVAE: 情報量を陽に扱った生成モデル。
結びに
情報理論は『確率の言語で情報を測る』分野。機械学習の損失関数・モデル選択・表現学習のすべてに食い込んでおり、AI 時代の数学的素養として今後も価値を増していきます。E 資格・準 1 級でより深く扱います。
第 10 章 · 凸最適化と機械学習の最適化
凸性と最適化
凸最適化(convex optimization) は、目的関数が凸・制約が凸集合の最適化問題。任意の局所最適解が大域最適解 という強力な性質をもち、機械学習の理論的解析の中心です。
凸関数の定義
関数 が 凸(convex) とは、任意の と について:
グラフが 下に凸(谷型)。任意の 2 点を結ぶ線分が、関数の上にある。
代表的な凸関数
- 線形関数 (凸かつ凹)
- 二次形式 ( が半正定値なら凸)
- 指数関数 、
- ノルム ()
- 最小二乗誤差 ─ 線形回帰の損失
- 交差エントロピー ─ ロジスティック回帰の損失
凸 = 局所最適 = 大域最適。勾配降下法は局所最適に落ちますが、凸問題なら局所 = 大域 なので最適性が保証されます。線形回帰・SVM・ロジスティック回帰は凸 → 解が一意・大域最適。一方 ニューラルネットは非凸 で、複数の局所最適があり、初期化に依存します。
ラグランジュ乗数法と KKT 条件
制約付き最適化 の標準ツール。等式制約はラグランジュ乗数、不等式制約は KKT 条件 で扱います。
ラグランジュ関数
等式制約 付きの について:
極値条件は かつ 。 は シャドウ価格(制約緩和の限界価値)を表す経済学的解釈も。
KKT 条件
不等式制約 も含む一般化:
1. 停留性: 2. 主問題実行可能性: , 3. 双対実行可能性: 4. 相補スラック性:
サポートベクターマシン(SVM) の解は KKT 条件から導かれる。マージン上の点(サポートベクター)で 、それ以外で ─ これが『サポートベクター以外のデータは予測に寄与しない』という SVM の特徴を生む。最適化と機械学習の美しい接続点。
SGD と現代の最適化アルゴリズム
深層学習の心臓部 ─ 確率的勾配降下法(SGD) とその発展系。データ全体で勾配を計算する古典手法では大規模学習が不可能なため、ミニバッチで近似します。
SGD と ミニバッチ
ミニバッチ (サイズ 32〜512)で勾配を近似。バッチ勾配降下より速く、純粋な確率的勾配より安定。深層学習の標準。
Momentum と Adam
勾配の 指数移動平均 で慣性を加える。 が標準。地形のジグザグを抑え、収束を速める。
1 次モーメント (平均)と 2 次モーメント (分散)を指数平均で追跡:
パラメータごとに適応的な学習率。深層学習のデファクト標準(Kingma & Ba 2014)。AdamW(weight decay 改善版)が現代の改良。
学習率スケジューラ
- Step decay: 一定エポックごとに学習率を 1/10 に
- Exponential decay: で指数的に
- Cosine annealing: コサイン関数で滑らかに下げる(SGDR)
- Warmup: 最初の数エポックは学習率を徐々に上げる(Transformer 学習で必須)
- One-cycle policy: 一山型で上昇 → 下降(Smith 2018)
最初の選択は Adam(lr=1e-3)+ Cosine decay。バッチサイズは GPU メモリと相談(32〜256 が多い)。LR Range Test(Smith 2017)で適切な学習率を見つける手法も実用的。困ったら Karpathy の有名 tweet「Adam の lr=3e-4 はだいたい何でも動く」が指針になります。
結びに ─ 数学基礎の地図完成
Ch1-10 で 統計のための数学 が一通り揃いました。指数対数・微積分・線形代数(基礎/発展)・確率・多変数微分・数値計算・情報理論・凸最適化 ─ これらは 統計検定 1 級・E 資格・データサイエンティスト の数学パートで前提となる教養です。
- [統計検定 2 級教科書](/textbook/grade-2) ─ ここまでの数学の応用
- [E 資格教科書](/certs/e-shikaku/textbook) ─ 深層学習の理論と実装
- [プログラミング教科書](/programming) ─ Python / R で実装する
- [統計用語集](/glossary) ─ 出会った用語をすぐ確認
第 11 章 · グラフ理論とスペクトラルグラフ ─ ネットワーク AI の数学
グラフの基礎と隣接行列
グラフ(graph) は『ノード(頂点)+ エッジ(辺)』の構造。SNS のフォロー関係・分子構造・タンパク質間相互作用・知識グラフなど、現代 AI のあらゆる応用分野で登場します。
グラフの主要種類
- 無向グラフ: エッジに方向がない(友達関係)
- 有向グラフ: エッジに方向がある(フォロー・引用)
- 重み付きグラフ: エッジに重み(距離・強度)
- 多重グラフ: 同じノードペアに複数エッジ
- 二部グラフ: ノードを 2 種類に分けてエッジは異種間のみ(ユーザー-アイテム)
隣接行列(Adjacency Matrix)
ノードのグラフについて の行列 :
重み付きなら 。無向グラフ → 対称行列。 の 成分は から への長さ の経路数を表す。
次数行列 は対角に各ノードの次数(エッジ数)を並べた行列。ラプラシアン行列 がスペクトラルグラフ理論の中核。 は 対称・半正定値(固有値非負)で、math Ch7 のスペクトル分解が直接応用されます。
グラフラプラシアンとスペクトラルクラスタリング
グラフラプラシアン の固有値・固有ベクトルから、グラフの本質的構造を抽出できる ─ これが スペクトラルグラフ理論 の核心です。
正規化ラプラシアン
対称正規化:
ランダムウォーク正規化:
両者とも固有値は の区間に収まる。0 固有値の重複度 = 連結成分の個数 という重要性質。
スペクトラルクラスタリング
1. 類似度グラフを構築(-NN またはガウスカーネル) 2. 正規化ラプラシアン を計算 3. 下位 個の固有ベクトル を列に並べた 行列 を構成 4. の各行を正規化(球面射影) 5. -means で各行をクラスタリング
ノード数が多くてもクラスタ数 が小さければ高速。任意形状のクラスタ に強い。
Cheeger 不等式
Cheeger 不等式: 。(2 番目に小さい固有値、Fiedler 値)が グラフが 2 つに分かれやすいか を量的に測る。 で『ほぼ非連結』 = クラスタ性あり。コミュニティ検出の理論的基盤。
Graph Neural Network(GNN)の数学的基盤
GNN(Graph Neural Network) は『グラフ構造を入力として深層学習する』モデル。SNS・推薦・創薬・知識グラフ ─ 現代の関係データ学習の中核です。
メッセージ パッシング
ノード の埋め込み更新:
各層で 隣接ノードからメッセージを集約 → 自分の埋め込みを更新。 層で ホップ先まで情報が伝播。
主要な GNN 系
- GCN(Graph Convolutional Network)(Kipf & Welling 2016): 半教師あり学習のパイオニア
- GraphSAGE(Hamilton et al. 2017): 大規模グラフ向けのサンプリング集約
- GAT(Graph Attention Network)(Veličković et al. 2018): Attention で隣接ノードの重みを学習
- GIN(Graph Isomorphism Network)(Xu et al. 2019): WL test と同等の表現力
- Graph Transformer: フルグラフ Self-Attention
応用領域
- 推薦システム: ユーザー-アイテム二部グラフで Pinterest が実用化
- 創薬: 分子グラフからの活性予測(DeepMind AlphaFold は Transformer ベース)
- ソーシャル: Twitter/X のフェイクニュース検出
- 交通: 地図ネットワークでの経路最適化(Google Maps の到着予測)
- サイバーセキュリティ: 通信ネットワークの異常検知
グラフラプラシアン(行列)を 固有値分解(線形代数)し、深層学習(微分)で更新する ─ math 教科書の Ch4 線形代数 → Ch6 多変数微分 → Ch7 固有値・SVD → Ch11 グラフ理論 が一つの流れで応用される現代 AI の中核です。
結びに
Ch1-11 で 古典数学から現代 AI までの数学的素養 が一通り揃いました。グラフ理論は math の最終章として、すべての章の道具(線形代数・微分・確率・最適化)が結集する分野です。統計とネットワーク科学の融合領域 は、今後さらに拡大していくでしょう。