2026-04-30·強化学習·⏱ 約 4 分

強化学習入門 ─ 報酬で学ぶエージェントの仕組み

AlphaGo・ChatGPT の RLHF・自動運転 ─ 強化学習の基本概念(MDP・Q-learning・Policy Gradient)を、エージェントが迷路を解く例で直感的に。

強化学習(Reinforcement Learning, RL) は、教師あり学習・教師なし学習に並ぶ第 3 のパラダイム。AlphaGo、ChatGPT の RLHF、自動運転、ロボティクスなど、最先端 AI で使われています。

強化学習の枠組み

エージェントが 状態 $s$ を観測 → 行動 $a$ を選択 → 環境が次の 状態 $s^{'}$ と報酬 $r$ を返す ─ これを繰り返して 累積報酬を最大化する方策 を学ぶ。

π max E [t = 0 \sum \infty γ^{t} r_{t}]

💡 ポイント

教師あり学習は『正解との差』を最小化、強化学習は『将来含む報酬』を最大化。報酬は遅延して得られることが多い(囲碁の勝ち負けは最後だけ)。

MDP(マルコフ決定過程)

RL の数学的枠組み。 $(S, A, P, R, γ)$ の 5 要素で定式化:

$S$ : 状態集合
$A$ : 行動集合
$P (s^{'} ∣ s, a)$ : 遷移確率
$R (s, a)$ : 報酬関数
$γ \in [0, 1)$ : 割引率(将来の重み)

Q-learning(価値ベース)

状態行動価値関数 $Q (s, a)$ を学習し、最大の Q を選ぶ方策に従う。

Q (s, a) \leftarrow Q (s, a) + α [r + γ a^{'} max Q (s^{'}, a^{'}) - Q (s, a)]

迷路を解く Q-learning(20 行)

import numpy as np

states, actions = 16, 4  # 4x4 グリッド, 上下左右
Q = np.zeros((states, actions))
alpha, gamma, eps = 0.1, 0.95, 0.2

for episode in range(1000):
    s = 0
    while s != states - 1:  # ゴールまで
        a = np.random.choice(actions) if np.random.rand() < eps else np.argmax(Q[s])
        s_next, r = step(s, a)  # 環境関数(別途定義)
        Q[s, a] += alpha * (r + gamma * Q[s_next].max() - Q[s, a])
        s = s_next

Policy Gradient(方策ベース)

方策 $π_{θ} (a ∣ s)$ をニューラルネットでパラメータ化し、勾配上昇で報酬期待値を最大化。

\nabla_{θ} J (θ) = E [\nabla_{θ} lo g π_{θ} (a ∣ s) \cdot R]

実用アルゴリズム

DQN: Q-learning + ニューラルネット + 経験再生(Atari で有名)
A2C / A3C: Actor-Critic の並列版
PPO: 安定性に優れた方策勾配。RLHF の標準
SAC: 連続制御で強い、エントロピー正則化
MuZero: モデルベース RL、AlphaZero の後継

AI エンジニアでの使いどころ

ChatGPT の RLHF: 人間フィードバックで LLM を最適化
推薦システム: ユーザー反応を報酬として方策学習
広告入札: マルチアームバンディットの応用
ロボティクス: シミュレーション → 実機転送
ゲーム AI: AlphaGo・StarCraft II・Dota 2

学習リソース

[E 資格教科書](/certs/e-shikaku/textbook) ─ 強化学習の章
[ベイズ統計と頻度論](/blog/bayes-vs-frequentist)
[線形代数を AI 視点で](/blog/linear-algebra-for-ai)
[AI Engineer Roadmap](/roadmap)