本文へスキップ
統計ロードマップ
Glossary

Bellman 方程式

読み: べるまんほうていしき英: Bellman Equation1強化学習

定義

現在の価値 = 即時報酬 + 割引した次状態の価値、という再帰的な等式。動的計画法と強化学習の理論的中核。

関連する用語(強化学習)