ホーム›用語集›Bellman 方程式GlossaryBellman 方程式☆読み: べるまんほうていしき英: Bellman Equation1級強化学習定義現在の価値 = 即時報酬 + 割引した次状態の価値、という再帰的な等式。動的計画法と強化学習の理論的中核。関連する用語(強化学習)RLHFあーるえるえいちえふMDPえむでぃーぴーQ-learningきゅーらーにんぐDQNでぃーきゅーえぬPolicy GradientぽりしーぐらでぃえんとPPOぴーぴーおーActor-Criticあくたーくりてぃっく報酬関数ほうしゅうかんすう割引率わりびきりつ経験再生けいけんさいせい指数型分布族しすうがたぶんぷぞく十分統計量じゅうぶんとうけいりょう← 用語集トップへサイト内を検索