本文へスキップ
統計ロードマップ
Glossary

Policy Gradient

読み: ぽりしーぐらでぃえんと英: Policy Gradient1強化学習

定義

方策 π を直接ニューラルネットでパラメータ化し、勾配上昇で報酬期待値を最大化する手法。

関連する用語(強化学習)