ホーム›用語集›Policy GradientGlossaryPolicy Gradient☆読み: ぽりしーぐらでぃえんと英: Policy Gradient1級強化学習定義方策 π を直接ニューラルネットでパラメータ化し、勾配上昇で報酬期待値を最大化する手法。関連する用語(強化学習)RLHFあーるえるえいちえふMDPえむでぃーぴーQ-learningきゅーらーにんぐDQNでぃーきゅーえぬPPOぴーぴーおーActor-CriticあくたーくりてぃっくBellman 方程式べるまんほうていしき報酬関数ほうしゅうかんすう割引率わりびきりつ経験再生けいけんさいせい指数型分布族しすうがたぶんぷぞく十分統計量じゅうぶんとうけいりょう← 用語集トップへサイト内を検索