ホーム›用語集›PPOGlossaryPPO☆読み: ぴーぴーおー英: Proximal Policy Optimization1級強化学習定義方策更新を一定範囲(クリップ)に抑える方策勾配法。安定性と性能のバランスが良く、RLHF の標準。関連する用語(強化学習)RLHFあーるえるえいちえふMDPえむでぃーぴーQ-learningきゅーらーにんぐDQNでぃーきゅーえぬPolicy GradientぽりしーぐらでぃえんとActor-CriticあくたーくりてぃっくBellman 方程式べるまんほうていしき報酬関数ほうしゅうかんすう割引率わりびきりつ経験再生けいけんさいせい指数型分布族しすうがたぶんぷぞく十分統計量じゅうぶんとうけいりょう← 用語集トップへサイト内を検索