Glossary

PPO

読み: ぴーぴーおー英: Proximal Policy Optimization1級強化学習

定義

方策更新を一定範囲(クリップ)に抑える方策勾配法。安定性と性能のバランスが良く、RLHF の標準。

関連する用語(強化学習)