Glossary

DPO

読み: でぃーぴーおー英: Direct Preference Optimization1級ファインチューニング

定義

Rafailov et al. 2023。RLHF の RL ステージを強化学習なしの教師あり学習に置き換える手法。実装が簡単で安定し、2023 年以降急速に普及。

関連教材

関連する教科書の節を見る →

関連する用語(ファインチューニング)