ホーム›用語集›DPOGlossaryDPO☆読み: でぃーぴーおー英: Direct Preference Optimization1級ファインチューニング定義Rafailov et al. 2023。RLHF の RL ステージを強化学習なしの教師あり学習に置き換える手法。実装が簡単で安定し、2023 年以降急速に普及。関連教材関連する教科書の節を見る →関連する用語(ファインチューニング)DoRAどーら指数型分布族しすうがたぶんぷぞく十分統計量じゅうぶんとうけいりょう最尤推定さいゆうすいていフィッシャー情報量ふぃっしゃーじょうほうりょうクラメル・ラオの下限くらめる・らおのかげんデルタ法でるたほうネイマン・ピアソン補題ねいまん・ぴあそんほだい尤度比検定ゆうどひけんていEM アルゴリズムいーえむあるごりずむMCMCえむしーえむしーブートストラップぶーとすとらっぷ← 用語集トップへサイト内を検索