Glossary

RLHF

読み: あーるえるえいちえふ英: Reinforcement Learning from Human Feedback準1級強化学習

定義

人間が比較した嗜好データから報酬モデルを学習し、LLM を強化学習で微調整する手法。ChatGPT・Claude などの『有用で安全な対話エージェント化』の核心技術。

関連教材

関連する教科書の節を見る →

関連する用語(強化学習)