Glossary
RLHF
読み: あーるえるえいちえふ英: Reinforcement Learning from Human Feedback準1級強化学習
定義
人間が比較した嗜好データから報酬モデルを学習し、LLM を強化学習で微調整する手法。ChatGPT・Claude などの『有用で安全な対話エージェント化』の核心技術。
人間が比較した嗜好データから報酬モデルを学習し、LLM を強化学習で微調整する手法。ChatGPT・Claude などの『有用で安全な対話エージェント化』の核心技術。