ESC
キーワードを入力してください

RLHF (Reinforcement Learning from Human Feedback)

training
提唱/開発 OpenAI OpenAI
登場日 2022年3月
表示形式

人間のフィードバックを報酬モデル経由で強化学習する手法。

InstructGPT・ChatGPT で実用化。