RLHF (Reinforcement Learning from Human Feedback)
training
提唱/開発
OpenAI
登場日
2022年3月
表示形式
人間のフィードバックを報酬モデル経由で強化学習する手法。
InstructGPT・ChatGPT で実用化。
🔗 外部リンク
次に進む
目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。
人間のフィードバックを報酬モデル経由で強化学習する手法。
InstructGPT・ChatGPT で実用化。
目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。