DPO (Direct Preference Optimization)
training
登場日
2023年5月
表示形式
報酬モデルを介さず、人間の好みデータから直接 LLM を最適化する手法。
RLHF より計算コストが低く実装が単純。
🔗 外部リンク
次に進む
目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。
報酬モデルを介さず、人間の好みデータから直接 LLM を最適化する手法。
RLHF より計算コストが低く実装が単純。
目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。