ESC
キーワードを入力してください

DPO (Direct Preference Optimization)

training
登場日 2023年5月
表示形式

報酬モデルを介さず、人間の好みデータから直接 LLM を最適化する手法。

RLHF より計算コストが低く実装が単純。