DPO (Direct Preference Optimization)

training

登場日 2023年5月

表示形式

報酬モデルを介さず、人間の好みデータから直接 LLM を最適化する手法。

RLHF より計算コストが低く実装が単純。

🔗 外部リンク

📄 arXiv論文

次に進む

目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。

記事・解説・ニュースから学習する

モデル・ツール・タイムラインを比較して判断する

導入・活用の相談をフォームで送る