GRPO (Group Relative Policy Optimization)
training
提唱/開発
DeepSeek
登場日
2024年2月
表示形式
PPO の派生で、グループ内相対報酬で価値関数を不要にする強化学習アルゴリズム。
DeepSeek-R1 が大規模に採用。
🔗 外部リンク
次に進む
目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。
PPO の派生で、グループ内相対報酬で価値関数を不要にする強化学習アルゴリズム。
DeepSeek-R1 が大規模に採用。
目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。