ESC
キーワードを入力してください

GRPO (Group Relative Policy Optimization)

training
提唱/開発 DeepSeek
登場日 2024年2月
表示形式

PPO の派生で、グループ内相対報酬で価値関数を不要にする強化学習アルゴリズム。

DeepSeek-R1 が大規模に採用。