GRPO (Group Relative Policy Optimization)

training

提唱/開発 DeepSeek

登場日 2024年2月

表示形式

PPO の派生で、グループ内相対報酬で価値関数を不要にする強化学習アルゴリズム。

DeepSeek-R1 が大規模に採用。

🔗 外部リンク

📄 arXiv論文

次に進む

目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。

記事・解説・ニュースから学習する

モデル・ツール・タイムラインを比較して判断する

導入・活用の相談をフォームで送る