テクニカルガイド

グループ相対ポリシーの最適化

Group Relative Policy Optimization (GRPO) は、同じプロンプトに対する兄弟回答のグループに対して各回答を判断する、言語モデルを微調整するための強化学習手法であり、PPO で使用される個別の値ネットワークを排除します。

概要

Group Relative Policy Optimization (GRPO) は、同じプロンプトに対する兄弟回答のグループに対して各回答を判断する、言語モデルを微調整するための強化学習手法であり、PPO で使用される個別の値ネットワークを排除します。これは、DeepSeek の推論モデルの背後にある中核となるトレーニング トリックとして有名になりました。

グループ相対ポリシーの最適化は、大規模なモデルの品質、インフラストラクチャのコスト、遅延、信頼性に影響を与える技術的な構成要素です。

ディープダイブ

GRPO は、大規模な言語モデルの RL 微調整をより安価かつより安定させるように設計されたポリシー勾配強化学習の一種です。標準 PPO では、各トークンがどれほど優れているかを推定するために、ポリシー自体とほぼ同じ規模の学習された「批評家」 (価値モデル) が必要です。 GRPO はその批判者を完全に排除します。プロンプトごとに、完了のグループ (たとえば 8 ~ 64) をサンプリングし、報酬信号でそれらすべてをスコア付けし、グループの平均と標準偏差に対して報酬を標準化することによって各完了の優位性を計算します。平均を上回る回答は強化され、平均を下回る回答は抑制されます。 KL ダイバージェンス項により、モデルは参照ポリシーに近づきます。 DeepSeek によって導入され、DeepSeekMath および DeepSeek-R1 推論モデルを強化しました。

技術的な洞察

重要なアイデアは、PPO の学習値ベースラインをモンテカルロ グループ ベースラインに置き換えることです。報酬 r_i を持つ出力のグループの場合、それぞれの利点は A_i = (r_i - means(r)) / std(r) です。その正規化されたスコアは、PPO とまったく同様に、クリップされた確率比を乗算し、凍結された参照モデルに対する KL ペナルティがドリフトを抑制します。批評家は訓練を受けていないため、メモリと計算量はおよそ半分になり、プロンプトごとの正規化により、自然にスケーリングされ、分散が小さい利点が得られます。

グループ相対ポリシーの最適化をマスターする

Group Relative Policy Optimization (GRPO) は、同じプロンプトに対する兄弟回答のグループに対して各回答を判断する、言語モデルを微調整するための強化学習手法であり、PPO で使用される個別の値ネットワークを排除します。これは、DeepSeek の推論モデルの背後にある中核となるトレーニング トリックとして有名になりました。グループ相対ポリシーの最適化は、大規模なモデルの品質、インフラストラクチャのコスト、遅延、信頼性に影響を与える技術的な構成要素です。深い理解を得るには、グループ相対ポリシーの最適化を単一の機能ではなくオペレーティング モデルとして扱います。望ましい結果を定義し、前提条件を明確にし、システムが確実に実行できることと専門家の判断が必要なことを分離します。

実際、グループ相対ポリシー最適化を使用する強力なチームは、信頼性とコストに照らしてアーキテクチャ、データ、インフラストラクチャの選択を最適化します。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。同時に、1 つのベンチマークを最適化すると、より広範なシステムの弱点が隠れる可能性があります。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。

戦略的影響

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

技術教育は、チームが最新のスタックだけでなく、適切なスタックを選択するのに役立ちます。

技術教育は、チームが最新のスタックだけでなく、適切なスタックを選択するのに役立ちます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

より良いエンジニアリングの選択により、本番環境での信頼性に関するインシデントが減少します。

より良いエンジニアリングの選択により、本番環境での信頼性に関するインシデントが減少します。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

グループ相対ポリシー最適化の将来

GRPO はオープン推論モデルをトレーニングするためのデフォルトのレシピとして急速に普及しており、研究室はその弱点について繰り返し研究を行っています。研究者たちは、長さと難易度のバイアス (GRPO 博士など) の修正、シーケンス レベルではなくトークン レベルの正規化、KL 用語の削除または再構成を検討しています。検証可能な報酬 (数学、コード、ツールの使用) との緊密な統合、スパース信号のより適切な処理、およびエージェント的なマルチステップ タスクに対するグループ ベースラインと軽量の批評家を組み合わせたハイブリッドが期待されます。

現実世界の実装

DeepSeek-R1 と DeepSeekMath をトレーニングして、数学の問題に対するルールベースの正解報酬を使用して長い思考連鎖推論を生成する

サンプルされた各ソリューションが単体テストに合格するかどうかによってスコア付けされ、勝者を選択するためにグループが正規化される、コード生成モデルの微調整

GRPO を使用したオープンソース RLHF パイプライン (TRL および verl ライブラリなど) により、個別のバリュー ネットワークに料金を支払うことなくチャット モデルを調整できます。

プロンプトごとに複数の応答をサンプリングし、報酬モデルで他の応答と比べて最も高い評価を与えたものに報酬を与えることで、指示に従う行動や安全行動を改善します。

実装パターン

グループ相対ポリシーの最適化の実践

DeepSeek-R1 と DeepSeekMath をトレーニングして、数学の問題に対するルールベースの正解報酬を使用して、長い思考連鎖の推論を生成します。

DeepSeek-R1 と DeepSeekMath をトレーニングして、数学問題に対するルールベースの正しさ報酬を使用して長い思考連鎖推論を生成する チームは、通常、品質のしきい値を事前に定義し、エッジ ケースに対する人間によるエスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

グループ相対ポリシーの最適化の実践

サンプルされた各ソリューションが単体テストに合格するかどうかによってスコア付けされ、勝者を選択するためにグループが正規化されるコード生成モデルを微調整します。

サンプリングされた各ソリューションが単体テストに合格するかどうかによってスコア付けされ、勝者を選択するためにグループが正規化される、コード生成モデルの微調整。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

グループ相対ポリシーの最適化の実践

GRPO を使用したオープンソース RLHF パイプライン (TRL および verl ライブラリなど) は、個別のバリュー ネットワークに料金を支払うことなくチャット モデルを調整します。

オープンソースの RLHF パイプライン (TRL および Verl ライブラリなど) は、GRPO を使用して、個別のバリュー ネットワークに料金を支払うことなくチャット モデルを調整します。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

グループ相対ポリシーの最適化の実践

プロンプトごとにいくつかの応答をサンプリングし、報酬モデルで他の応答と比較して最も高い評価を与えたものに報酬を与えることで、指示に従う行動や安全行動を改善します。

プロンプトごとに複数の応答をサンプリングし、報酬モデルの評価が他のチームと比較して最も高いものに報酬を与えることで、指示に従う行動や安全行動を改善します。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

リスクとガードレール

!

1 つのベンチマークを最適化すると、より広範なシステムの弱点が隠れる可能性があります。

!

インフラストラクチャとメンテナンスのコストは過小評価されがちです。

!

システムが複雑になるにつれて、セキュリティと可観測性のギャップが拡大する可能性があります。

実装ロードマップ

1

実装前にレイテンシ、品質、コストの目標を定義します。

実装前にレイテンシ、品質、コストの目標を定義します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

2

現実的な負荷とデータ条件でのベンチマーク。

現実的な負荷とデータ条件でのベンチマーク。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

3

エラー、ドリフト、ユーザーへの影響を計測器で監視します。

エラー、ドリフト、ユーザーへの影響を計測器で監視します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

4

スケーリングの前に、ロールバックとインシデント対応のパスを準備します。

スケーリングの前に、ロールバックとインシデント対応のパスを準備します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

探検を続けましょう