← すべてのクイズに戻るガイド連動クイズ • ハードレベル • 6 質問

グループ相対ポリシー最適化クイズ

GRPO が強化学習を使用して言語モデルをトレーニングする方法についての理解をテストします。

関連するガイドパス

グループ相対ポリシーの最適化

質問 1 の 6正解: 0

GRPO が排除する PPO の主なコンポーネントは何ですか?