すべてのクイズに戻るガイド連動クイズハード レベル6 質問

グループ相対ポリシー最適化クイズ

GRPO が強化学習を使用して言語モデルをトレーニングする方法についての理解をテストします。

質問 1 6正解: 0

GRPO が排除する PPO の主なコンポーネントは何ですか?