学ぶ
ニュース
ツール
Jobs
用語集
認定
クイズ
使命
サポート
English
Search
⌘K
AIツール投稿
寄付
English
Search
⌘K
学ぶ
AI Guides & Foundations
ニュース
Latest AI Developments
ツール
Top AI Directory
Jobs
AI Hiring Board
用語集
AI Terms Dictionary
認定
Get Your AI Certificate
クイズ
Interactive AI Assessments
使命
Why We Exist
サポート
Help and Contact
AIツール投稿
寄付
English
← すべてのクイズに戻る
ガイド連動クイズ • ハード レベル • 6 質問
グループ相対ポリシー最適化クイズ
GRPO が強化学習を使用して言語モデルをトレーニングする方法についての理解をテストします。
関連するガイドパス
グループ相対ポリシーの最適化
質問 1 の 6
正解: 0
GRPO が排除する PPO の主なコンポーネントは何ですか?
ヒントが必要ですか?
報酬モデル
個別の学習値 (批評家) ネットワーク
トレーニング中のポリシー ネットワーク
KL ダイバージェンス ペナルティ