学ぶ
ニュース
ツール
Jobs
用語集
認定
クイズ
使命
サポート
English
Search
⌘K
AIツール投稿
寄付
English
Search
⌘K
学ぶ
AI Guides & Foundations
ニュース
Latest AI Developments
ツール
Top AI Directory
Jobs
AI Hiring Board
用語集
AI Terms Dictionary
認定
Get Your AI Certificate
クイズ
Interactive AI Assessments
使命
Why We Exist
サポート
Help and Contact
AIツール投稿
寄付
English
← すべてのクイズに戻る
ガイド連動クイズ • ハード レベル • 6 質問
RLHF クイズにおけるグループ化された報酬の正規化
グループ化された報酬の正規化と GRPO アルゴリズムについての理解をテストします。
関連するガイドパス
Rlhf でのグループ化された報酬の正規化
質問 1 の 6
正解: 0
グループ化された報酬の正規化では、各応答の報酬は何と比較されますか?
ヒントが必要ですか?
固定グローバル定数
自身のプロンプトのグループの平均と標準偏差
前のエポックからの報酬
モデルのパラメータ数