學習
新聞
工具
Jobs
術語表
認證
測驗
使命
支援
English
Search
⌘K
提交工具
捐款
English
Search
⌘K
學習
AI Guides & Foundations
新聞
Latest AI Developments
工具
Top AI Directory
Jobs
AI Hiring Board
術語表
AI Terms Dictionary
認證
Get Your AI Certificate
測驗
Interactive AI Assessments
使命
Why We Exist
支援
Help and Contact
提交工具
捐款
English
← 回傳所有測驗
引導式測驗 • 硬 等級 • 6 問題
RLHF 測驗中的分組獎勵標準化
測試您對分組獎勵標準化和 GRPO 演算法的理解。
相關引導路徑
Rlhf 中的分組獎勵標準化
問題 1 的 6
正確: 0
在分組獎勵標準化中,每個回應的獎勵與什麼進行比較?
需要提示嗎?
固定的全域常數
其自身提示組的平均值和標準差
上一個紀元的獎勵
模型參數個數