学习
新闻
工具
Jobs
术语表
认证
测验
使命
支持
English
Search
⌘K
提交工具
捐赠
English
Search
⌘K
学习
AI Guides & Foundations
新闻
Latest AI Developments
工具
Top AI Directory
Jobs
AI Hiring Board
术语表
AI Terms Dictionary
认证
Get Your AI Certificate
测验
Interactive AI Assessments
使命
Why We Exist
支持
Help and Contact
提交工具
捐赠
English
← 返回所有测验
引导式测验 • 硬 级别 • 6 问题
RLHF 测验中的分组奖励标准化
测试您对分组奖励标准化和 GRPO 算法的理解。
相关引导路径
Rlhf 中的分组奖励标准化
问题 1 的 6
正确: 0
在分组奖励标准化中,每个响应的奖励与什么进行比较?
需要提示吗?
固定的全局常数
其自身提示组的平均值和标准差
上一个纪元的奖励
模型参数个数