学习
新闻
工具
Jobs
术语表
认证
测验
使命
支持
English
Search
⌘K
提交工具
捐赠
English
Search
⌘K
学习
AI Guides & Foundations
新闻
Latest AI Developments
工具
Top AI Directory
Jobs
AI Hiring Board
术语表
AI Terms Dictionary
认证
Get Your AI Certificate
测验
Interactive AI Assessments
使命
Why We Exist
支持
Help and Contact
提交工具
捐赠
English
← 返回所有测验
引导式测验 • 中等 级别 • 6 问题
迭代 DPO 和在线偏好调整测验
检查您对迭代和在线偏好优化如何改进语言模型的掌握。
相关引导路径
迭代 DPO 和在线偏好调整
问题 1 的 6
正确: 0
DPO 避免了传统 RLHF (PPO) 要求的哪些内容?
需要提示吗?
任何训练数据
训练单独的显式奖励模型
使用神经网络
完全是人类的喜好