学习
新闻
工具
Jobs
术语表
认证
测验
使命
支持
English
Search
⌘K
提交工具
捐赠
English
Search
⌘K
学习
AI Guides & Foundations
新闻
Latest AI Developments
工具
Top AI Directory
Jobs
AI Hiring Board
术语表
AI Terms Dictionary
认证
Get Your AI Certificate
测验
Interactive AI Assessments
使命
Why We Exist
支持
Help and Contact
提交工具
捐赠
English
← 返回所有测验
引导式测验 • 中等 级别 • 6 问题
直接偏好优化测验
测试您对直接偏好优化如何工作以及它为何简化对齐的理解。
相关引导路径
直接偏好优化
问题 1 的 6
正确: 0
与传统的 RLHF 相比,DPO 消除了什么?
需要提示吗?
需要任何人类偏好数据
单独的奖励模型和强化学习循环
基础预训练语言模型
对数概率的使用