← 返回所有测验引导式测验 • 中等级别 • 6 问题

直接偏好优化测验

测试您对直接偏好优化如何工作以及它为何简化对齐的理解。

相关引导路径

直接偏好优化

问题 1 的 6正确： 0

与传统的 RLHF 相比，DPO 消除了什么？