返回所有测验引导式测验中等 级别6 问题

直接偏好优化测验

测试您对直接偏好优化如何工作以及它为何简化对齐的理解。

相关引导路径

问题 1 6正确: 0

与传统的 RLHF 相比,DPO 消除了什么?