← 返回所有测验引导式测验 • 中等等级 • 6 问题

迭代 DPO 和在线偏好调整测验

检查您对迭代和在线偏好优化如何改进语言模型的掌握。

相关引导路径

迭代 DPO 和在线偏好调整

问题 1 的 6正确： 0

DPO 避免了传统 RLHF (PPO) 要求的哪些内容？