返回所有测验引导式测验中等 级别6 问题

迭代 DPO 和在线偏好调整测验

检查您对迭代和在线偏好优化如何改进语言模型的掌握。

问题 1 6正确: 0

DPO 避免了传统 RLHF (PPO) 要求的哪些内容?