回傳所有測驗引導式測驗中等 等級6 問題

迭代 DPO 和線上偏好調整測驗

檢查您對迭代和線上偏好優化如何改進語言模型的掌握。

問題 1 6正確: 0

DPO 避免了傳統 RLHF (PPO) 要求的哪些內容?