← 回傳所有測驗引導式測驗 • 中等等級 • 6 問題

迭代 DPO 和線上偏好調整測驗

檢查您對迭代和線上偏好優化如何改進語言模型的掌握。

相關引導路徑

迭代 DPO 和線上偏好調整

問題 1 的 6正確： 0

DPO 避免了傳統 RLHF (PPO) 要求的哪些內容？