← 回傳所有測驗引導式測驗 • 中等等級 • 6 問題

直接偏好優化測驗

測試您對直接偏好優化如何運作以及它為何簡化對齊的理解。

相關引導路徑

直接偏好優化

問題 1 的 6正確： 0

與傳統的 RLHF 相比，DPO 消除了什麼？