回傳所有測驗引導式測驗中等 等級6 問題

直接偏好優化測驗

測試您對直接偏好優化如何運作以及它為何簡化對齊的理解。

相關引導路徑

問題 1 6正確: 0

與傳統的 RLHF 相比,DPO 消除了什麼?