回傳所有測驗引導式測驗中等 等級6 問題

偏好優化測驗中的長度標準化

測試您對在偏好優化期間應用長度歸一化的原因和方式的理解。

問題 1 6正確: 0

DPO 中的長度標準化主要旨在防止哪些不良行為?