學習
新聞
工具
Jobs
術語表
認證
測驗
使命
支援
English
Search
⌘K
提交工具
捐款
English
Search
⌘K
學習
AI Guides & Foundations
新聞
Latest AI Developments
工具
Top AI Directory
Jobs
AI Hiring Board
術語表
AI Terms Dictionary
認證
Get Your AI Certificate
測驗
Interactive AI Assessments
使命
Why We Exist
支援
Help and Contact
提交工具
捐款
English
← 回傳所有測驗
引導式測驗 • 中等 等級 • 6 問題
迭代 DPO 和線上偏好調整測驗
檢查您對迭代和線上偏好優化如何改進語言模型的掌握。
相關引導路徑
迭代 DPO 和線上偏好調整
問題 1 的 6
正確: 0
DPO 避免了傳統 RLHF (PPO) 要求的哪些內容?
需要提示嗎?
任何訓練數據
訓練單獨的顯性獎勵模型
使用神經網絡
完全是人類的喜好