學習
新聞
工具
Jobs
術語表
認證
測驗
使命
支援
English
Search
⌘K
提交工具
捐款
English
Search
⌘K
學習
AI Guides & Foundations
新聞
Latest AI Developments
工具
Top AI Directory
Jobs
AI Hiring Board
術語表
AI Terms Dictionary
認證
Get Your AI Certificate
測驗
Interactive AI Assessments
使命
Why We Exist
支援
Help and Contact
提交工具
捐款
English
← 回傳所有測驗
引導式測驗 • 中等 等級 • 6 問題
近端策略優化測驗
測試您對 PPO 如何穩定強化學習及其在 RLHF 中的作用的理解。
相關引導路徑
近端策略優化
問題 1 的 6
正確: 0
PPO 的“裁剪”主要解决什么问题?
需要提示嗎?
數據加載緩慢
政策更新过大,导致训练不稳定
詞彙量限制
推理期间的内存使用情况