← 回傳所有測驗引導式測驗 • 中等等級 • 6 問題

近端策略優化測驗

測試您對 PPO 如何穩定強化學習及其在 RLHF 中的作用的理解。

相關引導路徑

近端策略優化

問題 1 的 6正確： 0

PPO 的“裁剪”主要解决什么问题？