← 返回所有测验引导式测验 • 中等级别 • 6 问题

近端策略优化测验

测试您对 PPO 如何稳定强化学习及其在 RLHF 中的作用的理解。

相关引导路径

近端策略优化

问题 1 的 6正确： 0

PPO 的“裁剪”主要解决什么问题？