返回所有测验引导式测验中等 级别6 问题

近端策略优化测验

测试您对 PPO 如何稳定强化学习及其在 RLHF 中的作用的理解。

相关引导路径

问题 1 6正确: 0

PPO 的“裁剪”主要解决什么问题?