学习
新闻
工具
Jobs
术语表
认证
测验
使命
支持
English
Search
⌘K
提交工具
捐赠
English
Search
⌘K
学习
AI Guides & Foundations
新闻
Latest AI Developments
工具
Top AI Directory
Jobs
AI Hiring Board
术语表
AI Terms Dictionary
认证
Get Your AI Certificate
测验
Interactive AI Assessments
使命
Why We Exist
支持
Help and Contact
提交工具
捐赠
English
← 返回所有测验
引导式测验 • 中等 级别 • 6 问题
近端策略优化测验
测试您对 PPO 如何稳定强化学习及其在 RLHF 中的作用的理解。
相关引导路径
近端策略优化
问题 1 的 6
正确: 0
PPO 的“裁剪”主要解决什么问题?
需要提示吗?
数据加载缓慢
政策更新过大,导致训练不稳定
词汇量限制
推理期间的内存使用情况