学习
新闻
工具
Jobs
术语表
认证
测验
使命
支持
English
Search
⌘K
提交工具
捐赠
English
Search
⌘K
学习
AI Guides & Foundations
新闻
Latest AI Developments
工具
Top AI Directory
Jobs
AI Hiring Board
术语表
AI Terms Dictionary
认证
Get Your AI Certificate
测验
Interactive AI Assessments
使命
Why We Exist
支持
Help and Contact
提交工具
捐赠
English
← 返回所有测验
引导式测验 • 中等 级别 • 6 问题
Q-学习测验
测试您对 Q-Learning 如何估计行动价值并收敛到最佳行为的理解。
相关引导路径
问学习
问题 1 的 6
正确: 0
Q值Q(s, a)代表什么?
需要提示吗?
处于状态 s 的概率
在状态 s 中采取行动 a,然后采取最佳行动的预期长期回报
操作 a 已尝试的次数
仅针对行动a的即时奖励