返回所有测验引导式测验中等 级别6 问题

数学推理测验过程监督

测试您对阶梯奖励如何改进语言模型中的数学推理的理解。

相关引导路径

问题 1 6正确: 0

过程监督和结果监督之间的主要区别是什么?