← 返回所有测验引导式测验 • 硬级别 • 6 问题

根据人类反馈进行强化学习测验

测试您对 RLHF 背后的阶段和机制的理解。

相关引导路径

从人类反馈中强化学习

问题 1 的 6正确： 0

RLHF 对于语言模型的主要目的是什么？