返回所有测验引导式测验 级别6 问题

根据人类反馈进行强化学习测验

测试您对 RLHF 背后的阶段和机制的理解。

问题 1 6正确: 0

RLHF 对于语言模型的主要目的是什么?