回傳所有測驗引導式測驗 等級6 問題

根據人類回饋進行強化學習測驗

測試您對 RLHF 背後的階段和機制的理解。

問題 1 6正確: 0

RLHF 對於語言模型的主要目的是什麼?