← 回傳所有測驗引導式測驗 • 硬等級 • 6 問題

根據人類回饋進行強化學習測驗

測試您對 RLHF 背後的階段和機制的理解。

相關引導路徑

從人類回饋中強化學習

問題 1 的 6正確： 0

RLHF 對於語言模型的主要目的是什麼？