← 回傳所有測驗引導式測驗 • 硬等級 • 6 問題

RLHF 測驗中的分組獎勵標準化

測試您對分組獎勵標準化和 GRPO 演算法的理解。

相關引導路徑

Rlhf 中的分組獎勵標準化

問題 1 的 6正確： 0

在分組獎勵標準化中，每個回應的獎勵與什麼進行比較？