回傳所有測驗引導式測驗 等級6 問題

RLHF 測驗中的分組獎勵標準化

測試您對分組獎勵標準化和 GRPO 演算法的理解。

問題 1 6正確: 0

在分組獎勵標準化中,每個回應的獎勵與什麼進行比較?