回傳所有測驗引導式測驗中等 等級6 問題

數學推理測驗過程監督

測試您對階梯獎勵如何改進語言模型中的數學推理的理解。

相關引導路徑

問題 1 6正確: 0

過程監督和結果監督之間的主要區別是什麼?