กลับไปที่แบบทดสอบทั้งหมดแบบทดสอบที่เชื่อมโยงกับคำแนะนำยาก ระดับ6 คำถาม

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มในแบบทดสอบ RLHF

ทดสอบความเข้าใจของคุณเกี่ยวกับการทำให้รางวัลเป็นมาตรฐานแบบกลุ่มและอัลกอริทึม GRPO

เส้นทางแนะนำที่เกี่ยวข้อง

คำถาม 1 ของ 6ถูกต้อง: 0

ในการทำให้รางวัลเป็นมาตรฐานแบบกลุ่ม รางวัลของแต่ละคำตอบเทียบกับอะไร?