← กลับไปที่แบบทดสอบทั้งหมดแบบทดสอบที่เชื่อมโยงกับคำแนะนำ • ยาก ระดับ • 6 คำถาม
การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มในแบบทดสอบ RLHF
ทดสอบความเข้าใจของคุณเกี่ยวกับการทำให้รางวัลเป็นมาตรฐานแบบกลุ่มและอัลกอริทึม GRPO
คำถาม 1 ของ 6ถูกต้อง: 0
ทดสอบความเข้าใจของคุณเกี่ยวกับการทำให้รางวัลเป็นมาตรฐานแบบกลุ่มและอัลกอริทึม GRPO