กลับไปที่แบบทดสอบทั้งหมดแบบทดสอบที่เชื่อมโยงกับคำแนะนำปานกลาง ระดับ6 คำถาม

แบบทดสอบการเพิ่มประสิทธิภาพการตั้งค่าโดยตรง

ทดสอบความเข้าใจของคุณเกี่ยวกับวิธีการทำงานของ Direct Preference Optimization และเหตุใดจึงทำให้การจัดตำแหน่งง่ายขึ้น

เส้นทางแนะนำที่เกี่ยวข้อง

คำถาม 1 ของ 6ถูกต้อง: 0

DPO กำจัดอะไรได้บ้างเมื่อเปรียบเทียบกับ RLHF แบบดั้งเดิม