กลับไปที่แบบทดสอบทั้งหมดแบบทดสอบที่เชื่อมโยงกับคำแนะนำปานกลาง ระดับ6 คำถาม

DPO ซ้ำและแบบทดสอบการปรับแต่งการตั้งค่าออนไลน์

ตรวจสอบความเข้าใจของคุณว่าการเพิ่มประสิทธิภาพการตั้งค่าแบบออนไลน์และแบบวนซ้ำช่วยปรับปรุงโมเดลภาษาได้อย่างไร

เส้นทางแนะนำที่เกี่ยวข้อง

คำถาม 1 ของ 6ถูกต้อง: 0

DPO หลีกเลี่ยงสิ่งที่ RLHF (PPO) แบบดั้งเดิมต้องการอะไร