กลับไปที่แบบทดสอบทั้งหมดแบบทดสอบที่เชื่อมโยงกับคำแนะนำยาก ระดับ6 คำถาม

การเรียนรู้การเสริมแรงจากแบบทดสอบคำติชมของมนุษย์

ทดสอบความเข้าใจของคุณเกี่ยวกับขั้นตอนและกลไกเบื้องหลัง RLHF

คำถาม 1 ของ 6ถูกต้อง: 0

จุดประสงค์หลักของ RLHF สำหรับโมเดลภาษาคืออะไร?