← Kembali ke semua kuisKuis terkait panduan • Sedang Tingkat • 6 Pertanyaan

DPO berulang dan Kuis Penyetelan Preferensi Online

Periksa pemahaman Anda tentang bagaimana pengoptimalan preferensi berulang dan online meningkatkan model bahasa.

Jalur panduan terkait

Pertanyaan 1 dari 6Benar: 0

Apa yang DPO hindari yang dibutuhkan oleh RLHF (PPO) tradisional?