Kembali ke semua kuisKuis terkait panduanSedang Tingkat6 Pertanyaan

DPO berulang dan Kuis Penyetelan Preferensi Online

Periksa pemahaman Anda tentang bagaimana pengoptimalan preferensi berulang dan online meningkatkan model bahasa.

Pertanyaan 1 dari 6Benar: 0

Apa yang DPO hindari yang dibutuhkan oleh RLHF (PPO) tradisional?