Kembali kepada semua kuizKuiz berkaitan panduanSederhana Tahap6 Soalan

DPO berulang dan Kuiz Penalaan Keutamaan Dalam Talian

Semak pemahaman anda tentang cara pengoptimuman pilihan berulang dan dalam talian meningkatkan model bahasa.

soalan 1 daripada 6Betul: 0

Apakah yang DPO elakkan yang diperlukan oleh RLHF (PPO) tradisional?