Kembali ke semua kuisKuis terkait panduanKeras Tingkat6 Pertanyaan

Normalisasi Hadiah yang Dikelompokkan dalam Kuis RLHF

Uji pemahaman Anda tentang normalisasi imbalan berkelompok dan algoritma GRPO.

Pertanyaan 1 dari 6Benar: 0

Dalam normalisasi imbalan berkelompok, dengan apa imbalan masing-masing respons dibandingkan?