Kembali kepada semua kuizKuiz berkaitan panduanKeras Tahap6 Soalan

Normalisasi Ganjaran Berkumpulan dalam Kuiz RLHF

Uji pemahaman anda tentang normalisasi ganjaran berkumpulan dan algoritma GRPO.

Laluan panduan yang berkaitan

soalan 1 daripada 6Betul: 0

Dalam penormalan ganjaran berkumpulan, apakah yang dibandingkan dengan ganjaran setiap respons?