Tüm testlere geri dönRehber bağlantılı sınavSert Seviye6 Sorular

RLHF Sınavında Gruplandırılmış Ödül Normalleştirmesi

Gruplandırılmış ödül normalleştirmesi ve GRPO algoritması konusundaki anlayışınızı test edin.

Soru 1 arasında 6Doğru: 0

Gruplandırılmış ödül normalleştirmesinde her bir yanıtın ödülü neye göre karşılaştırılır?