← Tüm testlere geri dönRehber bağlantılı sınav • Sert Seviye • 6 Sorular
RLHF Sınavında Gruplandırılmış Ödül Normalleştirmesi
Gruplandırılmış ödül normalleştirmesi ve GRPO algoritması konusundaki anlayışınızı test edin.
Soru 1 arasında 6Doğru: 0
Gruplandırılmış ödül normalleştirmesi ve GRPO algoritması konusundaki anlayışınızı test edin.