← Назад до всіх тестівВікторина, пов’язана з посібником • важко Рівень • 6 Питання
Нормалізація згрупованої винагороди у вікторині RLHF
Перевірте своє розуміння нормування згрупованої винагороди та алгоритму GRPO.
Питання 1 з 6Правильно: 0
Перевірте своє розуміння нормування згрупованої винагороди та алгоритму GRPO.