Назад до всіх тестівВікторина, пов’язана з посібникомважко Рівень6 Питання

Нормалізація згрупованої винагороди у вікторині RLHF

Перевірте своє розуміння нормування згрупованої винагороди та алгоритму GRPO.

Питання 1 з 6Правильно: 0

У нормалізації згрупованої винагороди, з чим порівнюється винагорода кожної відповіді?