Назад към всички викториниТест, свързан с ръководствотрудно Ниво6 Въпроси

Нормализиране на групираната награда в RLHF тест

Тествайте разбирането си за нормализацията на групираната награда и алгоритъма GRPO.

Въпрос 1 на 6Правилно: 0

При нормализацията на групираната награда, с какво се сравнява наградата за всеки отговор?