← Назад до всіх тестівВікторина, пов’язана з посібником • важко Рівень • 6 Питання
Вікторина щодо оптимізації відносної політики групи
Перевірте своє розуміння того, як GRPO тренує мовні моделі за допомогою навчання з підкріпленням.
Питання 1 з 6Правильно: 0