Назад до всіх тестівВікторина, пов’язана з посібникомважко Рівень6 Питання

Вікторина щодо оптимізації відносної політики групи

Перевірте своє розуміння того, як GRPO тренує мовні моделі за допомогою навчання з підкріпленням.

Питання 1 з 6Правильно: 0

Який основний компонент PPO виключає GRPO?