Технічний КЕРІВНИЦТВО

Оптимізація групової відносної політики

Оптимізація групової відносної політики (GRPO) — це метод навчання з підкріпленням для точного налаштування мовних моделей, який порівнює кожну відповідь із групою однотипних відповідей на той самий запит, усуваючи окрему мережу значень, яку використовує PPO.

Огляд

Оптимізація групової відносної політики (GRPO) — це метод навчання з підкріпленням для точного налаштування мовних моделей, який порівнює кожну відповідь із групою однотипних відповідей на той самий запит, усуваючи окрему мережу значень, яку використовує PPO. Він став відомим як основний навчальний трюк, що лежить в основі моделей міркування DeepSeek.

Оптимізація групової відносної політики — це технічний будівельний блок, який впливає на якість моделі, вартість інфраструктури, затримку та надійність у масштабі.

Глибоке занурення

GRPO — це варіант навчання з підкріпленням градієнта політики, розроблений для того, щоб зробити тонке налаштування RL великих мовних моделей дешевшим і стабільнішим. Стандартний PPO потребує навченого «критика» (модель вартості), приблизно такого ж масштабу, як і сама політика, щоб оцінити, наскільки хороший кожен маркер. GRPO повністю знімає цю критику. Для кожної підказки він відбирає групу завершень (скажімо, 8-64), оцінює їх усі за допомогою сигналу винагороди, а потім обчислює перевагу кожного завершення, стандартизуючи винагороду щодо середнього значення групи та стандартного відхилення. Відповіді вище середнього посилюються, а нижче середнього пригнічуються. Термін KL-дивергенції утримує модель близько до еталонної політики. Представлений компанією DeepSeek, він використовував моделі міркування DeepSeekMath і DeepSeek-R1.

Технічне розуміння

Ключова ідея полягає в заміні базового рівня вивченого значення PPO на базовий рівень групи Монте-Карло. Для групи результатів із винагородами r_i кожна перевага дорівнює A_i = (r_i - середнє (r)) / стандартне значення (r). Ця нормалізована оцінка множить обрізане відношення ймовірностей, точно як у PPO, а штраф KL проти замороженої еталонної моделі стримує дрейф. Оскільки жоден критик не навчений, пам’ять і обчислення скорочуються приблизно вдвічі, а нормалізація кожного підказки дає переваги природного масштабу з низькою дисперсією.

Освоєння оптимізації відносної політики групи

Оптимізація групової відносної політики (GRPO) — це метод навчання з підкріпленням для точного налаштування мовних моделей, який порівнює кожну відповідь із групою однотипних відповідей на той самий запит, усуваючи окрему мережу значень, яку використовує PPO. Він став відомим як основний навчальний трюк, що лежить в основі моделей міркування DeepSeek. Оптимізація групової відносної політики — це технічний будівельний блок, який впливає на якість моделі, вартість інфраструктури, затримку та надійність у масштабі. Щоб побудувати глибоке розуміння, розглядайте оптимізацію групової відносної політики як робочу модель, а не як окрему функцію: визначте бажані результати, уточніть припущення та відокремте те, що система може зробити надійно, від того, що все ще потребує експертної оцінки.

На практиці сильні команди, які використовують оптимізацію групової відносної політики, оптимізують вибір архітектури, даних та інфраструктури в порівнянні з надійністю та вартістю. Вони документують чіткі критерії успіху, перевіряють реалістичні дані та робочі процеси та виконують ітерацію на основі спостережуваних моделей невдач, а не одноразових перемог у тестах. Саме тут теоретичне розуміння перетворюється на довготривалу здатність щодо продуктів, політики та операцій.

Архітектурні рішення збільшують продуктивність і експлуатаційні витрати протягом багатьох років. У той же час оптимізація одного тесту може приховати ширші слабкі сторони системи. Найбільш стійкий підхід полягає в поєднанні швидкості експериментів із дисципліною управління: запускайте пілотні проекти, збирайте докази, публікуйте журнали рішень і постійно оновлюйте запобіжні заходи в міру розвитку поведінки моделі, очікувань користувачів і нормативних вимог.

Стратегічний вплив

Архітектурні рішення збільшують продуктивність і експлуатаційні витрати протягом багатьох років.

Архітектурні рішення збільшують продуктивність і експлуатаційні витрати протягом багатьох років. У високоякісних розгортаннях це перетворюється на вимірювані правила роботи, межі власності та повторювані ритуали перевірки, щоб команди могли масштабувати впевненість замість масштабування неоднозначності.

Технічна освіта допомагає командам вибрати правильний стек, а не лише найновіший.

Технічна освіта допомагає командам вибрати правильний стек, а не лише найновіший. У високоякісних розгортаннях це перетворюється на вимірювані правила роботи, межі власності та повторювані ритуали перевірки, щоб команди могли масштабувати впевненість замість масштабування неоднозначності.

Кращий інженерний вибір зменшує проблеми з надійністю у виробництві.

Кращий інженерний вибір зменшує проблеми з надійністю у виробництві. У високоякісних розгортаннях це перетворюється на вимірювані правила роботи, межі власності та повторювані ритуали перевірки, щоб команди могли масштабувати впевненість замість масштабування неоднозначності.

Майбутнє оптимізації групової відносної політики

GRPO швидко став стандартним рецептом для навчання відкритих моделей міркування, і лабораторії повторюють його слабкі місця. Дослідники вивчають виправлення упереджень щодо довжини та складності (наприклад, Dr. GRPO), нормалізацію на рівні маркера, а не на рівні послідовності, а також видалення або зміну форми терміна KL. Очікуйте тіснішої інтеграції з винагородами, які можна перевірити (математика, код, використання інструментів), кращої обробки розріджених сигналів і гібридів, які поєднують групові базові показники з легкою критикою для агентських багатоетапних завдань.

Впровадження в реальному світі

Навчання DeepSeek-R1 і DeepSeekMath виробляти довгий ланцюжок думок, використовуючи нагороди за правильність математичних задач на основі правил

Тонке налаштування моделей генерації коду, де кожне вибіркове рішення оцінюється за тим, чи проходить воно модульні тести, а група нормалізується для вибору переможців

Конвеєри RLHF з відкритим вихідним кодом (наприклад, у бібліотеках TRL і verl), що використовують GRPO для узгодження моделей чату, не сплачуючи за окрему мережу цінностей

Поліпшення виконання інструкцій або безпечної поведінки шляхом вибірки кількох відповідей на підказку та винагородження тих, які модель винагороди оцінює найвище порівняно з аналогами

Шаблони реалізації

Оптимізація групової відносної політики на практиці

Навчання DeepSeek-R1 і DeepSeekMath створювати довгі міркування за ланцюжком думок, використовуючи нагороди за правильність математичних задач на основі правил.

Навчання DeepSeek-R1 і DeepSeekMath виробляти довгий ланцюжок думок із використанням винагороди за правильність математичних задач Команди зазвичай отримують кращі результати, коли заздалегідь визначають порогові значення якості, зберігають шлях ескалації людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

Оптимізація групової відносної політики на практиці

Тонке налаштування моделей генерації коду, де кожне вибіркове рішення оцінюється за тим, чи пройшло воно модульні тести, а група нормалізується для вибору переможців.

Тонке налаштування моделей генерації коду, де кожне вибіркове рішення оцінюється за тим, чи воно пройшло модульні тести, а група нормалізується для вибору переможців. Команди зазвичай отримують кращі результати, коли заздалегідь визначають порогові значення якості, зберігають шлях ескалації з боку людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

Оптимізація групової відносної політики на практиці

Конвеєри RLHF з відкритим кодом (наприклад, у бібліотеках TRL і verl), що використовують GRPO для узгодження моделей чату, не сплачуючи за окрему мережу цінностей.

Конвеєри RLHF із відкритим вихідним кодом (наприклад, у бібліотеках TRL і verl), що використовують GRPO для узгодження моделей чату, не сплачуючи за окрему цінну мережу. Команди зазвичай отримують кращі результати, коли заздалегідь визначають порогові значення якості, зберігають шлях ескалації людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

Оптимізація групової відносної політики на практиці

Поліпшення виконання інструкцій або безпечної поведінки шляхом вибірки кількох відповідей на підказку та винагородження тих, які модель винагороди оцінює найвище порівняно з аналогами.

Покращення поведінки щодо виконання інструкцій або безпеки шляхом вибірки кількох відповідей на підказку та винагородження тих, які модель винагороди оцінює найвище порівняно з аналогами. Команди зазвичай отримують кращі результати, коли заздалегідь визначають порогові значення якості, зберігають шлях ескалації з боку людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

Ризики та огорожі

!

Оптимізація одного тесту може приховати ширші слабкі сторони системи.

!

Витрати на інфраструктуру та обслуговування часто недооцінюються.

!

Прогалини в безпеці та спостережуваності можуть зростати в міру ускладнення систем.

Дорожня карта впровадження

1

Визначте цільові показники затримки, якості та вартості перед впровадженням.

Визначте цільові показники затримки, якості та вартості перед впровадженням. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

2

Тест за реалістичних умов навантаження та даних.

Тест за реалістичних умов навантаження та даних. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

3

Моніторинг інструментів на наявність помилок, дрейфу та впливу користувача.

Моніторинг інструментів на наявність помилок, дрейфу та впливу користувача. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

4

Перед масштабуванням підготуйте шляхи відкату та реагування на інциденти.

Перед масштабуванням підготуйте шляхи відкату та реагування на інциденти. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

Продовжуйте досліджувати