Групирана нормализация на възнагражденията в Ръководството за RLHF

Преглед

Групираното нормализиране на наградите стандартизира наградите на модела в рамките на група от отговори на една и съща подкана, превръщайки шумните резултати в стабилен сигнал за обучение. Това е основният трик зад GRPO, алгоритъмът, който захранва много съвременни модели на разсъждение.

Групираната нормализация на възнагражденията в RLHF е част от основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

При обучението за подсилване от човешка обратна връзка (RLHF), моделът генерира отговори и моделът на възнаграждението ги отбелязва, но суровите награди са шумни и варират значително в различните подкани. Нормализирането на групираната награда коригира това чрез вземане на проби от група от няколко отговора на една и съща подкана, след което нормализира всяка награда чрез изваждане на средната стойност на групата и разделяне на стандартното отклонение на групата. Този z-резултат се превръща в предимство. Подходът е централен за оптимизацията на груповата относителна политика (GRPO), въведена от DeepSeek, която прочуто задвижва разсъжденията на DeepSeek-R1. Най-важното е, че GRPO елиминира отделната стойностна мрежа (критик), използвана от PPO, тъй като средната стойност на групата служи като базова линия. Това прави обучението по-просто, по-евтино и по-ефективно за паметта, като същевременно поддържа градиентния сигнал добре мащабиран.

Техническа информация

За група изходи с награди r_1...r_G, предимството е A_i = (r_i − средно(r)) / std(r). Отговорите, по-добри от средните за тяхната група, получават положително предимство и се подсилват; по-лошите от средното се избутват надолу. Тъй като сравнението е относително в рамките на подкана, абсолютната скала на възнаграждението и трудността на подкана се отменят, намалявайки дисперсията. GRPO поддържа ограничената цел на PPO и наказанието KL срещу референтна политика, за да предотврати твърде голямото отклонение на модела.

Овладяване на нормализацията на групираните награди в RLHF

За да изградите дълбоко разбиране, третирайте нормализацията на групираните възнаграждения в RLHF като оперативен модел, а не като отделна функция. Дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи групирана нормализация на наградите в RLHF, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват спрямо реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

You can ask better implementation questions before spending money or time. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на групираната нормализация на възнагражденията в RLHF

Групираната нормализация подхранва бума на разсъждаващи модели, при който моделите се учат от проверими награди като правилни математически отговори без опитен критик. Изследванията го усъвършенстват: дебати дали да се раздели по стандартно отклонение, боравене с напълно правилни или напълно грешни групи, които дават нулево предимство, и мащабиране на размера на групата. Очаквайте групираните методи без критика да се разпространят до използване на агентски инструменти и генериране на код, където автоматичните верификатори доставят евтини, изобилни сигнали за награди.

Внедряване в реалния свят

Обучение на модел на математическо разсъждение чрез вземане на проби от 16 решения на проблем и награждаване на онези, които са над средната коректност на групата.

Фина настройка на услужливостта на чатбота чрез нормализиране на резултатите от модела на възнаграждение в няколко отговора на кандидати на всяка подкана от потребителя.

Подобряване на асистент за кодиране, където всяко извадено решение се оценява според това дали преминава тестове на единица, след което се нормализира в рамките на групата.

Намаляване на GPU паметта в RLHF тръбопровод чрез премахване на PPO критичната мрежа и използване на груповата средна стойност като базова линия вместо това.

Модели на изпълнение

Групирана нормализация на наградите в RLHF на практика

Обучение на модел на математическо разсъждение чрез вземане на проби от 16 решения на проблем и награждаване на онези, които са над средната коректност на групата.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Групирана нормализация на наградите в RLHF на практика

Фина настройка на услужливостта на чатбота чрез нормализиране на резултатите от модела на възнаграждение в няколко отговора на кандидати на всяка подкана от потребителя.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Групирана нормализация на наградите в RLHF на практика

Подобряване на асистент за кодиране, където всяко извадено решение се оценява според това дали преминава тестове на единица, след което се нормализира в рамките на групата.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Групирана нормализация на наградите в RLHF на практика

Намаляване на GPU паметта в RLHF тръбопровод чрез премахване на PPO критичната мрежа и използване на груповата средна стойност като базова линия вместо това.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде нормализацията на групираните награди в RLHF помага и къде по-простите методи са по-добри.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате

Какво е AI?

Вземете основните понятия, преди да се гмурнете по-дълбоко.

Прочетете ръководството

Как AI учи

Разберете процеса на обучение зад съвременните системи.

Прочетете ръководството

Групирана нормализация на възнагражденията в RLHF

Преглед

Дълбоко гмуркане

Техническа информация

Овладяване на нормализацията на групираните награди в RLHF

Стратегическо въздействие

Бъдещето на групираната нормализация на възнагражденията в RLHF

Внедряване в реалния свят

Модели на изпълнение

Групирана нормализация на наградите в RLHF на практика

Групирана нормализация на наградите в RLHF на практика

Групирана нормализация на наградите в RLHF на практика

Групирана нормализация на наградите в RLHF на практика

Рискове и предпазни огради

Пътна карта за изпълнение

Продължете да изследвате

Какво е AI?

Как AI учи

Related guides