Нормализация на дължината в ръководството за оптимизиране на предпочитанията

Преглед

Нормализирането на дължината коригира целите за настройка на предпочитанията, така че моделите да спрат да печелят одобрение само чрез писане на по-дълги отговори. Има значение, защото некоригираните сигнали за възнаграждение тласкат чатботовете към многословни, подплатени отговори вместо към наистина по-добри.

Нормализирането на дължината в оптимизацията на предпочитанията е част от основния инструментариум на AI. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

Когато моделите са приведени в съответствие с методи като RLHF или DPO, те се учат от сравнения, при които хората (или модел на възнаграждение) избират „по-добрия“ от два отговора. Постоянна грешка е, че по-дългите отговори обикновено се предпочитат дори когато всъщност не са по-добри, така че моделът научава прекия път: бъдете многословни. Нормализирането на дължината противодейства на това. В DPO имплицитната награда е сбор от разликите в логаритмичните вероятности за токен, които механично нарастват с дължината. Варианти като DPO с нормализирана дължина и SimPO разделят тази награда на броя токени, като вместо това оценяват средно за токен. Резултатът е модели, които остават кратки и точни, вместо да увеличават отговорите, за да играят целта.

Техническа информация

Имплицитната награда на DPO е логаритмичното съотношение между настроените и референтните политики, сумирано за всеки токен в отговора. Тъй като всеки токен добавя друг (обикновено положителен) член, необработената награда се мащабира с дължината на последователността, насочвайки оптимизацията към по-дълги завършвания. SimPO премахва референтния модел и използва средната лог-вероятност за токен като награда плюс целеви марж на награда. Разделянето по дължина премахва предимството на механичната дължина, така че градиентите на предпочитанията отразяват качеството, а не броя на думите.

Овладяване на нормализирането на дължината в оптимизацията на предпочитанията

За да изградите дълбоко разбиране, третирайте нормализирането на дължината в оптимизацията на предпочитанията като оперативен модел, а не като отделна функция. Дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силните екипи, използващи нормализиране на дължината в оптимизацията на предпочитанията, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

You can ask better implementation questions before spending money or time. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на нормализирането на дължината в оптимизацията на предпочитанията

Очаквайте контролът на дължината да се превърне в стандартно копче, а не в закъснение. Изследователите комбинират нормализиране на дължината с изрични наказания за дължина, обусловени от дължината награди и пакети за оценка, които поддържат дължината на отговора постоянна, за да измерват истинските печалби на качеството. Тъй като моделите за възнаграждение стават по-добри в откриването на пристрастия към многословието, тръбопроводите за подравняване вероятно ще отчитат по подразбиране проценти на победи с отклонение от дължината и потребителите ще получат по-фин контрол върху това колко кратки или подробни трябва да бъдат отговорите на модела.

Внедряване в реалния свят

Настройване на асистент за поддръжка на клиенти със SimPO, така че да дава ясни и точни отговори вместо подплатени параграфи, които просто изглеждат задълбочени.

Отчитане на „процент на победи с контролирана дължина“ на AlpacaEval 2, за да покаже модел, който наистина е подобрен, а не просто е станал по-бъбрив.

Добавяне на нормализиране на дължината към DPO при фина настройка на модел на кодиране, така че да връща минимални правилни фрагменти, а не раздута шаблонна плоча.

Диагностициране на модел на възнаграждение, който систематично оценява по-високи резултати за по-дълги есета, след което го деактивира, преди да го използва, за да подреди асистент за писане.

Модели на изпълнение

Нормализация на дължината в оптимизацията на предпочитанията на практика

Настройване на асистент за поддръжка на клиенти със SimPO, така че да дава ясни и точни отговори вместо подплатени параграфи, които просто изглеждат задълбочени.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Нормализация на дължината в оптимизацията на предпочитанията на практика

Отчитане на „процент на победи с контролирана дължина“ на AlpacaEval 2, за да покаже модел, който наистина е подобрен, а не просто е станал по-бъбрив.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Нормализация на дължината в оптимизацията на предпочитанията на практика

Добавяне на нормализиране на дължината към DPO при фина настройка на модел на кодиране, така че да връща минимални правилни фрагменти, а не раздута шаблонна плоча.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Нормализация на дължината в оптимизацията на предпочитанията на практика

Диагностициране на модел на възнаграждение, който систематично оценява по-високи резултати за по-дълги есета, след което го деактивира, преди да го използва, за да подреди асистент за писане.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде нормализирането на дължината в оптимизацията на предпочитанията помага и къде по-простите методи са по-добри.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате

Какво е AI?

Вземете основните понятия, преди да се гмурнете по-дълбоко.

Прочетете ръководството

Как AI учи

Разберете процеса на обучение зад съвременните системи.

Прочетете ръководството

Нормализация на дължината в оптимизацията на предпочитанията

Преглед

Дълбоко гмуркане

Техническа информация

Овладяване на нормализирането на дължината в оптимизацията на предпочитанията

Стратегическо въздействие

Бъдещето на нормализирането на дължината в оптимизацията на предпочитанията

Внедряване в реалния свят

Модели на изпълнение

Нормализация на дължината в оптимизацията на предпочитанията на практика

Нормализация на дължината в оптимизацията на предпочитанията на практика

Нормализация на дължината в оптимизацията на предпочитанията на практика

Нормализация на дължината в оптимизацията на предпочитанията на практика

Рискове и предпазни огради

Пътна карта за изпълнение

Продължете да изследвате

Какво е AI?

Как AI учи

Related guides