Преглед
Нормализирането на дължината коригира целите за настройка на предпочитанията, така че моделите да спрат да печелят одобрение само чрез писане на по-дълги отговори. Има значение, защото некоригираните сигнали за възнаграждение тласкат чатботовете към многословни, подплатени отговори вместо към наистина по-добри.
Нормализирането на дължината в оптимизацията на предпочитанията е част от основния инструментариум на AI. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.
Дълбоко гмуркане
Когато моделите са приведени в съответствие с методи като RLHF или DPO, те се учат от сравнения, при които хората (или модел на възнаграждение) избират „по-добрия“ от два отговора. Постоянна грешка е, че по-дългите отговори обикновено се предпочитат дори когато всъщност не са по-добри, така че моделът научава прекия път: бъдете многословни. Нормализирането на дължината противодейства на това. В DPO имплицитната награда е сбор от разликите в логаритмичните вероятности за токен, които механично нарастват с дължината. Варианти като DPO с нормализирана дължина и SimPO разделят тази награда на броя токени, като вместо това оценяват средно за токен. Резултатът е модели, които остават кратки и точни, вместо да увеличават отговорите, за да играят целта.
Техническа информация
Имплицитната награда на DPO е логаритмичното съотношение между настроените и референтните политики, сумирано за всеки токен в отговора. Тъй като всеки токен добавя друг (обикновено положителен) член, необработената награда се мащабира с дължината на последователността, насочвайки оптимизацията към по-дълги завършвания. SimPO премахва референтния модел и използва средната лог-вероятност за токен като награда плюс целеви марж на награда. Разделянето по дължина премахва предимството на механичната дължина, така че градиентите на предпочитанията отразяват качеството, а не броя на думите.
Овладяване на нормализирането на дължината в оптимизацията на предпочитанията
Нормализирането на дължината коригира целите за настройка на предпочитанията, така че моделите да спрат да печелят одобрение само чрез писане на по-дълги отговори. Има значение, защото некоригираните сигнали за възнаграждение тласкат чатботовете към многословни, подплатени отговори вместо към наистина по-добри. Нормализирането на дължината в оптимизацията на предпочитанията е част от основния инструментариум на AI. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте нормализирането на дължината в оптимизацията на предпочитанията като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.
На практика силните екипи, използващи нормализиране на дължината в оптимизацията на предпочитанията, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.
Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.
Стратегическо въздействие
Помага ви да отделите ясните технически твърдения от маркетинговия език.
Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.
Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.
Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Внедряване в реалния свят
Настройване на асистент за поддръжка на клиенти със SimPO, така че да дава ясни и точни отговори вместо подплатени параграфи, които просто изглеждат задълбочени.
Отчитане на „процент на победи с контролирана дължина“ на AlpacaEval 2, за да покаже модел, който наистина е подобрен, а не просто е станал по-разговорлив.
Добавяне на нормализиране на дължината към DPO при фина настройка на модел на кодиране, така че да връща минимални правилни фрагменти, а не раздута шаблонна плоча.
Диагностициране на модел на възнаграждение, който систематично оценява по-високи резултати за по-дълги есета, след което го деактивира, преди да го използва, за да подреди асистент за писане.
Модели на изпълнение
Нормализация на дължината в оптимизацията на предпочитанията на практика
Настройване на асистент за поддръжка на клиенти със SimPO, така че да дава ясни и точни отговори вместо подплатени параграфи, които просто изглеждат задълбочени.
Настройване на асистент за поддръжка на клиенти със SimPO, така че да дава ясни, точни отговори вместо подплатени абзаци, които просто изглеждат задълбочени. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Нормализация на дължината в оптимизацията на предпочитанията на практика
Отчитане на „процент на победи с контролирана дължина“ на AlpacaEval 2, за да покаже модел, който наистина е подобрен, а не просто е станал по-разговорлив.
Отчитане на „процент на победи с контролирана дължина“ на AlpacaEval 2, за да се покаже наистина подобрен модел, а не просто по-бъбрив. Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Нормализация на дължината в оптимизацията на предпочитанията на практика
Добавяне на нормализиране на дължината към DPO при фина настройка на модел на кодиране, така че да връща минимални правилни фрагменти, а не раздута шаблонна плоча.
Добавяне на нормализиране на дължината към DPO при фина настройка на модел на кодиране, така че да връща минимални правилни фрагменти, а не раздути шаблони. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Нормализация на дължината в оптимизацията на предпочитанията на практика
Диагностициране на модел на възнаграждение, който систематично оценява по-високи резултати за по-дълги есета, след което го деактивира, преди да го използва, за да подреди асистент за писане.
Диагностициране на модел на възнаграждение, който систематично оценява по-високи резултати за по-дълги есета, след което го коригира, преди да го използва, за да приведе в съответствие асистент за писане Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Рискове и предпазни огради
Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.
Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.
Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.
Пътна карта за изпълнение
Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.
Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Изберете един показател за успех и едно условие за неуспех преди тестване.
Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.
Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Документирайте къде нормализирането на дължината в оптимизацията на предпочитанията помага и къде по-простите методи са по-добри.
Документирайте къде нормализирането на дължината в оптимизацията на предпочитанията помага и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.