РЪКОВОДСТВО по основи

Брадли-Тери Награждаване Моделиране

Моделът на Брадли-Тери е вековен статистически метод за превръщане на сравнения по двойки (A бие B) в числени резултати.

Преглед

Моделът на Брадли-Тери е вековен статистически метод за превръщане на сравнения по двойки (A бие B) в числени резултати. В съвременния AI той захранва модели за възнаграждение, които научават човешките предпочитания от „кой отговор е по-добър?“ етикети, гръбнакът на RLHF.

Моделирането на наградите на Брадли-Тери е част от основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

Брадли-Тери, въведен през 1952 г., приема, че всеки елемент има скрит резултат за сила и вероятността елемент А да победи елемент Б е логистичната функция на тяхната разлика в резултата. При подравняването с изкуствен интелект това прецизно се съпоставя с данните за предпочитанията: етикетиращите хора виждат два отговора на модела и избират по-добрия, вместо да дават трудни за калибриране абсолютни оценки. Модел на възнаграждение, обикновено езиковият модел със скаларна изходна глава, се обучава така, че отговорът, предпочитан от хората, да получава по-висока скаларна награда. Загубата е отрицателната логаритмична вероятност на вероятността на Брадли-Тери: максимизиране на логаритмичната сигмоида на (награда на избран минус награда на отхвърлен). Полученият модел на възнаграждение след това отбелязва произволни изходи, предоставяйки сигнала, срещу който оптимизират алгоритмите за обучение за подсилване, като PPO, за да направят моделите по-полезни и подравнени.

Техническа информация

Загубата на обучение за сравнение е просто минус лог-сигмоида от (r_chosen − r_rejected), така че моделът научава само относителни разлики. Това означава, че наградите могат да бъдат идентифицирани само до адитивна константа; абсолютната скала е произволна. Тъй като сравненията са по-лесни и по-последователни за хората, отколкото резултатите от 1 до 10, данните на Брадли-Тери са по-малко шумни. Директната оптимизация на предпочитанията по-късно показа, че можете да пропуснете отделния модел на възнаграждение и да оптимизирате целта на Брадли-Тери директно в политиката.

Овладяване на моделирането на наградите на Брадли-Тери

Моделът на Брадли-Тери е вековен статистически метод за превръщане на сравнения по двойки (A бие B) в числени резултати. В съвременния AI той захранва модели за възнаграждение, които научават човешките предпочитания от „кой отговор е по-добър?“ етикети, гръбнакът на RLHF. Моделирането на наградите на Брадли-Тери е част от основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте моделирането на наградите на Брадли-Тери като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи Bradley-Terry Reward Modeling, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на моделите за възнаграждение на Брадли-Тери

Брадли-Тери приема едно последователно класиране и преходни предпочитания, които се разпадат, когато хората не са съгласни или предпочитанията се променят. Изследванията се насочват към модели, които улавят разпределение на предпочитанията, многоизмерни награди (полезност, безопасност, честност, оценени отделно) и методи като обучението на Nash от човешка обратна връзка, които отхвърлят предположението за един резултат. DPO и неговите варианти все повече преместват целта на Брадли-Тери директно в обучението по политиката. Очаквайте по-богати схеми за сравнение, включително класиране на повече от два елемента и претеглени на доверие предпочитания, за да намалите хакването на наградите.

Внедряване в реалния свят

Обучение на модела на възнаграждение в RLHF, който класира два отговора на чатбота и подава сигнала за по-добър-лош към фина настройка на PPO.

Директна оптимизация на предпочитанията, фина настройка на модел директно върху двойки отговори избрани срещу отхвърлени, използвайки логаритмична сигмоидна загуба на Брадли-Тери.

Класиране на играчи на шах или електронни спортове чрез Elo, което математически е близък братовчед на модела Брадли-Тери за резултатите от играта.

Изграждане на рейтинг за препоръки за съдържание от данни за кликване „предпочитани от потребителите A пред B“ вместо абсолютни оценки със звезди.

Модели на изпълнение

Моделиране на наградите на Брадли-Тери на практика

Обучение на модела на възнаграждение в RLHF, който класира два отговора на чатбота и подава сигнала за по-добър-лош към фина настройка на PPO.

Обучение на модела на възнаграждение в RLHF, който класира два отговора на чатбота и подава сигнала за по-лошо към фина настройка на PPO. Екипите обикновено получават по-добри резултати, когато определят прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Моделиране на наградите на Брадли-Тери на практика

Директна оптимизация на предпочитанията, фина настройка на модел директно върху двойки отговори избрани срещу отхвърлени, използвайки логаритмична сигмоидна загуба на Брадли-Тери.

Директна оптимизация на предпочитанията, фина настройка на модел директно върху двойки отговори избрани срещу отхвърлени, използвайки логаритмична загуба на сигмоида на Брадли-Тери. Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Моделиране на наградите на Брадли-Тери на практика

Класиране на играчи на шах или електронни спортове чрез Elo, което математически е близък братовчед на модела Брадли-Тери за резултатите от играта.

Класиране на играчи на шах или електронни спортове чрез Elo, което математически е близък братовчед на модела на Брадли-Тери за резултатите от играта. Отборите обикновено получават по-добри резултати, когато определят прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Моделиране на наградите на Брадли-Тери на практика

Изграждане на рейтинг за препоръки за съдържание от данни за кликване „предпочитани от потребителите A пред B“ вместо абсолютни оценки със звезди.

Изграждане на рейтинг за препоръки за съдържание от данни за щракване „потребителите предпочитат А пред Б“, а не абсолютни оценки със звезди Екипите обикновено получават по-добри резултати, когато определят предварително прагове за качество, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде помага моделирането на възнаграждението на Брадли-Тери и къде по-простите методи са по-добри.

Документирайте къде помага моделирането на възнаграждението на Брадли-Тери и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате