Руководство по моделированию вознаграждений Брэдли-Терри

Обзор

Модель Брэдли-Терри — это столетний статистический метод преобразования парных сравнений (А превосходит Б) в числовые оценки. В современном искусственном интеллекте он обеспечивает работу моделей вознаграждения, которые изучают человеческие предпочтения на основе вопроса «какой ответ лучше?» этикетки, основа RLHF.

Моделирование вознаграждений Брэдли-Терри входит в основной набор инструментов искусственного интеллекта. Когда вы это поймете, другие темы ИИ станет легче оценивать и сравнивать.

Глубокое погружение

Брэдли-Терри, представленный в 1952 году, предполагает, что каждый предмет имеет скрытый показатель силы, а вероятность того, что предмет A превосходит предмет B, является логистической функцией разницы их оценок. В согласовании с ИИ это аккуратно сопоставляется с данными о предпочтениях: люди, определяющие ярлыки, видят два ответа модели и выбирают лучший, вместо того, чтобы давать трудно поддающиеся калибровке абсолютные оценки. Модель вознаграждения, обычно языковая модель со скалярной выходной головкой, обучается так, чтобы ответ, который предпочитает человек, получал более высокое скалярное вознаграждение. Потеря представляет собой отрицательную логарифмическую вероятность вероятности Брэдли-Терри: максимизируйте логарифмическую сигмоида (награда выбранного минус награда отклоненного). Полученная модель вознаграждения затем оценивает произвольные выходные данные, предоставляя сигнал, который оптимизируются алгоритмами обучения с подкреплением, такими как PPO, чтобы сделать модели более полезными и согласованными.

Техническая информация

Потери при обучении для сравнения просто минус лог-сигмоида (r_chosen − r_rejected), поэтому модель всегда изучает только относительные различия. Это означает, что вознаграждения можно идентифицировать только с точностью до аддитивной константы; абсолютный масштаб произволен. Поскольку сравнения проще и более последовательны для людей, чем оценки от 1 до 10, данные Брэдли-Терри менее зашумлены. Позже прямая оптимизация предпочтений показала, что можно пропустить отдельную модель вознаграждения и оптимизировать цель Брэдли-Терри непосредственно в политике.

Освоение моделирования вознаграждений Брэдли-Терри

Чтобы добиться глубокого понимания, рассматривайте моделирование вознаграждений Брэдли-Терри как действующую модель, а не как отдельную функцию. Определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.

На практике сильные команды, использующие моделирование вознаграждения Брэдли-Терри, сначала создают надежные концептуальные модели, а затем сопоставляют эти модели с реальными производственными ограничениями. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.

Это поможет вам отделить четкие технические заявления от маркетингового языка. В то же время разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.

Стратегическое воздействие

Это поможет вам отделить четкие технические заявления от маркетингового языка.

Это поможет вам отделить четкие технические заявления от маркетингового языка. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время.

Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению.

Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Будущее моделирования вознаграждений Брэдли-Терри

Брэдли-Терри предполагает наличие единого последовательного ранжирования и транзитивных предпочтений, которые перестают действовать, когда люди не соглашаются или предпочтения цикличны. Исследования движутся к моделям, которые фиксируют распределение предпочтений, многомерные вознаграждения (полезность, безопасность, честность оцениваются отдельно) и такие методы, как обучение Нэша на основе отзывов людей, которые отказываются от предположения об одном балле. DPO и его варианты все чаще включают цель Брэдли-Терри непосредственно в политическую подготовку. Ожидайте более богатых схем сравнения, включая ранжирование более чем двух элементов и предпочтений, взвешенных по доверию, чтобы уменьшить вознаграждение за взлом.

Реальная реализация

Обучение модели вознаграждения в RLHF, которая ранжирует два ответа чат-бота и передает сигнал «лучше-хуже» для тонкой настройки PPO.

Прямая оптимизация предпочтений — точная настройка модели непосредственно на парах ответов «выбранный» и «отклоненный» с использованием логарифмических сигмовидных потерь Брэдли-Терри.

Рейтинг шахматистов или киберспортсменов с помощью Эло, которое математически является близким родственником модели Брэдли-Терри по результатам игр.

Создание рейтинга рекомендаций по контенту на основе данных о кликах «пользователи предпочитают А, а не Б», а не абсолютных звездных рейтингов.

Шаблоны реализации

Моделирование вознаграждения Брэдли-Терри на практике

Обучение модели вознаграждения в RLHF, которая ранжирует два ответа чат-бота и передает сигнал «лучше-хуже» для тонкой настройки PPO.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Моделирование вознаграждения Брэдли-Терри на практике

Прямая оптимизация предпочтений — точная настройка модели непосредственно на парах ответов «выбранный» и «отклоненный» с использованием логарифмических сигмовидных потерь Брэдли-Терри.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Моделирование вознаграждения Брэдли-Терри на практике

Рейтинг шахматистов или киберспортсменов с помощью Эло, которое математически является близким родственником модели Брэдли-Терри по результатам игр.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Моделирование вознаграждения Брэдли-Терри на практике

Создание рейтинга рекомендаций по контенту на основе данных о кликах «пользователи предпочитают А, а не Б», а не абсолютных звездных рейтингов.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Риски и ограничения

!

Разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб.

!

Тесты могут выглядеть сильными, в то время как реальная производительность неравномерна.

!

Игнорирование качества данных и планов оценки часто приводит к нестабильным результатам.

Дорожная карта реализации

1

Начните с простого определения желаемого результата.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

2

Перед тестированием выберите один показатель успеха и одно условие отказа.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

3

Запустите небольшой пилотный проект с репрезентативными данными, а не отточенный демонстрационный набор.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

4

Документ, в котором помогает моделирование вознаграждения Брэдли-Терри и где более простые методы лучше.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Продолжайте исследовать

Что такое ИИ?

Получите основные понятия, прежде чем погружаться глубже.

Читать руководство

Как учится ИИ

Понять процесс обучения, лежащий в основе современных систем.

Читать руководство

Моделирование вознаграждения Брэдли-Терри

Обзор

Глубокое погружение

Техническая информация

Освоение моделирования вознаграждений Брэдли-Терри

Стратегическое воздействие

Будущее моделирования вознаграждений Брэдли-Терри

Реальная реализация

Шаблоны реализации

Моделирование вознаграждения Брэдли-Терри на практике

Моделирование вознаграждения Брэдли-Терри на практике

Моделирование вознаграждения Брэдли-Терри на практике

Моделирование вознаграждения Брэдли-Терри на практике

Риски и ограничения

Дорожная карта реализации

Продолжайте исследовать

Что такое ИИ?

Как учится ИИ

Related guides