РУКОВОДСТВО ПО ЯЗЫКУ ИИ

Оптимизация предпочтений по соотношению шансов

Оптимизация предпочтений отношения шансов (ORPO) — это метод тонкой настройки, который обучает языковую модель хорошему поведению и человеческим предпочтениям за один проход обучения.

Обзор

Оптимизация предпочтений отношения шансов (ORPO) — это метод тонкой настройки, который обучает языковую модель хорошему поведению и человеческим предпочтениям за один проход обучения. Это важно, потому что здесь отсутствует обычная отдельная модель вознаграждения и эталонная модель, что делает согласование более дешевым и простым.

Оптимизация предпочтений отношения шансов — это часть стека языка и искусственного интеллекта, используемого для чтения, генерации, классификации и преобразования текста и речи в любом масштабе.

Глубокое погружение

ORPO, представленный Хонгом, Ли и Торном в 2024 году, объединяет контролируемую точную настройку и согласование предпочтений в один этап. Большинство конвейеров выравнивания сначала выполняют SFT на хороших примерах, а затем запускают второй метод, такой как RLHF или DPO, который требует замороженной копии модели (ссылки) плюс сохраненных пар предпочтений. ORPO полностью удаляет эталонную модель. Его потеря добавляет штрафной срок к стандартной цели следующего токена: он повышает шансы, которые модель назначает выбранному (предпочтительному) ответу, одновременно снижая шансы отклоненного ответа. Поскольку здесь используется отношение шансов, а не сильный логарифмический разрыв вероятности, наказание является мягким, поэтому модель учится отдавать предпочтение хорошим ответам, не забывая катастрофически о плавной генерации.

Техническая информация

Потери ORPO представляют собой потерю перекрестной энтропии SFT плюс взвешенную логарифмическую сигмоиду логарифмического отношения шансов между выбранными и отклоненными ответами. Шансы равны p/(1-p), поэтому соотношение сравнивает, насколько более вероятно, что модель найдет хороший ответ по сравнению с плохим. Использование шансов вместо необработанной вероятности сохраняет умеренный контраст, что предотвращает чрезмерное подавление отклоненных токенов, которые могут ухудшить неиспользуемую модель.

Освоение оптимизации предпочтений в соотношении шансов

Оптимизация предпочтений отношения шансов (ORPO) — это метод тонкой настройки, который обучает языковую модель хорошему поведению и человеческим предпочтениям за один проход обучения. Это важно, потому что здесь отсутствует обычная отдельная модель вознаграждения и эталонная модель, что делает согласование более дешевым и простым. Оптимизация предпочтений отношения шансов — это часть стека языка и искусственного интеллекта, используемого для чтения, генерации, классификации и преобразования текста и речи в любом масштабе. Чтобы достичь более глубокого понимания, рассматривайте оптимизацию предпочтений отношения шансов как операционную модель, а не как отдельную функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.

На практике сильные команды, использующие оптимизацию предпочтений по соотношению шансов, создают циклы подсказок, поиска и анализа как единую интегрированную коммуникационную систему. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.

Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью. В то же время галлюцинированные факты могут незаметно войти в отчеты, потоки поддержки или результаты исследований. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.

Стратегическое воздействие

Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью.

Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Это расширяет доступ к различным языкам и стилям общения.

Это расширяет доступ к различным языкам и стилям общения. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Команды могут тратить больше времени на принятие решений, в то время как автоматизация занимается повторением.

Команды могут тратить больше времени на принятие решений, в то время как автоматизация занимается повторением. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Будущее оптимизации предпочтений соотношения шансов

ORPO набирает обороты, поскольку сокращает объем памяти и вычислительных ресурсов, отказываясь от эталонной модели, что привлекательно для команд, выполняющих тонкую настройку на ограниченном оборудовании. Ожидайте, что он будет чаще появляться в рецептах с открытым исходным кодом и в качестве опции по умолчанию в таких библиотеках, как Hugging Face TRL. Будущая работа, вероятно, будет автоматически настраивать лямбда-взвешивание, объединять ORPO с другими целями без ссылок и распространять его на мультимодальные и очень большие модели, где хранение двух копий в памяти обходится дорого.

Реальная реализация

Точная настройка модели чата 7B с открытым исходным кодом на парах предпочтений без загрузки второй эталонной копии, что позволяет сократить вдвое память графического процессора.

Стартап, настраивающий помощника по поддержке клиентов предпочитать вежливые ответы в соответствии с политикой за одно обучение вместо SFT, а затем DPO.

Исследователи сравнивают ORPO и DPO на одном и том же наборе данных, чтобы продемонстрировать сопоставимое соответствие при меньших вычислительных затратах.

Адаптация базовой модели к специализированной области (например, составлению юридических документов), где доступны пары хороших и плохих примеров, но нет бюджета модели вознаграждения.

Шаблоны реализации

Оптимизация предпочтений по соотношению шансов на практике

Точная настройка модели чата 7B с открытым исходным кодом на парах предпочтений без загрузки второй эталонной копии, что сокращает вдвое память графического процессора.

Точная настройка модели чата 7B с открытым исходным кодом на парах предпочтений без загрузки второй эталонной копии, уменьшение вдвое памяти графического процессора. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.

Оптимизация предпочтений по соотношению шансов на практике

Стартап, настраивающий помощника по поддержке клиентов предпочитать вежливые ответы в соответствии с политикой за одно обучение вместо SFT, а затем DPO.

Стартап, который настраивает помощника по поддержке клиентов так, чтобы он предпочитал вежливые, отвечающие политике ответы в ходе одного тренинга вместо SFT, а затем DPO. Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, поддерживают человеческий путь эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Оптимизация предпочтений по соотношению шансов на практике

Исследователи сравнивают ORPO и DPO в одном и том же наборе данных, чтобы продемонстрировать сопоставимое соответствие при меньших вычислительных затратах.

Исследователи сравнивают ORPO и DPO на одном и том же наборе данных, чтобы продемонстрировать сопоставимое соответствие при меньшем объеме вычислений. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.

Оптимизация предпочтений по соотношению шансов на практике

Адаптация базовой модели к специализированной области (например, составлению юридических документов), где доступны пары хороших и плохих примеров, но нет бюджета модели вознаграждения.

Адаптация базовой модели к специализированной области (например, составлению юридических документов), где доступны пары хороших и плохих примеров, но нет бюджета модели вознаграждения. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Риски и ограничения

!

Галлюцинированные факты могут незаметно войти в отчеты, потоки поддержки или результаты исследований.

!

Незамедлительная чувствительность может привести к противоречивым результатам по схожим запросам.

!

Конфиденциальные текстовые данные могут быть раскрыты, если контроль доступа слабый.

Дорожная карта реализации

1

Перед развертыванием определите выходной формат, тон и стандарты качества.

Перед развертыванием определите выходной формат, тон и стандарты качества. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

2

Наземные ответы с помощью надежных источников, когда точность имеет значение.

Наземные ответы с помощью надежных источников, когда точность имеет значение. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

3

Обеспечьте контрольную точку человеческого контроля для получения важных результатов.

Обеспечьте контрольную точку человеческого контроля для получения важных результатов. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

4

Отслеживайте закономерности сбоев и регулярно обновляйте подсказки или рабочие процессы.

Отслеживайте закономерности сбоев и регулярно обновляйте подсказки или рабочие процессы. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Продолжайте исследовать