РУКОВОДСТВО ПО ЯЗЫКУ ИИ

Внимание к множественным запросам

Внимание с несколькими запросами (MQA) — это вариант преобразования внимания, позволяющий экономить память, который использует один набор ключей и значений для всех голов внимания.

Обзор

Внимание с несколькими запросами (MQA) — это вариант преобразования внимания, позволяющий экономить память, который использует один набор ключей и значений для всех голов внимания. Это значительно ускоряет генерацию текста за счет сокращения памяти, которую должна перетасовывать модель.

Внимание к множественным запросам — это часть стека языка и искусственного интеллекта, используемого для чтения, генерации, классификации и преобразования текста и речи в любом масштабе.

Глубокое погружение

Стандартное многоголовое внимание дает каждой голове свой собственный запрос, ключ и проекцию значений. Во время генерации ключи и значения для всех прошлых токенов должны кэшироваться и перезагружаться на каждом этапе — этот KV-кэш становится основным узким местом, поскольку чтение его из памяти происходит медленнее, чем сама математика. Внимание к множественным запросам, предложенное Ноамом Шазиром в 2019 году, сохраняет отдельные проекции запросов для каждой головы, но сжимает ключи и значения в одну общую голову. Это уменьшает кэш KV в раз, равный количеству головок, иногда в 8–64 раза меньше. Результатом является гораздо более быстрое авторегрессионное декодирование и меньший объем памяти при незначительном падении качества. Золотая середина, внимание к групповым запросам, уравновешивает компромисс.

Техническая информация

В MQA веса запросов по-прежнему создают H отдельных векторов запросов, но одна проекция ключа и проекция одного значения используются всеми головками. Каждая голова вычисляет внимание, используя собственный запрос к одним и тем же ключам и значениям. Поскольку кэшированные тензоры K и V больше не масштабируются в зависимости от количества головок, пропускная способность памяти во время декодирования резко падает — и пропускная способность, а не вычисления, является тем, что определяет скорость генерации вентилей на современных ускорителях.

Освоение внимания при множественных запросах

Внимание с несколькими запросами (MQA) — это вариант преобразования внимания, позволяющий экономить память, который использует один набор ключей и значений для всех голов внимания. Это значительно ускоряет генерацию текста за счет сокращения памяти, которую должна перемещать модель. Внимание к множественным запросам — это часть стека языка и искусственного интеллекта, используемого для чтения, генерации, классификации и преобразования текста и речи в любом масштабе. Чтобы добиться глубокого понимания, рассматривайте многозапросное внимание как операционную модель, а не как отдельную функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.

На практике сильные команды, использующие многозапросное внимание, создают подсказки, поиск и циклы просмотра как единую интегрированную коммуникационную систему. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.

Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью. В то же время галлюцинированные факты могут незаметно войти в отчеты, потоки поддержки или результаты исследований. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.

Стратегическое воздействие

Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью.

Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Это расширяет доступ к различным языкам и стилям общения.

Это расширяет доступ к различным языкам и стилям общения. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Команды могут тратить больше времени на принятие решений, в то время как автоматизация занимается повторением.

Команды могут тратить больше времени на принятие решений, в то время как автоматизация занимается повторением. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Будущее многозапросного внимания

MQA установила, что можно без особого вреда избавиться от избыточных головок ключей/значений, и это понимание теперь формирует почти каждый LLM быстрого вывода. Эта область в значительной степени сблизилась с групповым запросом внимания (GQA), используемым в Llama 2/3 и многих других, который использует несколько групп KV, а не одну, для восстановления качества при сохранении большей части ускорения. Будущая работа сочетает эти идеи со сжатием KV-кэша, квантованием и многолатентным вниманием, чтобы обеспечить более длинные контексты и более дешевое обслуживание.

Реальная реализация

Ускорение генерации токенов в чат-помощниках, где кэш KV, а не необработанные вычисления, ограничивает пропускную способность.

PaLM Google, который использовал внимание к множественным запросам для обеспечения эффективного крупномасштабного вывода.

Обслуживание множества одновременных пользователей на одном графическом процессоре за счет сокращения кэш-памяти KV для каждого запроса.

Внимание к групповым запросам в Llama 2 70B и Llama 3, прямом потомке MQA, сочетающем скорость MQA с качеством полного внимания.

Шаблоны реализации

Многозапросное внимание на практике

Ускорение генерации токенов в чат-помощниках, где кэш KV, а не необработанные вычисления, ограничивает пропускную способность.

Ускорение генерации токенов в чат-помощниках, где пропускную способность ограничивает кэш KV, а не необработанные вычисления. Команды обычно получают лучшие результаты, если заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.

Многозапросное внимание на практике

PaLM Google, который использовал внимание к множественным запросам для обеспечения эффективного крупномасштабного вывода.

PaLM Google, который использовал многозапросное внимание для обеспечения эффективных крупномасштабных выводов. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.

Многозапросное внимание на практике

Обслуживание множества одновременных пользователей на одном графическом процессоре за счет сокращения кэш-памяти KV для каждого запроса.

Обслуживание множества одновременных пользователей на одном графическом процессоре за счет сокращения кэш-памяти KV для каждого запроса. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют возможность эскалации вручную для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.

Многозапросное внимание на практике

Внимание к групповым запросам в Llama 2 70B и Llama 3, прямом потомке MQA, сочетающем скорость MQA с качеством полного внимания.

Внимание к групповым запросам в Llama 2 70B и Llama 3, прямом потомке MQA, балансирующем между скоростью MQA и качеством с полным вниманием. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь эскалации вручную для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.

Риски и ограничения

!

Галлюцинированные факты могут незаметно войти в отчеты, потоки поддержки или результаты исследований.

!

Незамедлительная чувствительность может привести к противоречивым результатам по схожим запросам.

!

Конфиденциальные текстовые данные могут быть раскрыты, если контроль доступа слабый.

Дорожная карта реализации

1

Перед развертыванием определите выходной формат, тон и стандарты качества.

Перед развертыванием определите выходной формат, тон и стандарты качества. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

2

Наземные ответы с помощью надежных источников, когда точность имеет значение.

Наземные ответы с помощью надежных источников, когда точность имеет значение. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

3

Обеспечьте контрольную точку человеческого контроля для получения важных результатов.

Обеспечьте контрольную точку человеческого контроля для получения важных результатов. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

4

Отслеживайте закономерности сбоев и регулярно обновляйте подсказки или рабочие процессы.

Отслеживайте закономерности сбоев и регулярно обновляйте подсказки или рабочие процессы. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Продолжайте исследовать