Език AI РЪКОВОДСТВО

Внимание за множество заявки

Multi-Query Attention (MQA) е спестяващ памет обрат на трансформиращото внимание, който споделя един набор от ключове и стойности във всички глави на вниманието.

Преглед

Multi-Query Attention (MQA) е спестяващ памет обрат на трансформиращото внимание, който споделя един набор от ключове и стойности във всички глави на вниманието. Той драматично ускорява генерирането на текст чрез свиване на паметта, която моделът трябва да разбърква.

Multi-Query Attention е част от стека език-AI, използван за четене, генериране, класифициране и трансформиране на текст и реч в мащаб.

Дълбоко гмуркане

Стандартното внимание на няколко глави дава на всяка глава свои собствени заявки, ключови и стойностни прогнози. По време на генерирането ключовете и стойностите за всички минали токени трябва да се кешират и презареждат на всяка стъпка — този KV кеш се превръща в основното пречка, тъй като четенето му от паметта е по-бавно от самата математика. Multi-Query Attention, предложен от Noam Shazeer през 2019 г., поддържа отделни проекции на заявки за глава, но свива ключовете и стойностите до една споделена глава. Това свива KV кеша с фактор, равен на броя на главите, понякога 8x до 64x по-малък. Резултатът е много по-бързо авторегресивно декодиране и по-лек отпечатък на паметта, само със скромно понижаване на качеството. Средната позиция, Grouped-Query Attention, балансира компромиса.

Техническа информация

В MQA теглата на заявките все още произвеждат H отделни вектори на заявки, но една проекция на ключ и проекция на единична стойност се споделят във всички заглавия. Всяка глава изчислява вниманието, използвайки своя собствена заявка срещу едни и същи ключове и стойности. Тъй като кешираните K и V тензори вече не се мащабират с броя на главите, честотната лента на паметта по време на декодиране пада рязко - и честотната лента, а не изчислението, е това, което определя скоростта на генериране на модерни ускорители.

Овладяване на вниманието към множество заявки

Multi-Query Attention (MQA) е спестяващ памет обрат на трансформиращото внимание, който споделя един набор от ключове и стойности във всички глави на вниманието. Той драматично ускорява генерирането на текст чрез свиване на паметта, която моделът трябва да разбърква. Multi-Query Attention е част от стека език-AI, използван за четене, генериране, класифициране и трансформиране на текст и реч в мащаб. За да изградите дълбоко разбиране, третирайте Multi-Query Attention като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи Multi-Query Attention, проектират подкани, извличане и цикли за преглед като една интегрирана комуникационна система. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Езиковите работни процеси могат да се движат по-бързо, без да се жертва последователността. В същото време халюцинираните факти могат тихо да влизат в отчети, поддържащи потоци или резултати от изследвания. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Езиковите работни процеси могат да се движат по-бързо, без да се жертва последователността.

Езиковите работни процеси могат да се движат по-бързо, без да се жертва последователността. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Той разширява достъпа между езици и стилове на комуникация.

Той разширява достъпа между езици и стилове на комуникация. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипите могат да отделят повече време за преценка, докато автоматизацията се справя с повторението.

Екипите могат да отделят повече време за преценка, докато автоматизацията се справя с повторението. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на вниманието към множество заявки

MQA установи, че можете да отстраните излишните заглавия ключ/стойност с малко вреда и това прозрение сега оформя почти всеки LLM с бързо извеждане. Полето до голяма степен се сближи с вниманието на групирани заявки (GQA), използвано в Llama 2/3 и много други, което използва няколко KV групи, а не една, за да възстанови качеството, като същевременно запазва по-голямата част от ускорението. Бъдещата работа съчетава тези идеи с KV-кеш компресия, квантуване и мулти-латентно внимание, за да прокара по-дълги контексти и по-евтино обслужване.

Внедряване в реалния свят

Ускоряване на генерирането токен по токен в асистентите за чат, където KV кешът, а не суровото изчисление, ограничава пропускателната способност.

PaLM на Google, който използва Multi-Query Attention, за да даде възможност за ефективно широкомащабно заключение.

Обслужване на много едновременни потребители на един GPU чрез свиване на KV кеш паметта за всяка заявка.

Внимание с групирани заявки в Llama 2 70B и Llama 3, пряк наследник, балансиращ скоростта на MQA с пълно внимание.

Модели на изпълнение

Multi-Query внимание на практика

Ускоряване на генерирането токен по токен в асистентите за чат, където KV кешът, а не суровото изчисление, ограничава пропускателната способност.

Ускоряване на генерирането токен по токен в асистентите за чат, където KV кешът, а не необработеното изчисление, ограничава пропускателната способност. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Multi-Query внимание на практика

PaLM на Google, който използва Multi-Query Attention, за да даде възможност за ефективно широкомащабно заключение.

PaLM на Google, който използва Multi-Query Attention, за да даде възможност за ефикасни широкомащабни изводи. Екипите обикновено получават по-добри резултати, когато дефинират предварително прагове за качество, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Multi-Query внимание на практика

Обслужване на много едновременни потребители на един GPU чрез свиване на KV кеш паметта за всяка заявка.

Обслужване на много едновременни потребители на един графичен процесор чрез свиване на KV кеш паметта за всяка заявка. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Multi-Query внимание на практика

Внимание с групирани заявки в Llama 2 70B и Llama 3, пряк наследник, балансиращ скоростта на MQA с пълно внимание.

Внимание с групирани заявки в Llama 2 70B и Llama 3, пряк наследник, балансиращ скоростта на MQA с пълно внимание. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество отпред, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите на производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Халюцинираните факти могат тихо да влязат в отчети, потоци за поддръжка или резултати от изследвания.

!

Бързата чувствителност може да създаде противоречиви резултати при подобни заявки.

!

Чувствителните текстови данни могат да бъдат разкрити, ако контролите за достъп са слаби.

Пътна карта за изпълнение

1

Определете изходен формат, тон и стандарти за качество преди внедряване.

Определете изходен формат, тон и стандарти за качество преди внедряване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Наземни отговори с доверени източници винаги, когато точността има значение.

Наземни отговори с доверени източници винаги, когато точността има значение. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Поддържайте контролна точка за човешки преглед за изходи с високи залози.

Поддържайте контролна точка за човешки преглед за изходи с високи залози. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Проследявайте моделите на неуспехи и редовно обучавайте подкани или работни потоци.

Проследявайте моделите на неуспехи и редовно обучавайте подкани или работни потоци. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате