Техническо РЪКОВОДСТВО

Паралелизъм на модел и конвейер

Когато даден модел е твърде голям, за да се побере на един GPU, паралелизмът на модела и тръбопровода разделя самия модел на устройства.

Преглед

Когато даден модел е твърде голям, за да се побере на един GPU, паралелизмът на модела и тръбопровода разделя самия модел на устройства. Това прави обучението на гигантски езикови модели със стотици милиарди параметри физически възможно.

Паралелизмът на модел и конвейер е технически градивен елемент, който влияе върху качеството на модела, цената на инфраструктурата, латентността и надеждността в мащаб.

Дълбоко гмуркане

Паралелизмът на модела разделя един модел на множество графични процесори, така че нито едно устройство не трябва да държи всички тегла. Има два основни вкуса. Тензорният (вътрешен слой) паралелизъм разделя математиката вътре в слой, като например нарязване на голямо матрично умножение между графични процесори, всеки от които изчислява част от изхода. Паралелизмът на тръбопровода (между слоевете) присвоява различни последователни слоеве на различни GPU, така че слой 1 живее на GPU 0, блок 2 на GPU 1 и т.н., като активациите се предават напред като поточна линия. Предизвикателството с наивния конвейер е „балонът“: докато GPU 0 работи на първата партида, графичните процесори надолу по веригата стоят бездействащи. Конвейерът разделя всяка партида на микро-партиди, така че всички етапи да останат заети, драматично подобрявайки използването.

Техническа информация

Тензорният паралелизъм (както в NVIDIA Megatron-LM) разделя тегловните матрици по колони или редове и използва all-reduce за рекомбиниране на частични резултати, поддържайки комуникацията вътре в бърз NVLink възел. Паралелизмът на тръбопровода (GPipe, PipeDream) разделя партидата на микро-партиди, които преминават през етапи в шахматен график, свивайки времето на неактивен „балон“. Двете често са наслоени заедно, с тензорен паралелизъм в рамките на един възел и паралелизъм на конвейера между възлите.

Овладяване на паралелизъм на модел и конвейер

Когато даден модел е твърде голям, за да се побере на един GPU, паралелизмът на модела и тръбопровода разделя самия модел на устройства. Това прави обучението на гигантски езикови модели със стотици милиарди параметри физически възможно. Паралелизмът на модел и конвейер е технически градивен елемент, който влияе върху качеството на модела, цената на инфраструктурата, латентността и надеждността в мащаб. За да изградите дълбоко разбиране, третирайте паралелизма на модела и конвейера като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи паралелизъм на модела и конвейера, оптимизират избора на архитектура, данни и инфраструктура срещу надеждност и цена. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Архитектурните решения стимулират производителността и оперативните разходи в продължение на години. В същото време оптимизирането на един бенчмарк може да скрие по-широки системни слабости. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Архитектурните решения стимулират производителността и оперативните разходи в продължение на години.

Архитектурните решения стимулират производителността и оперативните разходи в продължение на години. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Техническото образование помага на екипите да изберат правилния стек, а не само най-новия.

Техническото образование помага на екипите да изберат правилния стек, а не само най-новия. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

По-добрият инженерен избор намалява инцидентите, свързани с надеждността в производството.

По-добрият инженерен избор намалява инцидентите, свързани с надеждността в производството. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на моделния и конвейерния паралелизъм

Рамките все повече автоматизират трудния проблем с вземането на решение как да се раздели модел между устройства, като се използва профилиране и търсене, за да се балансира изчислението и комуникацията. Очаквайте по-тясна интеграция на тензор, конвейер и паралелизъм на данни (3D паралелизъм), по-интелигентно планиране на микро-партиди за почти елиминиране на конвейерните мехурчета и хардуер с по-бързи връзки, така че разделянето на един слой между чипове да става по-евтино и по-рутинно за все по-големи модели.

Внедряване в реалния свят

Обучение на модели в стил GPT с NVIDIA Megatron-LM, който разделя вниманието на всеки трансформаторен слой и матриците за подаване напред между GPU чрез тензорен паралелизъм.

Използването на GPipe за поставяне на различни слоеве от гигантска визия или езиков модел на отделни ускорители, докато микропакетирането ги държи заети.

Тръбопроводният механизъм на DeepSpeed ​​разделя модел с няколко стотици милиарда параметри на етапи в много възли.

Комбиниране на тензорен паралелизъм в един сървър с 8 GPU с паралелизъм на конвейер, обхващащ множество сървъри, за да се обучи модел, твърде голям за една машина.

Модели на изпълнение

Паралелизъм на модел и конвейер на практика

Обучение на модели в стил GPT с NVIDIA Megatron-LM, който разделя вниманието на всеки трансформаторен слой и матриците за подаване напред между GPU чрез тензорен паралелизъм.

Обучение на модели в стил GPT с NVIDIA Megatron-LM, което разделя вниманието на всеки трансформаторен слой и матриците за подаване напред между графичните процесори чрез тензорен паралелизъм. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Паралелизъм на модел и конвейер на практика

Използването на GPipe за поставяне на различни слоеве от гигантска визия или езиков модел на отделни ускорители, докато микропакетирането ги държи заети.

Използване на GPipe за поставяне на различни слоеве от гигантска визия или езиков модел на отделни ускорители, докато микро-пакетирането ги държи заети Екипите обикновено получават по-добри резултати, когато дефинират праговете на качеството предварително, поддържат човешки път на ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Паралелизъм на модел и конвейер на практика

Тръбопроводният механизъм на DeepSpeed ​​разделя модел с няколко стотици милиарда параметри на етапи в много възли.

Тръбопроводният механизъм на DeepSpeed, разделящ модел с многостотин милиарда параметри на етапи в много възли. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Паралелизъм на модел и конвейер на практика

Комбиниране на тензорен паралелизъм в един сървър с 8 GPU с паралелизъм на конвейер, обхващащ множество сървъри, за да се обучи модел, твърде голям за една машина.

Комбинирането на тензорен паралелизъм в един сървър с 8 GPU с паралелизъм на тръбопровода, обхващащ множество сървъри, за да обучи модел, който е твърде голям за една машина Екипите обикновено получават по-добри резултати, когато дефинират праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Оптимизирането на един бенчмарк може да скрие по-широки системни слабости.

!

Разходите за инфраструктура и поддръжка често се подценяват.

!

Пропуските в сигурността и видимостта могат да нарастват, когато системите стават по-сложни.

Пътна карта за изпълнение

1

Определете целите за латентност, качество и разходи преди внедряването.

Определете целите за латентност, качество и разходи преди внедряването. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Бенчмарк при реалистични условия на натоварване и данни.

Бенчмарк при реалистични условия на натоварване и данни. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Мониторинг на инструмента за грешки, отклонение и въздействие върху потребителя.

Мониторинг на инструмента за грешки, отклонение и въздействие върху потребителя. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Подгответе пътеките за връщане назад и реакция на инцидент преди мащабиране.

Подгответе пътеките за връщане назад и реакция на инцидент преди мащабиране. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате