РЪКОВОДСТВО по основи

Закони за мащабиране за невронни мрежи

Законите за мащабиране са емпирични формули, показващи, че загубата на невронна мрежа намалява предсказуемо с нарастването на размера на модела, размера на набора от данни и изчисленията.

Преглед

Законите за мащабиране са емпирични формули, показващи, че загубата на невронна мрежа намалява предсказуемо с нарастването на размера на модела, размера на набора от данни и изчисленията. Те имат значение, защото позволяват на изследователите да прогнозират ефективността, преди да похарчат милиони за обучение на гигантски модел.

Законите за мащабиране за невронни мрежи се намират в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

Законите за мащабиране, популяризирани от статията на OpenAI от 2020 г. от Каплан и колегите, установиха, че загубата на тестове намалява като плавен степенен закон в три количества: брой параметри (N), токени за обучение (D) и общо изчисление (C). Начертана върху логаритмични оси, загубата спрямо всеки фактор образува почти права линия, обхващаща много порядъци. Отношенията приемат формата Загуба ≈ a + b·X^(-c), където X е коефициентът на мащабиране. Най-важното е, че първоначалната работа предполага, че размерът на модела има повече значение от данните, което подтиква надпревара към все по-големи модели като 175 милиарда параметри на GPT-3. Законите за мащабиране превърнаха задълбоченото обучение от догадки в предвидима инженерна дисциплина, позволявайки на екипите да прогнозират широкообхватни резултати от малки, евтини експерименти.

Техническа информация

Формата на степенния закон означава, че всяко фиксирано мултипликативно увеличение на изчислението води до приблизително постоянен адитивен спад на загубата. Загубата се измерва в nats или битове на символ на кръстосана ентропия. Тъй като показателят c е малък (често около 0,05-0,1), печалбите са реални, но намаляващи: удвояването на изчисленията помага много по-малко от първите удвоения. Важно е, че тези закони описват нередуцируема плюс редуцируема загуба, където постоянен термин улавя присъщата ентропия на данните, която никой модел не може да победи.

Овладяване на законите за мащабиране за невронни мрежи

Законите за мащабиране са емпирични формули, показващи, че загубата на невронна мрежа намалява предсказуемо с нарастването на размера на модела, размера на набора от данни и изчисленията. Те имат значение, защото позволяват на изследователите да прогнозират ефективността, преди да похарчат милиони за обучение на гигантски модел. Законите за мащабиране за невронни мрежи се намират в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте законите за мащабиране за невронни мрежи като оперативен модел, а не като отделна характеристика: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи закони за мащабиране за невронни мрежи, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на законите за мащабиране за невронни мрежи

Изследователите разширяват законите за мащабиране отвъд загубата преди обучението до точността на задачите надолу по веригата, мултимодални модели и изчисление на времето за изводи, където моделите на разсъждение изразходват повече мислене за всяка заявка. Тъй като висококачественият текст става оскъден, вниманието се измества към качеството на данните, синтетичните данни и законите за мащабиране на повтарящи се данни. Някои твърдят, че суровото мащабиране достига практически граници на пари, енергия и наличен текст, тласкайки полето към алгоритмична ефективност и нови архитектури, вместо просто да строи по-голямо.

Внедряване в реалния свят

Прогнозиране на окончателната загуба на планиран модел със 70 милиарда параметри от поредица от малки тестове със 100 милиона параметри, преди да се ангажира бюджет за GPU.

Вземане на решение колко трилиона токени да се съберат, така че фиксираният бюджет за изчисления да не се губи за недостатъчно обучен модел.

Евтино сравняване на две архитектури чрез монтиране на техните мащабиращи криви в малък мащаб, вместо обучение на двете в пълен размер.

Задаване на реалистични очаквания за точност за инвеститори или рецензенти на субсидии чрез екстраполиране на кривата на загубата до целево изчислително ниво.

Модели на изпълнение

Закони за мащабиране за невронни мрежи на практика

Прогнозиране на окончателната загуба на планиран модел със 70 милиарда параметри от поредица от малки тестове със 100 милиона параметри, преди да се ангажира бюджет за GPU.

Прогнозиране на окончателната загуба на планиран модел със 70 милиарда параметъра от поредица от малки тестове със 100 милиона параметъра преди ангажиране на бюджета на GPU Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Закони за мащабиране за невронни мрежи на практика

Вземане на решение колко трилиона токени да се съберат, така че фиксираният бюджет за изчисления да не се губи за недостатъчно обучен модел.

Вземане на решение колко трилиона токени да се съберат, така че фиксираният бюджет за изчисления да не се губи за недостатъчно обучен модел Екипите обикновено получават по-добри резултати, когато дефинират праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Закони за мащабиране за невронни мрежи на практика

Евтино сравняване на две архитектури чрез монтиране на техните мащабиращи криви в малък мащаб, вместо обучение на двете в пълен размер.

Евтино сравняване на две архитектури чрез монтиране на техните мащабиращи криви в малък мащаб, вместо обучение и на двете в пълен размер. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Закони за мащабиране за невронни мрежи на практика

Задаване на реалистични очаквания за точност за инвеститори или рецензенти на субсидии чрез екстраполиране на кривата на загубата до целево изчислително ниво.

Задаване на реалистични очаквания за точност за инвеститори или рецензенти на безвъзмездни средства чрез екстраполиране на кривата на загубите до целево ниво на изчисление Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде законите за мащабиране за невронни мрежи помагат и къде по-простите методи са по-добри.

Документирайте къде законите за мащабиране за невронни мрежи помагат и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате