Chinchilla Compute-Оптимално ръководство за обучение

Преглед

Chinchilla е откритие на DeepMind за 2022 г., че повечето големи езикови модели са били зле обучени: за фиксиран изчислителен бюджет трябва да мащабирате параметрите и данните приблизително еднакво, а не просто да изградите по-голям модел. Той промени начина, по който индустрията балансира размера на модела спрямо данните за обучение.

Chinchilla Compute-Optimal Training е част от основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

Документът Chinchilla на DeepMind преразгледа мащабирането и обучи над 400 модела, за да намерят оптималния баланс за изчисляване. Основното правило: размерът на модела и жетоните за обучение трябва да растат в синхрон, приблизително 20 жетона за обучение на параметър. За да го докажат, те обучиха Chinchilla, модел със 70 милиарда параметъра на 1,4 трилиона токена, използвайки същото изчисление като Gopher с 280 милиарда параметъра, обучен на много по-малко токени. Chinchilla, въпреки че е четири пъти по-малък, превъзхожда Gopher, GPT-3 и други гиганти на почти всеки показател. Урокът преобърна по-ранното заключение на OpenAI, че се предпочита размерът пред данните, показвайки, че много водещи модели оставят производителността на масата, тъй като са твърде големи и твърде гладни за данни.

Техническа информация

Загуба на съответствие на чинчила като L(N,D) = E + A·N^(-α) + B·D^(-β), като α и β са близо до 0,34, което означава, че параметрите и данните допринасят почти симетрично. Оптимизирането на това при фиксирано изчислително ограничение (изчисление ≈ 6·N·D за трансформатори) дава резултат с равно мащабиране. По-малък, богат на данни модел също е по-евтин за изпълнение при извод, така че предимството му се комбинира при внедряване, а не само при обучение.

Овладяване на Chinchilla Compute-оптимално обучение

За да изградите дълбоко разбиране, третирайте Chinchilla Compute-Optimal Training като оперативен модел, а не като отделна функция. Дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи Chinchilla Compute-Optimal Training, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

You can ask better implementation questions before spending money or time. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на Chinchilla Compute-оптимално обучение

Съвременните модели като Llama 3 умишлено надминават съотношението 20 токена на параметър на Chinchilla, обучавайки малки модели на трилиони токени, за да направят изводите евтини, като приемат неоптимални изчисления за обучение. Тъй като добрите данни стават все по-малко, нараства интересът към повтарящите се епохи, синтетичните данни и качественото филтриране. Чинчила остава отправна точка, но оптимумът все повече зависи от разходите за изводи през целия живот, а не само от бюджета за еднократно обучение.

Внедряване в реалния свят

Изборът да се обучи модел със 7 милиарда параметъра върху 2 трилиона токена вместо модел с 30 милиарда върху твърде малко данни за същия бюджет.

Изчислявайки, че модел с 10 милиарда параметъра иска приблизително 200 милиарда жетона, за да достигне оптималната за изчисления сладка точка.

Обосноваване на по-малък разгърнат модел за намаляване на разходите за извод на заявка, като същевременно съответства на качеството на по-голям конкурент.

Одитиране на съществуващ модел и заключение, че е бил недостатъчно обучен, след което планиране на по-дълъг тренировъчен цикъл вместо увеличаване на параметъра.

Модели на изпълнение

Chinchilla Compute-Оптимално обучение на практика

Изборът да се обучи модел със 7 милиарда параметъра върху 2 трилиона токена вместо модел с 30 милиарда върху твърде малко данни за същия бюджет.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Chinchilla Compute-Оптимално обучение на практика

Изчислявайки, че модел с 10 милиарда параметъра иска приблизително 200 милиарда жетона, за да достигне оптималната за изчисления сладка точка.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Chinchilla Compute-Оптимално обучение на практика

Обосноваване на по-малък разгърнат модел за намаляване на разходите за извод на заявка, като същевременно съответства на качеството на по-голям конкурент.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Chinchilla Compute-Оптимално обучение на практика

Одитиране на съществуващ модел и заключение, че е бил недостатъчно обучен, след което планиране на по-дълъг тренировъчен цикъл вместо увеличаване на параметъра.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде Chinchilla Compute-Optimal Training помага и къде по-простите методи са по-добри.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате

Какво е AI?

Вземете основните понятия, преди да се гмурнете по-дълбоко.

Прочетете ръководството

Как AI учи

Разберете процеса на обучение зад съвременните системи.

Прочетете ръководството

Chinchilla Compute-Оптимално обучение

Преглед

Дълбоко гмуркане

Техническа информация

Овладяване на Chinchilla Compute-оптимално обучение

Стратегическо въздействие

Бъдещето на Chinchilla Compute-оптимално обучение

Внедряване в реалния свят

Модели на изпълнение

Chinchilla Compute-Оптимално обучение на практика

Chinchilla Compute-Оптимално обучение на практика

Chinchilla Compute-Оптимално обучение на практика

Chinchilla Compute-Оптимално обучение на практика

Рискове и предпазни огради

Пътна карта за изпълнение

Продължете да изследвате

Какво е AI?

Как AI учи

Related guides