РЪКОВОДСТВО по основи

Феноменът на двойното спускане

Двойният спад е изненадващото наблюдение, че когато моделът става по-голям, грешката на теста първо се влошава близо до „прага на интерполация“, но след това отново се подобрява – противопоставяйки се на класическия компромис от учебника.

Преглед

Двойният спад е изненадващото наблюдение, че когато моделът става по-голям, грешката на теста първо се влошава близо до „прага на интерполация“, но след това отново се подобрява – противопоставяйки се на класическия компромис от учебника. Има значение, защото помага да се обясни защо огромни, свръхпараметризирани невронни мрежи се обобщават добре, вместо да се пренастройват.

Феноменът Double Descent се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

Класическата статистика учи на U-образна крива: с нарастването на сложността на модела, грешката на теста намалява, достига дъното, след което се покачва, когато моделът се надгражда. Двойното спускане, популяризирано от Белкин, Хсу, Ма и Мандал през 2019 г. и изследвано в мащаб от OpenAI, показва, че кривата има второ спускане. Грешката при теста достига пик точно при прага на интерполация — точката, в която моделът има достатъчно параметри, за да пасне точно на всяка точка на обучение (нулева грешка на обучение). Преминете това в свръхпараметризирания режим и грешката на теста пада отново, често под класическата сладка точка. Същият ефект се появява при размера на модела, времето за обучение (двойно слизане „по епохи“) и размера на набора от данни. Той преформулира стария страх, че „повече параметри винаги означават пренастройване“.

Техническа информация

При прага на интерполация по същество има едно решение, което точно отговаря на данните, и то е принудено да бъде назъбено и с висока норма, така че обобщава лошо. В свръхпараметризирания режим съществуват безкрайно много решения с нулева грешка и имплицитното отклонение на градиентното спускане се насочва към най-плавното с най-ниска норма. Това предпочитание към интерполатори с ниска сложност - не самият брой параметри - е това, което кара второто спускане до по-ниска грешка при тестване.

Овладяване на феномена на двойното спускане

Двойният спад е изненадващото наблюдение, че когато моделът става по-голям, грешката на теста първо се влошава близо до „прага на интерполация“, но след това отново се подобрява – противопоставяйки се на класическия компромис от учебника. Има значение, защото помага да се обясни защо огромни, свръхпараметризирани невронни мрежи се обобщават добре, вместо да се пренастройват. Феноменът Double Descent се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте феномена Double Descent като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика, силни екипи, използващи феномена Double Descent, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на феномена на двойния произход

Изследователите използват двойно спускане, за да прецизират законите за мащабиране и да избират кога да спрат да тренират, тъй като „тренирайте по-дълго, станете по-лоши, след това по-добри“ има реални последици за разходите. Очаквайте по-строга теория, свързваща го с имплицитната регуляризация, невронното допирателно ядро ​​и грокинг. На практика урокът - по-големият и по-дълъг може да помогне за преминаване през опасната зона - вече е в основата на решенията за обучение на все по-големи модели на основата, а не внимателно оразмерени.

Внедряване в реалния свят

Обяснявайки защо езиков модел със 175 милиарда параметъра обобщава по-добре от внимателно настроен такъв със среден размер, въпреки значително по-големия капацитет

Избирайки да тренирате след точката, в която загубата на валидиране временно се влошава, тъй като двойното спускане според епохата предвижда по-късно възстановяване

Диагностициране на визуален модел, чиято точност се понижи точно когато броят на параметрите съответства на размера на набора за обучение, след което го насочва по-дълбоко към свръхпараметризиране

Информиране на решенията за оразмеряване на модела в AutoML, така че практикуващите да избегнат крехката прагова зона на интерполация

Модели на изпълнение

Феноменът на двойното спускане на практика

Обяснявайки защо езиков модел със 175 милиарда параметъра обобщава по-добре от внимателно настроен среден по размер, въпреки значително по-големия капацитет.

Обяснявайки защо езиков модел със 175 милиарда параметъра обобщава по-добре от внимателно настроен среден, въпреки значително по-големия капацитет Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Феноменът на двойното спускане на практика

Изборът да тренирате след точката, в която загубата на валидиране временно се влошава, тъй като двойното спускане според епохата предсказва по-късно възстановяване.

Изборът да се обучава след точката, в която загубата на валидиране временно се влошава, тъй като двойното спускане според епохата прогнозира по-късно възстановяване Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Феноменът на двойното спускане на практика

Диагностициране на визуален модел, чиято точност се понижава точно когато броят на параметрите съответства на размера на набора за обучение, след което го насочва по-дълбоко към свръхпараметризиране.

Диагностициране на визуален модел, чиято точност се понижи точно когато броят на параметрите съвпадна с размера на обучителния набор, след което го насочи по-дълбоко към свръхпараметризация Екипите обикновено получават по-добри резултати, когато дефинират праговете на качеството предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Феноменът на двойното спускане на практика

Информиране на решенията за оразмеряване на модела в AutoML, така че практикуващите да избегнат крехката прагова зона на интерполация.

Информиране на решенията за оразмеряване на модела в AutoML, така че практиците да избегнат крехката прагова зона на интерполация. Екипите обикновено получават по-добри резултати, когато дефинират праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде феноменът Double Descent помага и къде по-простите методи са по-добри.

Документирайте къде феноменът Double Descent помага и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате