РЪКОВОДСТВО по основи

Клетки с дълга краткосрочна памет

Клетките на дългата краткосрочна памет (LSTM) са специален вид повтаряща се невронна мрежа, създадена да запомня информация в дълги последователности.

Преглед

Клетките на дългата краткосрочна памет (LSTM) са специален вид повтаряща се невронна мрежа, създадена да запомня информация в дълги последователности. Те разрешиха проблема с изчезващия градиент, който осакати по-ранните RNN, задвижвайки десетилетие на пробиви в езика, речта и превода.

Long Short-Term Memory Cells се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

Въведена от Sepp Hochreiter и Jurgen Schmidhuber през 1997 г., клетката LSTM поддържа „клетъчно състояние“, което действа като конвейерна лента от памет, преминаваща през последователността. Три научени порти го контролират: портата за забравяне решава какво да изтрие, входната врата решава каква нова информация да се съхранява, а изходната врата решава какво да изложи като изход на клетката. Всеки гейт използва сигмоид (извеждащ от 0 до 1), за да действа като мек превключвател. Тъй като състоянието на клетката се актуализира най-вече чрез добавяне, а не чрез многократно умножение, градиентите могат да текат назад през много времеви стъпки, без да се свиват до нула, позволявайки на LSTM да научават зависимости на стотици стъпки една от друга. Преди Transformers, LSTM бяха в основата на Google Превод, разпознаване на реч и генериране на текст.

Техническа информация

Корекцията на изчезващия градиент идва от почти линейната актуализация на състоянието на клетката: c_t = f_t * c_{t-1} + i_t * g_t. Вратата за забравяне f_t (сигмоид) може да остане близо до 1, създавайки „въртележка с постоянни грешки“, така че сигналите за грешка да оцелеят при обратно разпространение във времето през дълги интервали. Портите сами по себе си са малки невронни слоеве (сигмоид за стробиране, tanh за кандидат стойности), всички обучени съвместно чрез градиентно спускане. Това стробиране позволява на мрежата да научи какво да запази и какво да изхвърли.

Овладяване на клетки с дълга краткосрочна памет

Клетките на дългата краткосрочна памет (LSTM) са специален вид повтаряща се невронна мрежа, създадена да запомня информация в дълги последователности. Те разрешиха проблема с изчезващия градиент, който осакати по-ранните RNN, задвижвайки десетилетие на пробиви в езика, речта и превода. Long Short-Term Memory Cells се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте клетките с дълга краткосрочна памет като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи дългосрочни клетки с краткосрочна памет, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на клетките с дълга краткосрочна памет

Трансформаторите до голяма степен са изпреварили LSTM за широкомащабни езикови задачи, защото паралелизират последователност и улавят дългосрочен контекст чрез внимание, докато LSTM обработват токени стъпка по стъпка. Все пак LSTM остават ценни за стрийминг, настройки с ниска латентност и ограничени ресурси, както и за скромни времеви серии от данни. Скорошна работа като xLSTM (2024) преразглежда и модернизира архитектурата с нови стробиране и памет, за да се конкурира в мащаб, показвайки, че идеята не е завършена.

Внедряване в реалния свят

Задвижване на машинния превод в началото на Google невронната система на Translate, преди Transformers да поеме управлението.

Разпознаване на реч към текст в гласови асистенти и софтуер за диктовка.

Прогнозиране на бъдещи стойности във времеви редове като търсене на енергия, показания на сензори или цени на акции.

Генериране на текст или музика един знак по един и автоматично довършване на последователности.

Модели на изпълнение

Клетки с дълга краткосрочна памет на практика

Задвижване на машинния превод в началото на Google невронната система на Translate, преди Transformers да поеме управлението.

Захранване на машинния превод в началото на Google Невронната система на Translate преди Transformers да поеме Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Клетки с дълга краткосрочна памет на практика

Разпознаване на реч към текст в гласови асистенти и софтуер за диктовка.

Разпознаване на реч към текст в гласови асистенти и софтуер за диктовка Екипите обикновено получават по-добри резултати, когато определят предварително прагове за качество, поддържат човешка пътека за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Клетки с дълга краткосрочна памет на практика

Прогнозиране на бъдещи стойности във времеви редове като търсене на енергия, показания на сензори или цени на акции.

Прогнозиране на бъдещи стойности във времеви редове, като например търсене на енергия, показания на сензори или цени на акции Екипите обикновено получават по-добри резултати, когато предварително определят праговете на качеството, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Клетки с дълга краткосрочна памет на практика

Генериране на текст или музика един знак по един и автоматично довършване на последователности.

Генериране на текст или музика един токен наведнъж и последователности за автоматично довършване Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат човешка пътека за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде Long Short-Term Memory Cells помага и къде по-простите методи са по-добри.

Документирайте къде Long Short-Term Memory Cells помага и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате