PODSTAWOWY PRZEWODNIK

Hipoteza dotycząca losu na loterię

Hipoteza losu na loterię mówi, że wewnątrz dużej, losowo inicjowanej sieci neuronowej kryje się mała podsieć — „zwycięski los”, która wyszkolona samodzielnie na podstawie tych samych początkowych wag może dorównać dokładnością całej sieci.

Przegląd

Hipoteza losu na loterię mówi, że wewnątrz dużej, losowo inicjowanej sieci neuronowej kryje się mała podsieć — „zwycięski los”, która wyszkolona samodzielnie na podstawie tych samych początkowych wag może dorównać dokładnością całej sieci. Ma to znaczenie, ponieważ sugeruje, że trenujemy znacznie więcej parametrów, niż faktycznie potrzebujemy.

Hipoteza losu na loterię znajduje się w podstawowym zestawie narzędzi sztucznej inteligencji. Kiedy to zrozumiesz, inne tematy związane ze sztuczną inteligencją staną się łatwiejsze do oceny i porównania.

Głębokie nurkowanie

Hipoteza zaproponowana przez Jonathana Frankle i Michaela Carbina z MIT w 2018 roku wyrosła z badań nad przycinaniem. Zwykle można przyciąć wyszkoloną sieć do 10–20% jej wag bez utraty dokładności, ale szkolenie tej małej sieci od zera kończy się niepowodzeniem. Frankle i Carbin znaleźli sposób: zachowaj oryginalne wagi początkowe pozostałych połączeń. Ta rzadka podsieć – zwycięski bilet – następnie trenuje z pełną dokładnością w izolacji, czasami szybciej niż gęsty oryginał. Zidentyfikowali bilety poprzez „iteracyjne przycinanie wielkości”: trenuj, przycinaj ciężarki o najmniejszej wielkości, przewijaj resztę do wartości początkowych i powtarzaj. Wynik sugeruje, że gęsta nadparametryzacja pomaga głównie optymalizacji w znalezieniu dobrej, rzadkiej struktury, a nie, że wszystkie te wagi są indywidualnie potrzebne.

Wgląd techniczny

Podstawową procedurą jest iteracyjne przycinanie wielkości z przewijaniem ciężarków: po treningu usuń odważniki o najniższej wielkości, zresetuj pozostałe odważniki do ich pierwotnej inicjalizacji (lub punktu kontrolnego na początku treningu, udoskonalenie zwane „przewijaniem”), a następnie przetrenuj ponownie. Kombinacja konkretnej maski rzadkiej ORAZ jej dopasowanej inicjalizacji sprawia, że ​​bilet „wygrywa” — losowa ponowna inicjalizacja tej samej maski niszczy efekt.

Opanowanie hipotezy dotyczącej losu na loterię

Hipoteza losu na loterię mówi, że wewnątrz dużej, losowo inicjowanej sieci neuronowej kryje się mała podsieć — „zwycięski los”, która wyszkolona samodzielnie na podstawie tych samych początkowych wag może dorównać dokładnością całej sieci. Ma to znaczenie, ponieważ sugeruje, że trenujemy znacznie więcej parametrów, niż faktycznie potrzebujemy. Hipoteza losu na loterię znajduje się w podstawowym zestawie narzędzi sztucznej inteligencji. Kiedy to zrozumiesz, inne tematy związane ze sztuczną inteligencją staną się łatwiejsze do oceny i porównania. Aby zbudować głębokie zrozumienie, traktuj hipotezę losu na loterię jako model operacyjny, a nie pojedynczą funkcję: zdefiniuj pożądane wyniki, wyjaśnij założenia i oddziel to, co system może niezawodnie zrobić, od tego, co wciąż wymaga fachowej oceny.

W praktyce silne zespoły korzystające z hipotezy losów loteryjnych najpierw budują silne modele koncepcyjne, a następnie mapują te modele na rzeczywiste ograniczenia produkcyjne. Dokumentują wyraźne kryteria sukcesu, testują realistyczne dane i przepływy pracy oraz wykonują iteracje w oparciu o zaobserwowane wzorce niepowodzeń, a nie jednorazowe zwycięstwa w testach porównawczych. W tym miejscu teoretyczne zrozumienie zamienia się w trwałe możliwości w zakresie produktu, polityki i operacji.

Pomaga oddzielić jasne twierdzenia techniczne od języka marketingowego. Jednocześnie różne zespoły mogą używać tego samego terminu w różny sposób, dlatego należy wcześniej zdefiniować zakres. Najbardziej odporne podejście polega na połączeniu szybkości eksperymentowania z dyscypliną zarządzania: przeprowadzanie programów pilotażowych, gromadzenie dowodów, publikowanie dzienników decyzji i ciągłe aktualizowanie zabezpieczeń w miarę ewolucji zachowań modelu, oczekiwań użytkowników i wymagań prawnych.

Wpływ strategiczny

Pomaga oddzielić jasne twierdzenia techniczne od języka marketingowego.

Pomaga oddzielić jasne twierdzenia techniczne od języka marketingowego. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Możesz zadawać pytania dotyczące lepszego wdrożenia, zanim wydasz pieniądze lub czas.

Możesz zadawać pytania dotyczące lepszego wdrożenia, zanim wydasz pieniądze lub czas. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Zespoły charakteryzujące się wspólnym zrozumieniem podejmują lepsze decyzje dotyczące produktów, zasad i uczenia się.

Zespoły charakteryzujące się wspólnym zrozumieniem podejmują lepsze decyzje dotyczące produktów, zasad i uczenia się. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Przyszłość hipotezy dotyczącej losów na loterię

Losy na loterię napędzają badania nad szkoleniem rzadkich sieci od samego początku w celu oszczędzania mocy obliczeniowej i energii, a także nad tym, czy bilety mogą być przesyłane między zbiorami danych i zadaniami. Skalowanie iteracyjnego przycinania do modeli miliardowych parametrów pozostaje kosztowne, dlatego trwają prace nad tanim znalezieniem losów lub udowodnieniem ich istnienia (hipoteza „silnego” losu na loterię mówi, że losy istnieją w momencie inicjalizacji, bez żadnego szkolenia). Spodziewaj się powiązań z wydajnymi modelami na urządzeniach i ekologiczną sztuczną inteligencją.

Implementacja w świecie rzeczywistym

Kompresja dużego klasyfikatora obrazu do poniżej 20% jego wag w celu wdrożenia na telefonie przy zachowaniu dokładności

Przyspieszenie uczenia poprzez identyfikację i uczenie tylko rzadkiej, zwycięskiej podsieci

Badanie możliwości przenoszenia ciężaru poprzez ponowne wykorzystanie biletu znalezionego w jednym zestawie danych w celu szybkiego rozpoczęcia treningu na pokrewnym

Zmniejszanie energii wnioskowania i pamięci w urządzeniach brzegowych poprzez wysyłkę przyciętego zwycięskiego biletu zamiast gęstego modelu

Wzorce implementacyjne

Hipoteza losu na loterię w praktyce

Kompresja dużego klasyfikatora obrazu do poniżej 20% jego wag w celu wdrożenia na telefonie przy zachowaniu dokładności.

Kompresja klasyfikatora dużego obrazu do mniej niż 20% jego wagi na potrzeby wdrożenia na telefonie przy jednoczesnym zachowaniu dokładności Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych oraz śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Hipoteza losu na loterię w praktyce

Przyspieszenie uczenia poprzez identyfikację i uczenie tylko rzadkiej, zwycięskiej podsieci.

Przyspieszenie szkolenia poprzez identyfikację i uczenie tylko rzadkiej, zwycięskiej podsieci Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Hipoteza losu na loterię w praktyce

Badanie możliwości przenoszenia ciężaru poprzez ponowne wykorzystanie biletu znalezionego w jednym zestawie danych w celu szybkiego rozpoczęcia treningu na pokrewnym.

Badanie możliwości przenoszenia ciężaru poprzez ponowne wykorzystanie biletu znalezionego w jednym zbiorze danych w celu szybkiego rozpoczęcia szkolenia na pokrewnym zbiorze. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Hipoteza losu na loterię w praktyce

Zmniejszanie energii wnioskowania i pamięci w urządzeniach brzegowych poprzez wysyłkę przyciętego zwycięskiego biletu zamiast gęstego modelu.

Ograniczanie energii wnioskowania i pamięci na urządzeniach brzegowych poprzez wysyłanie oczyszczonego zwycięskiego biletu zamiast gęstego modelu Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych oraz śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Zagrożenia i poręcze

!

Różne zespoły mogą odmiennie używać tego samego terminu, dlatego należy wcześniej zdefiniować zakres.

!

Testy porównawcze mogą wyglądać dobrze, podczas gdy wydajność w świecie rzeczywistym jest nierówna.

!

Ignorowanie planów dotyczących jakości danych i oceny często skutkuje kruchymi wynikami.

Plan wdrożenia

1

Zacznij od jasnej definicji potrzebnego wyniku.

Zacznij od jasnej definicji potrzebnego wyniku. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

2

Przed testowaniem wybierz jedną metrykę sukcesu i jeden warunek niepowodzenia.

Przed testowaniem wybierz jedną metrykę sukcesu i jeden warunek niepowodzenia. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

3

Przeprowadź mały pilotaż z reprezentatywnymi danymi, a nie dopracowanym zestawem demonstracyjnym.

Przeprowadź mały pilotaż z reprezentatywnymi danymi, a nie dopracowanym zestawem demonstracyjnym. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

4

Dokument, w którym hipoteza losu loteryjnego jest pomocna i gdzie lepsze są prostsze metody.

Dokument, w którym hipoteza losu loteryjnego jest pomocna i gdzie lepsze są prostsze metody. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

Odkrywaj dalej