PRZEWODNIK techniczny

Agenci Voyagera i Biblioteki Umiejętności

Voyager to agent oparty na LLM na rok 2023, który gra w Minecrafta autonomicznie, stale się ucząc, pisząc umiejętności kodowania wielokrotnego użytku i przechowując je w rosnącej bibliotece.

Przegląd

Voyager to agent oparty na LLM na rok 2023, który gra w Minecrafta autonomicznie, stale się ucząc, pisząc umiejętności kodowania wielokrotnego użytku i przechowując je w rosnącej bibliotece. Pokazało, że agent może uczyć się bez ograniczeń, przez całe życie, bez aktualizacji gradientów, po prostu gromadząc i ponownie wykorzystując programy.

Agenci Voyager i Skill-Library Agent to techniczny element konstrukcyjny, który wpływa na jakość modelu, koszt infrastruktury, opóźnienia i niezawodność na dużą skalę.

Głębokie nurkowanie

Zbudowany przez firmę NVIDIA, Caltech i współpracowników (Wang i in.), Voyager wykorzystuje GPT-4 jako swój mózg i traktuje umiejętności jako wykonywalny kod JavaScript kontrolujący bota Minecrafta. Obsługuje trzy współdziałające komponenty: automatyczny program nauczania, który proponuje coraz trudniejsze cele maksymalizujące eksplorację, iteracyjny mechanizm podpowiedzi, który pisze kod, uruchamia go w grze, odczytuje błędy i informacje zwrotne ze środowiska oraz przeprowadza autodebugowanie do czasu, aż umiejętność zadziała, oraz bibliotekę umiejętności, w której każda zweryfikowana umiejętność jest przechowywana i indeksowana poprzez osadzenie opisu w języku naturalnym. Ponieważ nowe umiejętności składają się z wcześniej zapisanych, ich możliwości z czasem się zwiększają. Voyager zdobywał znacznie więcej unikalnych przedmiotów, pokonywał większe odległości i odblokowywał kamienie milowe w drzewie technologicznym znacznie szybciej niż poprzedni agenci, a jego wyuczone umiejętności zostały przeniesione do nowych światów.

Wgląd techniczny

Voyager uczy się w kontekście, a nie poprzez zmianę wagi modelu. Umiejętność to zweryfikowany fragment kodu; jest zapisywany z osadzonym opisem, dzięki czemu w przypadku pojawienia się nowego zadania można odzyskać istotne semantycznie umiejętności i dostarczyć je jako elementy składowe. Pętla samodoskonalenia to: wygeneruj kod, wykonaj, obserwuj błędy i stan gry, poproś modela o naprawienie tego, powtórz. Dzięki temu metoda prób i błędów staje się trwałymi, dającymi się komponować programami, a nie efemerycznym rozumowaniem.

Opanowanie agentów podróżujących i bibliotek umiejętności

Voyager to agent oparty na LLM na rok 2023, który gra w Minecrafta autonomicznie, stale się ucząc, pisząc umiejętności kodowania wielokrotnego użytku i przechowując je w rosnącej bibliotece. Pokazało, że agent może uczyć się bez ograniczeń, przez całe życie, bez aktualizacji gradientów, po prostu gromadząc i ponownie wykorzystując programy. Agenci Voyager i Skill-Library Agent to techniczny element konstrukcyjny, który wpływa na jakość modelu, koszt infrastruktury, opóźnienia i niezawodność na dużą skalę. Aby zbudować głębokie zrozumienie, traktuj agentów Voyagera i bibliotek umiejętności jako model operacyjny, a nie pojedynczą funkcję: zdefiniuj pożądane wyniki, wyjaśnij założenia i oddziel to, co system może niezawodnie zrobić, od tego, co wciąż wymaga fachowej oceny.

W praktyce silne zespoły korzystające z agentów Voyager i Skill-Library Agent optymalizują wybór architektury, danych i infrastruktury pod kątem niezawodności i kosztów. Dokumentują wyraźne kryteria sukcesu, testują realistyczne dane i przepływy pracy oraz wykonują iteracje w oparciu o zaobserwowane wzorce niepowodzeń, a nie jednorazowe zwycięstwa w testach porównawczych. W tym miejscu teoretyczne zrozumienie zamienia się w trwałe możliwości w zakresie produktu, polityki i operacji.

Decyzje dotyczące architektury wpływają na wydajność i koszty operacyjne przez lata. Jednocześnie optymalizacja jednego testu porównawczego może ukryć szersze słabości systemu. Najbardziej odporne podejście polega na połączeniu szybkości eksperymentowania z dyscypliną zarządzania: przeprowadzanie programów pilotażowych, gromadzenie dowodów, publikowanie dzienników decyzji i ciągłe aktualizowanie zabezpieczeń w miarę ewolucji zachowań modelu, oczekiwań użytkowników i wymagań prawnych.

Wpływ strategiczny

Decyzje dotyczące architektury wpływają na wydajność i koszty operacyjne przez lata.

Decyzje dotyczące architektury wpływają na wydajność i koszty operacyjne przez lata. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Edukacja techniczna pomaga zespołom wybrać odpowiedni stos, a nie tylko najnowszy.

Edukacja techniczna pomaga zespołom wybrać odpowiedni stos, a nie tylko najnowszy. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Lepsze wybory inżynieryjne zmniejszają liczbę incydentów związanych z niezawodnością w produkcji.

Lepsze wybory inżynieryjne zmniejszają liczbę incydentów związanych z niezawodnością w produkcji. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Przyszłość agentów Voyagerów i bibliotek umiejętności

Agenci bibliotek umiejętności wskazują na systemy przechowujące zweryfikowane umiejętności wielokrotnego użytku, które w miarę upływu czasu stają się coraz bardziej wydajne, co jest ucieleśnieniem uczenia się przez całe życie. Można się spodziewać, że biblioteki te wykroczą poza gry i obejmą robotykę, automatyzację oprogramowania i asystentów cyfrowych, a wyszukiwanie, skład i kontrole bezpieczeństwa w zakresie wyuczonych umiejętności staną się podstawową infrastrukturą. Najważniejsze otwarte pytania dotyczą usuwania złych umiejętności, udostępniania bibliotek pomiędzy agentami i gwarantowania, że ​​ułożone zachowania pozostaną niezawodne.

Implementacja w świecie rzeczywistym

Autonomiczne przechodzenie przez drzewo technologiczne Minecrafta (drewno, kamień, żelazo, narzędzia diamentowe) poprzez komponowanie wyuczonych umiejętności.

Pisanie i samodzielne debugowanie umiejętności kodowania „wydobywaj i twórz”, a następnie używaj jej ponownie za każdym razem, gdy to podzadanie się powtórzy.

Odzyskiwanie wcześniej zapisanej umiejętności „walki z zombie” poprzez osadzenie jej opisu, gdy pojawi się podobne zagrożenie.

Przenoszenie wyuczonej biblioteki umiejętności do świeżo wygenerowanego świata Minecraft, aby szybciej uruchamiać nowe zadania.

Wzorce implementacyjne

Voyager i agenci bibliotek umiejętności w praktyce

Autonomiczne przechodzenie przez drzewo technologiczne Minecrafta (drewno, kamień, żelazo, narzędzia diamentowe) poprzez komponowanie wyuczonych umiejętności.

Autonomiczne przechodzenie przez drzewo technologiczne Minecrafta (od drewna przez kamień, od żelaza po narzędzia diamentowe) poprzez komponowanie wyuczonych umiejętności. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Voyager i agenci bibliotek umiejętności w praktyce

Pisanie i samodzielne debugowanie umiejętności kodowania „wydobywaj i twórz”, a następnie używaj jej ponownie za każdym razem, gdy to podzadanie się powtórzy.

Pisanie i samodzielne debugowanie umiejętności „wydobywania i tworzenia” kodu, a następnie wykorzystywanie jej ponownie za każdym razem, gdy to podzadanie się powtórzy. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Voyager i agenci bibliotek umiejętności w praktyce

Odzyskiwanie wcześniej zapisanej umiejętności „walki z zombie” poprzez osadzenie jej opisu, gdy pojawi się podobne zagrożenie.

Odzyskiwanie wcześniej zapisanej umiejętności „walki z zombie” poprzez osadzenie jej opisu, gdy pojawi się podobne zagrożenie. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Voyager i agenci bibliotek umiejętności w praktyce

Przenoszenie wyuczonej biblioteki umiejętności do świeżo wygenerowanego świata Minecraft, aby szybciej uruchamiać nowe zadania.

Przeniesienie wyuczonej biblioteki umiejętności do świeżo wygenerowanego świata Minecrafta w celu szybszego uruchamiania nowych zadań. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych oraz śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Zagrożenia i poręcze

!

Optymalizacja jednego testu porównawczego może ukryć szersze słabości systemu.

!

Koszty infrastruktury i utrzymania są często niedoszacowane.

!

W miarę jak systemy stają się coraz bardziej złożone, luki w bezpieczeństwie i obserwowalności mogą się zwiększać.

Plan wdrożenia

1

Przed wdrożeniem zdefiniuj docelowe opóźnienia, jakość i koszty.

Przed wdrożeniem zdefiniuj docelowe opóźnienia, jakość i koszty. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

2

Test porównawczy w realistycznych warunkach obciążenia i danych.

Test porównawczy w realistycznych warunkach obciążenia i danych. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

3

Monitorowanie przyrządu pod kątem błędów, dryftu i wpływu użytkownika.

Monitorowanie przyrządu pod kątem błędów, dryftu i wpływu użytkownika. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

4

Przed skalowaniem przygotuj ścieżki wycofywania zmian i reakcji na incydenty.

Przed skalowaniem przygotuj ścieżki wycofywania zmian i reakcji na incydenty. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

Odkrywaj dalej