PRZEWODNIK techniczny

Rozszerzenie długości przędzy i kontekstu

YaRN (jeszcze kolejne rozszerzenie RoPE) to wydajna technika rozciągania użytecznego okna kontekstowego modelu daleko poza to, na czym został on przeszkolony.

Przegląd

YaRN (jeszcze kolejne rozszerzenie RoPE) to wydajna technika rozciągania użytecznego okna kontekstowego modelu daleko poza to, na czym został on przeszkolony. Sprytnie przeskalowuje osadzanie pozycji obrotowych, dzięki czemu model wytrenowany na, powiedzmy, tokenach 4K może obsłużyć 32K lub więcej przy minimalnym dostrojeniu.

YaRN i rozszerzenie długości kontekstu to techniczny element konstrukcyjny, który wpływa na jakość modelu, koszt infrastruktury, opóźnienia i niezawodność na dużą skalę.

Głębokie nurkowanie

Większość nowoczesnych LLM koduje pozycje tokenów za pomocą RoPE (Rotary Position Embeddings), które obracają wektory zapytań i kluczy o kąty powiązane z pozycją. Kiedy podajesz sekwencje dłuższe niż długość treningu, rotacje te wchodzą w niewidoczne zakresy i model się psuje. YaRN, wprowadzony w 2023 r. przez Bowena Penga i współpracowników, rozwiązuje ten problem za pomocą interpolacji uwzględniającej NTK stosowanej dla każdej częstotliwości: pozostawia wymiary o wysokiej częstotliwości (które rejestrują lokalne relacje o krótkim zasięgu) w większości nietknięte podczas interpolacji wymiarów o niskiej częstotliwości (które śledzą pozycję dalekiego zasięgu). YaRN dodaje również możliwość dostosowania temperatury, aby przeciwdziałać zmianom entropii wynikającym z dłuższych kontekstów. Rezultatem jest wysoka wydajność w długim kontekście po dostrojeniu jedynie niewielkiej części danych i kroków, których wymagają naiwne podejścia.

Wgląd techniczny

RoPE przypisuje każdemu wymiarowi osadzenia częstotliwość obrotu. Naiwna interpolacja liniowa kompresuje wszystkie częstotliwości jednakowo, szkodząc wymiarom wysokich częstotliwości, które kodują drobne szczegóły lokalne. YaRN wykorzystuje funkcję rampy do interpolacji tylko wymiarów o niskiej częstotliwości (długiej długości fali), zachowując wymiary o wysokiej częstotliwości, a także skalowanie temperatury uwagi 1/sqrt(t), które utrzymuje stabilną ostrość softmax w miarę wzrostu długości sekwencji. Podejście NTK oparte na częściach rozszerza kontekst przy znacznie mniejszej degradacji.

Opanowanie przędzy i wydłużania długości kontekstu

YaRN (jeszcze kolejne rozszerzenie RoPE) to wydajna technika rozciągania użytecznego okna kontekstowego modelu daleko poza to, na czym został on przeszkolony. Sprytnie przeskalowuje osadzanie pozycji obrotowych, dzięki czemu model wytrenowany na, powiedzmy, tokenach 4K może obsłużyć 32K lub więcej przy minimalnym dostrojeniu. YaRN i rozszerzenie długości kontekstu to techniczny element konstrukcyjny, który wpływa na jakość modelu, koszt infrastruktury, opóźnienia i niezawodność na dużą skalę. Aby zbudować głębokie zrozumienie, traktuj YaRN i rozszerzenie długości kontekstu jako model operacyjny, a nie pojedynczą funkcję: zdefiniuj pożądane wyniki, wyjaśnij założenia i oddziel to, co system może niezawodnie zrobić, od tego, co wciąż wymaga fachowej oceny.

W praktyce silne zespoły korzystające z YaRN i rozszerzenia Contextlength optymalizują wybór architektury, danych i infrastruktury pod kątem niezawodności i kosztów. Dokumentują wyraźne kryteria sukcesu, testują realistyczne dane i przepływy pracy oraz wykonują iteracje w oparciu o zaobserwowane wzorce niepowodzeń, a nie jednorazowe zwycięstwa w testach porównawczych. W tym miejscu teoretyczne zrozumienie zamienia się w trwałe możliwości w zakresie produktu, polityki i operacji.

Decyzje dotyczące architektury wpływają na wydajność i koszty operacyjne przez lata. Jednocześnie optymalizacja jednego testu porównawczego może ukryć szersze słabości systemu. Najbardziej odporne podejście polega na połączeniu szybkości eksperymentowania z dyscypliną zarządzania: przeprowadzanie programów pilotażowych, gromadzenie dowodów, publikowanie dzienników decyzji i ciągłe aktualizowanie zabezpieczeń w miarę ewolucji zachowań modelu, oczekiwań użytkowników i wymagań prawnych.

Wpływ strategiczny

Decyzje dotyczące architektury wpływają na wydajność i koszty operacyjne przez lata.

Decyzje dotyczące architektury wpływają na wydajność i koszty operacyjne przez lata. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Edukacja techniczna pomaga zespołom wybrać odpowiedni stos, a nie tylko najnowszy.

Edukacja techniczna pomaga zespołom wybrać odpowiedni stos, a nie tylko najnowszy. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Lepsze wybory inżynieryjne zmniejszają liczbę incydentów związanych z niezawodnością w produkcji.

Lepsze wybory inżynieryjne zmniejszają liczbę incydentów związanych z niezawodnością w produkcji. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Przyszłość przędzy i wydłużanie długości kontekstu

Rozszerzanie kontekstu jest obecnie standardową praktyką: otwarte modele rutynowo dostarczają warianty z rozszerzeniem YaRN, które osiągają 128 tys. tokenów lub więcej. Badania zmierzają w kierunku metod rozszerzających kontekst z zerowym lub prawie zerowym dostrojeniem, łączących przeskalowanie RoPE ze sztuczkami skupiającymi uwagę i utrzymującymi jakość w całym oknie, a nie tylko na końcach. Można się spodziewać ściślejszej integracji tych technik ze szkoleniem wstępnym, tak aby kontekst był natywny, a nie doposażany.

Implementacja w świecie rzeczywistym

Rozszerzanie modelu otwartego kontekstu 4K do 32K lub 128K w celu odpowiadania na pytania dotyczące długich dokumentów z krótkim dostrajaniem

Umożliwianie systemom wspomaganym wyszukiwaniem przyjmowania wielu połączonych fragmentów bez obcinania

Zasilanie asystentów kodu, które wymagają całego dużego pliku repozytorium lub wielu plików w jednym wierszu

Dostosowanie modelu podstawowego do długich, wieloobrotowych rozmów, które kumulują dużą historię rozmów

Wzorce implementacyjne

Rozszerzanie długości przędzy i kontekstu w praktyce

Rozszerzenie modelu otwartego kontekstu 4K do 32K lub 128K w celu uzyskania odpowiedzi na pytania w długich dokumentach z krótkim dostrojeniem.

Rozszerzanie modelu otwartego kontekstu 4K do 32 KB lub 128 KB w przypadku odpowiedzi na pytania dotyczące długich dokumentów z krótkim dostrojeniem Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Rozszerzanie długości przędzy i kontekstu w praktyce

Umożliwianie systemom wspomaganym wyszukiwaniem przyjmowania wielu połączonych fragmentów bez obcinania.

Umożliwienie systemom wspomaganym wyszukiwaniem przyjmowania wielu połączonych fragmentów bez obcinania Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Rozszerzanie długości przędzy i kontekstu w praktyce

Zasilanie asystentów kodu, które wymagają całego dużego pliku repozytorium lub wielu plików w jednym wierszu.

Zasilanie asystentów kodu, którzy potrzebują całego dużego pliku repozytorium lub wielu plików w jednym wierszu. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Rozszerzanie długości przędzy i kontekstu w praktyce

Dostosowanie modelu podstawowego do długich, wieloobrotowych rozmów, które kumulują dużą historię rozmów.

Dostosowywanie modelu podstawowego do długich, wieloobrotowych rozmów, które gromadzą duże historie rozmów. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Zagrożenia i poręcze

!

Optymalizacja jednego testu porównawczego może ukryć szersze słabości systemu.

!

Koszty infrastruktury i utrzymania są często niedoszacowane.

!

W miarę jak systemy stają się coraz bardziej złożone, luki w bezpieczeństwie i obserwowalności mogą się zwiększać.

Plan wdrożenia

1

Przed wdrożeniem zdefiniuj docelowe opóźnienia, jakość i koszty.

Przed wdrożeniem zdefiniuj docelowe opóźnienia, jakość i koszty. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

2

Test porównawczy w realistycznych warunkach obciążenia i danych.

Test porównawczy w realistycznych warunkach obciążenia i danych. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

3

Monitorowanie przyrządu pod kątem błędów, dryftu i wpływu użytkownika.

Monitorowanie przyrządu pod kątem błędów, dryftu i wpływu użytkownika. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

4

Przed skalowaniem przygotuj ścieżki wycofywania zmian i reakcji na incydenty.

Przed skalowaniem przygotuj ścieżki wycofywania zmian i reakcji na incydenty. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

Odkrywaj dalej