Műszaki ÚTMUTATÓ

YaRN és Context Length Extension

A YaRN (Yet another RoPE extensionN) egy hatékony technika a modell használható környezeti ablakának kiterjesztésére, messze túlmutatva azon, amire a modellt betanították.

Áttekintés

A YaRN (Yet another RoPE extensionN) egy hatékony technika a modell használható környezeti ablakának kiterjesztésére, messze túlmutatva azon, amire a modellt betanították. Ügyesen átméretezi a forgópozíciós beágyazásokat, így egy mondjuk 4K tokenre kiképzett modell minimális finomhangolással képes kezelni a 32K-t vagy még többet is.

A YaRN és a Context Length Extension egy olyan műszaki építőelem, amely befolyásolja a modell minőségét, az infrastruktúra költségeit, a késleltetést és a megbízhatóságot.

Mély merülés

A legtöbb modern LLM a token pozíciókat RoPE-vel (Rotary Position Embeddings) kódolja, amely pozícióhoz kötött szögekkel forgatja el a lekérdezést és a kulcsvektorokat. Ha az edzési hossznál hosszabb sorozatokat adagol, ezek a forgatások nem látható tartományokba lépnek, és a modell összeomlik. A Bowen Peng és munkatársai által 2023-ban bevezetett YaRN ezt a frekvenciánként alkalmazott NTK-tudatos interpolációval javítja: a nagyfrekvenciás dimenziókat (amelyek rögzítik a lokális, rövid hatótávolságú kapcsolatokat) többnyire érintetlenül hagyja, míg az alacsony frekvenciájú dimenziókat (amelyek nagy hatótávolságú pozíciót követnek) interpolálnak. A YaRN hőmérséklet-beállítást is hozzáad a figyelemhez, hogy ellensúlyozza a hosszabb összefüggésekből származó entrópiaváltozásokat. Az eredmény erős hosszú távú teljesítmény, miután a naiv megközelítésekhez szükséges adatoknak és lépéseknek csak egy apró töredékén finomhangolták.

Technikai betekintés

A RoPE minden beágyazási mérethez hozzárendel egy forgási frekvenciát. A naiv lineáris interpoláció minden frekvenciát egyformán tömörít, károsítva a nagyfrekvenciás dimenziókat, amelyek finom helyi részleteket kódolnak. A YaRN egy rámpa funkciót használ, hogy csak az alacsony frekvenciájú (hosszú hullámhosszúságú) dimenziókat interpolálja, miközben megőrzi a magas frekvenciákat, plusz egy 1/sqrt(t) figyelemhőmérséklet-skálázást, amely stabilan tartja a softmax élességet a sorozat hosszának növekedésével. Ez az NTK részenkénti megközelítés sokkal kevesebb degradációval bővíti ki a környezetet.

A YaRN és a Context Length Extension elsajátítása

A YaRN (Yet another RoPE extensionN) egy hatékony technika a modell használható környezeti ablakának kiterjesztésére, messze túlmutatva azon, amire a modellt betanították. Ügyesen átméretezi a forgópozíciós beágyazásokat, így egy mondjuk 4K tokenre kiképzett modell minimális finomhangolással képes kezelni a 32K-t vagy még többet is. A YaRN és a Context Length Extension egy olyan műszaki építőelem, amely befolyásolja a modell minőségét, az infrastruktúra költségeit, a késleltetést és a megbízhatóságot. A mélyebb megértés érdekében kezelje a YaRN-t és a Context Length Extensiont működési modellként, és ne egyetlen jellemzőként: határozza meg a kívánt eredményeket, tisztázza a feltételezéseket, és válassza el, hogy a rendszer mit tud megbízhatóan elvégezni attól, ami még szakértői megítélést igényel.

A gyakorlatban a YaRN-t és a Context Length Extensiont használó erős csapatok optimalizálják az architektúrát, az adatokat és az infrastruktúrát a megbízhatóság és a költségek szempontjából. Dokumentálják az explicit sikerkritériumokat, tesztelik a valósághű adatokat és munkafolyamatokat, és a megfigyelt hibaminták alapján iterálnak, nem pedig egyszeri benchmark győzelmek alapján. Ez az a hely, ahol az elméleti megértés tartós képességgé válik a termék, a politika és a műveletek között.

Az építészeti döntések évekig növelik a teljesítményt és a működési költségeket. Ugyanakkor az egyik benchmark optimalizálása elrejtheti a rendszer általános gyengeségeit. A legrugalmasabb megközelítés a kísérleti sebesség és az irányítási fegyelem kombinálása: kísérleti kísérletek futtatása, bizonyítékok rögzítése, döntési naplók közzététele és a biztosítékok folyamatos frissítése a modell viselkedésének, a felhasználói elvárásoknak és a szabályozási követelményeknek megfelelően.

Stratégiai hatás

Az építészeti döntések évekig növelik a teljesítményt és a működési költségeket.

Az építészeti döntések évekig növelik a teljesítményt és a működési költségeket. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A technikai oktatás segít a csapatoknak a megfelelő verem kiválasztásában, nem csak a legújabb készletben.

A technikai oktatás segít a csapatoknak a megfelelő verem kiválasztásában, nem csak a legújabb készletben. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A jobb mérnöki döntések csökkentik a termelés megbízhatósági incidenseit.

A jobb mérnöki döntések csökkentik a termelés megbízhatósági incidenseit. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A YaRN és a Context Length Extension jövője

A kontextusbővítés ma már bevett gyakorlat: a nyílt modellek rutinszerűen szállítanak YaRN-bővített változatokat, amelyek elérik a 128 000 tokent. A kutatás olyan módszerek felé halad, amelyek nulla vagy nullához közeli finomhangolással kiterjesztik a kontextust, kombinálják a RoPE átskálázást a figyelemminta trükkjeivel, és a minőséget a teljes ablakban fenntartják, nem csak a végein. Várható, hogy ezek a technikák szorosabban integrálódjanak az előképzésbe, így a kontextus natív, nem pedig utólagos.

Valós megvalósítás

A nyílt 4K-kontextusú modell kiterjesztése 32K-ra vagy 128K-ra a hosszú dokumentumokra vonatkozó kérdések megválaszolásához rövid finomhangolással

Lehetővé teszi a visszakereséssel kiegészített rendszerek számára, hogy csonkítás nélkül lenyeljenek sok összefűzött szakaszt

Működtető kódsegédek, amelyeknek egy teljes nagy tárolófájlra vagy több fájlra van szükségük egyetlen promptban

Alapmodell adaptálása hosszú, többfordulós beszélgetésekhez, amelyek nagy csevegési előzményeket halmoznak fel

Megvalósítási minták

YaRN és Context Length Extension a gyakorlatban

Nyílt 4K-kontextusú modell kiterjesztése 32K-ra vagy 128K-ra a hosszú dokumentumkérdések megválaszolásához rövid finomhangolással.

A nyílt 4K-kontextusú modell kiterjesztése 32 KB-ra vagy 128 000-ra a hosszú dokumentumkérdések megválaszolásához rövid finomhangolással A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, megtartják az emberi eszkalációs útvonalat a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket az idő múlásával.

YaRN és Context Length Extension a gyakorlatban

Lehetővé teszi a visszakereséssel kiegészített rendszerek számára, hogy csonkítás nélkül lenyeljenek sok összefűzött szakaszt.

Lehetővé teszi a visszakereséssel kiegészített rendszerek számára, hogy csonkítás nélkül lenyeljenek sok összefűzött szakaszt. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, emberi eszkalációs útvonalat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenységnövekedést és a hibaköltségeket az idő múlásával.

YaRN és Context Length Extension a gyakorlatban

Működtető kódsegédek, amelyeknek egy teljes nagy tárolófájlra vagy több fájlra van szükségük egyetlen promptban.

Teljesítményű kódsegédek, amelyeknek egy teljes nagy tárolófájlra vagy több fájlra van szükségük egy felszólításban A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, emberi eszkalációs útvonalat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket az idő múlásával.

YaRN és Context Length Extension a gyakorlatban

Alapmodell adaptálása hosszú, többfordulós beszélgetésekhez, amelyek nagy csevegési előzményeket halmoznak fel.

Alapmodell adaptálása a nagy csevegési előzményeket felhalmozó hosszú, többfordulós beszélgetésekhez A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, emberi eszkalációs útvonalat tartanak a szélsőséges eseteknél, és nyomon követik mind a termelékenységnövekedést, mind a hibaköltségeket az idő múlásával.

Kockázatok és védőkorlátok

!

Egy benchmark optimalizálása elrejtheti a rendszer általános hiányosságait.

!

Az infrastrukturális és karbantartási költségeket gyakran alábecsülik.

!

A biztonsági és megfigyelhetőségi hiányosságok a rendszerek bonyolultabbá válásával nőhetnek.

Végrehajtási ütemterv

1

A megvalósítás előtt határozza meg a késleltetési, minőségi és költségcélokat.

A megvalósítás előtt határozza meg a késleltetési, minőségi és költségcélokat. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

2

Benchmark reális terhelési és adatviszonyok mellett.

Benchmark reális terhelési és adatviszonyok mellett. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

3

Műszerfigyelés a hibák, az eltolódás és a felhasználói hatások szempontjából.

Műszerfigyelés a hibák, az eltolódás és a felhasználói hatások szempontjából. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

4

A méretezés előtt készítse elő a visszagörgetési és az incidensre adott válaszútvonalakat.

A méretezés előtt készítse elő a visszagörgetési és az incidensre adott válaszútvonalakat. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

Folytassa a felfedezést