Műszaki ÚTMUTATÓ

Bontott előtöltési és dekódolási szolgáltatás

Kiszolgáló architektúra, amely a nagy nyelvi modell-következtetést két külön fázisra – előtöltésre és dekódolásra – osztja, és különböző GPU-készleteken futtatja azokat.

Áttekintés

Kiszolgáló architektúra, amely a nagy nyelvi modell-következtetést két külön fázisra – előtöltésre és dekódolásra – osztja, és különböző GPU-készleteken futtatja azokat. Ez azért fontos, mert ennek a két fázisnak ellentétes hardveres étvágya van, és ha ugyanarra a gépre kényszerítjük őket, az elveszíti a kapacitást és rontja a várakozási időt.

A lebontott előtöltési és dekódolási szolgáltatás egy olyan műszaki építőelem, amely befolyásolja a modell minőségét, az infrastruktúra költségeit, a késleltetést és a méretarányos megbízhatóságot.

Mély merülés

Amikor egy LLM válaszol, két szakaszban működik. Az előtöltés egyszerre olvassa be a teljes promptot, és létrehozza a kulcsérték (KV) gyorsítótárat; ez egy nagy, párhuzamos, számításhoz kötött sorozat, amely telíti a GPU matematikai egységeit. A Decode ezután egyenként generál tokeneket, minden lépésben beolvassa a teljes KV gyorsítótárat – ez egy memóriasávszélességhez kötött, enyhén kiszámítható csordogálás. Együtt futva egy hosszú előtöltés mindenkinél leállítja a dekódolást (head-of-line blokkolás), és a kettő kötegelése interferenciát okoz. A szétbontás az egyik GPU-készleten előre kitölti, a másikon pedig dekódolja, és a KV-gyorsítótárat gyors összeköttetéseken, például NVLink-en vagy InfiniBandon keresztül továbbítja közöttük. Mindegyik készletet egymástól függetlenül hangolják és skálázzák, javítva a jó teljesítményt, kisimítva a farok késleltetését, és lehetővé téve az operátorok számára, hogy egyszerre érjék el az első tokenig és a kimenetenkénti időre vonatkozó célokat.

Technikai betekintés

A két fázis szűk keresztmetszetében különbözik. A Prefill az összes prompt tokent párhuzamosan dolgozza fel, így FLOP-jai a prompt hosszával skálázódnak, és maximalizálja a tenzormagokat. A dekódolás autoregresszív: minden új tokennek egy előremenő lépésre van szüksége, amely újra beolvassa a teljes KV gyorsítótárat a HBM-ből, így az átvitelt a memória sávszélessége korlátozza, nem pedig a számítás. A lebontás ezt kihasználja méretezéssel, kötegekkel, sőt különböző párhuzamosság kiválasztásával minden készlethez, majd a KV-gyorsítótárat az előtöltő dolgozóktól a dekódoló dolgozók felé szállítja.

A lebontott előtöltési és dekódolási szolgáltatás elsajátítása

Kiszolgáló architektúra, amely a nagy nyelvi modell-következtetést két külön fázisra – előtöltésre és dekódolásra – osztja, és különböző GPU-készleteken futtatja azokat. Ez azért fontos, mert ennek a két fázisnak ellentétes hardveres étvágya van, és ha ugyanarra a gépre kényszerítjük őket, az elveszíti a kapacitást és rontja a várakozási időt. A lebontott előtöltési és dekódolási szolgáltatás egy olyan műszaki építőelem, amely befolyásolja a modell minőségét, az infrastruktúra költségeit, a késleltetést és a méretarányos megbízhatóságot. A mélyreható megértés érdekében a lebontott előtöltési és dekódolási szolgáltatást működési modellként kezelje, ne egyetlen jellemzőként: határozza meg a kívánt eredményeket, tisztázza a feltételezéseket, és válassza el, hogy a rendszer mit tud megbízhatóan elvégezni attól, ami még szakértői megítélést igényel.

A gyakorlatban a lebontott előtöltést és dekódolási szolgáltatást használó erős csapatok optimalizálják az architektúrát, az adatokat és az infrastruktúrát a megbízhatóság és a költségek szempontjából. Dokumentálják az explicit sikerkritériumokat, tesztelik a valósághű adatokat és munkafolyamatokat, és a megfigyelt hibaminták alapján iterálnak, nem pedig egyszeri benchmark győzelmek alapján. Ez az a hely, ahol az elméleti megértés tartós képességgé válik a termék, a politika és a műveletek között.

Az építészeti döntések évekig növelik a teljesítményt és a működési költségeket. Ugyanakkor az egyik benchmark optimalizálása elrejtheti a rendszer általános gyengeségeit. A legrugalmasabb megközelítés a kísérleti sebesség és az irányítási fegyelem kombinálása: kísérleti kísérletek futtatása, bizonyítékok rögzítése, döntési naplók közzététele és a biztosítékok folyamatos frissítése a modell viselkedésének, a felhasználói elvárásoknak és a szabályozási követelményeknek megfelelően.

Stratégiai hatás

Az építészeti döntések évekig növelik a teljesítményt és a működési költségeket.

Az építészeti döntések évekig növelik a teljesítményt és a működési költségeket. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A technikai oktatás segít a csapatoknak a megfelelő verem kiválasztásában, nem csak a legújabb készletben.

A technikai oktatás segít a csapatoknak a megfelelő verem kiválasztásában, nem csak a legújabb készletben. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A jobb mérnöki döntések csökkentik a termelés megbízhatósági incidenseit.

A jobb mérnöki döntések csökkentik a termelés megbízhatósági incidenseit. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A lebontott előtöltési és dekódolási szolgáltatás jövője

Várhatóan a bontás lesz az alapértelmezett a termelési veremekben. Az olyan rendszerek, mint a DistServe, a Splitwise és a Mooncake népszerűsítették, a vLLM és az NVIDIA Dynamo pedig bontott módokat szállít. A kutatások előmozdítják a KV-gyorsítótár átvitelének optimalizálását, a gyorsítótár-összevonást és a kérések közötti újrafelhasználást, az előtöltési/dekódolási arányok dinamikus újraegyensúlyozását változó forgalom mellett, valamint az előtag gyorsítótárazásával és a darabolt előtöltéssel való szorosabb integrációt. Ahogy a kontextusablakok több millió tokenekké nőnek, e fázisok szétválasztása egyre fontosabbá válik a költséghatékony, alacsony késleltetésű kiszolgáláshoz.

Valós megvalósítás

A csevegési asszisztens a hosszú dokumentumkérdéseket egy nagy számításigényű előtöltési fürthöz irányítja, majd egy memóriaoptimalizált dekódolófürtből streameli a válaszokat, hogy a gépelési várakozási idő zökkenőmentes legyen.

Az NVIDIA Dynamo és a vLLM lehetővé teszi az operátorok számára, hogy külön előtöltési és dekódoló munkacsoportokat telepítsenek, így a hosszú felszólítások sorozata nem fagyasztja le a folyamatban lévő generációkat.

A Mooncake (a Moonshot AI Kimi által használt) szétbontja az előtöltést és dekódolást, és hozzáad egy elosztott KV-gyorsítótárat, hogy csökkentse a redundáns azonnali újraszámítást.

A kódkiegészítő szolgáltatás egy kis előkitöltési készletet szán a rövid promptokhoz és egy nagy dekódolási készletet, mivel a legtöbb költség sok kimeneti token streameléséből származik.

Megvalósítási minták

Bontott előtöltési és dekódolási szolgáltatás a gyakorlatban

A csevegési asszisztens a hosszú dokumentumkérdéseket egy nagy számításigényű előtöltési fürthöz irányítja, majd egy memóriaoptimalizált dekódolófürtből streameli a válaszokat, hogy a gépelési várakozási idő zökkenőmentes legyen.

A csevegési asszisztens a hosszú dokumentumparancsokat egy számításigényes előkitöltési fürthöz irányítja, majd egy memóriára optimalizált dekódoló fürtből streameli a válaszokat, hogy a gépelési késleltetés zökkenőmentes legyen. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, megtartják az emberi eszkalációs útvonalat a szélsőséges esetekhez, és nyomon követik a termelékenység növekedését és a hibaköltségeket.

Bontott előtöltési és dekódolási szolgáltatás a gyakorlatban

Az NVIDIA Dynamo és a vLLM lehetővé teszi az operátorok számára, hogy külön előtöltési és dekódoló munkacsoportokat telepítsenek, így a hosszú felszólítások sorozata nem fagyasztja le a folyamatban lévő generációkat.

Az NVIDIA Dynamo és a vLLM lehetővé teszi az üzemeltetők számára, hogy különálló előtöltési és dekódolási dolgozói csoportokat telepítsenek, így a hosszú felszólítások sorozata nem fagyasztja le a folyamatban lévő generációkat. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, megtartják az emberi eszkalációs utat a szélsőséges esetekben, és nyomon követik a termelékenységnövekedést és a hibaköltségeket az idő múlásával.

Bontott előtöltési és dekódolási szolgáltatás a gyakorlatban

A Mooncake (a Moonshot AI Kimi által használt) szétbontja az előtöltést és dekódolást, és hozzáad egy elosztott KV-gyorsítótárat, hogy csökkentse a redundáns azonnali újraszámítást.

A Mooncake (a Moonshot AI Kimi által használt) szétbontja az előtöltést és a dekódolást, valamint egy elosztott KV-gyorsítótár-készletet ad hozzá a redundáns azonnali újraszámítás mértékének csökkentése érdekében. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, megtartják az emberi eszkalációs útvonalat a szélsőséges esetekhez, és nyomon követik a hibaköltségeket az időnövekedéssel és a termelékenység növekedésével szemben.

Bontott előtöltési és dekódolási szolgáltatás a gyakorlatban

A kódkiegészítő szolgáltatás egy kis előkitöltési készletet szán a rövid promptokhoz és egy nagy dekódolási készletet, mivel a legtöbb költség sok kimeneti token streameléséből származik.

A kódkiegészítő szolgáltatás egy kis előkitöltési készletet szán a rövid felszólításokhoz és egy nagy dekódolási készletet, mivel a legtöbb költség sok kimeneti token streameléséből származik. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, emberi eszkalációs útvonalat tartanak a szélsőséges esetekben, és nyomon követik a termelékenység növekedését és a hibaköltségeket az idő múlásával.

Kockázatok és védőkorlátok

!

Egy benchmark optimalizálása elrejtheti a rendszer általános hiányosságait.

!

Az infrastrukturális és karbantartási költségeket gyakran alábecsülik.

!

A biztonsági és megfigyelhetőségi hiányosságok a rendszerek bonyolultabbá válásával nőhetnek.

Végrehajtási ütemterv

1

A megvalósítás előtt határozza meg a késleltetési, minőségi és költségcélokat.

A megvalósítás előtt határozza meg a késleltetési, minőségi és költségcélokat. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

2

Benchmark reális terhelési és adatviszonyok mellett.

Benchmark reális terhelési és adatviszonyok mellett. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

3

Műszerfigyelés a hibák, az eltolódás és a felhasználói hatások szempontjából.

Műszerfigyelés a hibák, az eltolódás és a felhasználói hatások szempontjából. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

4

A méretezés előtt készítse elő a visszagörgetési és az incidensre adott válaszútvonalakat.

A méretezés előtt készítse elő a visszagörgetési és az incidensre adott válaszútvonalakat. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

Folytassa a felfedezést