GUIDE teknik

xët yi ak vLLM

PagedAttention ab pexem yoriinu mémoire la buy denc cache attention bu modelu làkk ci ay bloc yu ndaw yuñ mëna jëfandikoowaat ci barabu benn pàcc bu mag bu toppalante.

Résumé

PagedAttention ab pexem yoriinu mémoire la buy denc cache attention bu modelu làkk ci ay bloc yu ndaw yuñ mëna jëfandikoowaat ci barabu benn pàcc bu mag bu toppalante. Dafay doxal vLLM, benn motër buy liggéey ci open-source buy yokk bu baax limu laaj yi benn GPU mëna def.

PagedAttention ak vLLM dañuy tabax xarala yu am njeexital ci kalite model bi, njëgu jumtukaay yi, yeexal, ak wóor ci eskaal bi.

Plongeur bu xóot

Su benn xeetu làkk defaree mbind, dafay denc 'KV cache' (vecteur key ak valeur) ngir bépp token bumu gis suko defee token bi ci topp mëna topp contexte bi yépp. Ci cosaan, laaj bu nekk dafa daan denc benn daal bu yaatu ci memory GPU buñ dajale ci guddaay bi gëna mag, di yàq xaalis bu bari sudee toppalante yi dañu gëna gàtt wala ñu wuute ci guddaay. PagedAttention, biñ dugal ci këyitu vLLM 2023 bu bawoo UC Berkeley, dafa leble xalaatu paging mémoire virtuel ci sistem operaasioŋ yi: dafay xaaj cache KV ci ay blok yu am dayo bu mën dëkk fépp ci mémoire bi, ñu mëna ko jox suñu ko laajee. Tablo seetlu dafay wane barabi jeton logic yi ci blok physique yi. Loolu daanaka dina dindi xaajalug mémoire bi ba noppi may ñu séddoo ay blok, ci misaal ci ay génn yu bari ci benn laaj.

Gis-gis xarala

Cache KV dafa xaajaloo ay xët yu am dayo buñ tëral, bu nekk ci ñoom yor caabi yi ak valeur yi ngir benn limu jeton yuñ tànn. Tablo blok bu toppalante bu nekk dafay màndargaal barabi logic yi ak barabi xët physique yi, kon cache bu toppalante bi warul nekk ci diggante. Ndax prefix yu nuróo (ab sistem buñ bokk, wala car yiy seetlu ci limyéer) mën nañu joxoñ benn xët physique jaaraleko ci kopie-ci-bind, dañuy jëfandikoowaat mémoire bi ci barabu ñaari yoon, dagg mbalit mi ci lu ëpp 60% ba ci yenn pursaa.

Mastering pagedattention ak vLLM

PagedAttention ab pexem yoriinu mémoire la buy denc cache attention bu modelu làkk ci ay bloc yu ndaw yuñ mëna jëfandikoowaat ci barabu benn pàcc bu mag bu toppalante. Dafay doxal vLLM, benn motër buy liggéey ci open-source buy yokk bu baax limu laaj yi benn GPU mëna def. PagedAttention ak vLLM dañuy tabax xarala yu am njeexital ci kalite model bi, njëgu jumtukaay yi, yeexal, ak wóor ci eskaal bi. Ngir tabax xam-xam bu xóot, jàppal PagedAttention ak vLLM ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ak tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.

Ci jëf, ekip yu am doole yiy jëfandikoo PagedAttention ak vLLM dañuy gëna baaxal architecture, done, ak tànneefi infrastructure ci wàllu wóor ak njëg. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jamano jooju, Optimisation benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.

njeextalu pexe

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw.

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal.

Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi.

Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ëlëgu PagedAttention ak vLLM

vLLM nekk na yaxu ndigg lu ubbeeku, te xalaati PagedAttention leegi dañuy feeñ ci stack yiy liggéey. Xaarandi cache prefix bu gëna xóot (jëfandikuwaat sistem cache bi laaj ci jëfandikukat yi), prefill buñ xaaj ak dekode ci masin yu wuute, politiku dàq yu ​​gëna am xel, ak boole bu dëgër ak kantite ak dekode speculatif. Lu palanteer yi di màgg ba nekk ay milioŋ ciy jeton, njiitu KV paged bu baax dafay gëna am solo ngir mëna wéy di liggéey ci njëg yu woyof.

Doxal ci àdduna dëgg

Hosting LLM API open-source fu vLLM di liggéeyal jëfandikukat yu bari yuy waxtaan ci benn GPU ci produit bu bari

Séddoo ab sistem bu gudd ci ay junni laaj jaaraleko ci prefix cache suko defee ñu def ko benn yoon, te baña baamtu

Seetug beam buy daw wala ay misaal yu bari yuy séddoo ay bloku KV ngir laaj buñ bokk jaaraleko ci kopie-ci-bind

Dagg mbalitu mémoire GPU ci xaaj-xaaj suko defee ab joxekat mëna def ay sesioŋ yu bari ci benn aparey bi

Modèlu jëfandikoo

PagedAttention ak vLLM ci jëf

Dalal API LLM bu ubbeeku fu vLLM di liggéeyal jëfandikukat yu bari yuy waxtaan ci benn GPU ci produit bu bari.

Hosting benn LLM API bu ubbeeku, fu vLLM di liggéey jëfandikukat yu bari yuy waxtaan ci benn GPU ci produit bu bari. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

PagedAttention ak vLLM ci jëf

Séddoo ab sistem bu gudd ci ay junni laaj jaaraleko ci cache prefix suko defee ñu def ko benn yoon, duñu ko baamtu.

Séddoo ab sistem bu gudd ci ay junni laaj jaaraleko ci prefix caching suko defee ñu def ko benn yoon, duñu ko baamtu Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee ay kalite ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

PagedAttention ak vLLM ci jëf

Seetug limyéer buy daw wala ay misaal yu bari yuy séddoo ay bloku KV ngir laaj buñ bokk jaaraleko ci kopie-ci-bind.

Seetug beam buy daw wala ay misaal yu bari yu ñuy séddoo ay bloku KV ngir laaj bu ñu bokk jaaraleko ci copy-on-write Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

PagedAttention ak vLLM ci jëf

Dagg mbalitu mémoire GPU ci fragmentation suko defee ab furnisër mëna defar sesioŋ yu bari ci benn aparey bi.

Dagg GPU memory waste ci fragmentation suko defee ab furnisër mëna pack sesioŋ yu gëna bari ci benn hardware Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoon escalation nit ngir jafe-jafe yi, ak topp produit yi ak njuumte yi ci diir bi.

Risk yi ak balustrade yi

!

Optimize benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi.

!

Njëg li ñuy fay ci infrastructure yi ak ci toppatoo dañuy faral di suufeel.

!

Bu sistem yi di gëna xawa jafee xam, jafe-jafe yi am ci wàllu kaaraange ak seetlu mën nañu gëna bari.

Roadmap ngir samp gi

1

Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo.

Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

2

Benchmark ci biir sargal ak done yu dëggu.

Benchmark ci biir sargal ak done yu dëggu. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

3

Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi.

Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

4

Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale.

Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

Weyal di banneexu