Résumé
Cache KV dafay denc caabi yi ak valeur yi transformateur bi jota xayma, moo tax du delloo liggéey ci token bu bees bu nekk - waaye mën na balloon ba gigabytes. KV cache optimisation dafay wàññi ba noppi yor memory bi suko defee model yi di mëna jëfandikoo contexte yu gëna gudd ngir jëfandikukat yu bari benn yoon.
KV Cache Optimization ab bloku tabax la bu am njeexital ci kalite model bi, njëgu infrastructure bi, yeexal bi, ak wóor ci eskaal bi.
Plongeur bu xóot
Ci biir transformateur, jeton bu bees bu nekk dafay toppatoo jeton yi ko jiitu jaaraleko ci butoŋu attention (K) ak valeur (V). Recomputer K ak V ci sequence bi yépp ci jéego bu nekk dina nekk quadratic ak yàqu-yàqu, kon model yi dañu leen cache: cache KV. Li ci baaxul mooy dayo bi. Cache bi dafay màgg lineairement ak guddaayu sekans bi, dayo batch bi, diisaay yi, ak bopp yi, kon laaj contexte bu gudd mën na lekk memory GPU bu gëna bari ci diisaayu model bi ci boppam. Optimisation dafay jàppale lii ci wàll yu bari: mémoire paged (vLLM's PageAttention) dafay denc cache bi ci ay blok yu jëmmal ngir dindi xaaj-xaaj bi ak mëna séddoo; kantite dencukaay K ak V ci 8-bit wala 4-bit; ak coppite yi ci architecture yu melni Fexe Laajte bu Grupp (GQA) ak Fexe Laajte yu bari (MQA) may boppu laajte yu bari ñu séddoo boppu caabi/valeur yu néew, di dagg dayo cache bi ci balluwaay bi.
Gis-gis xarala
PagedAttention dafay leble paging ci mémoire virtuel ci sistem operaasioŋ yi: cache bi dafa dëkk ci ay blok yu am dayo bu takku buñ mappe ci tablo seetlu, kon laaj yi dañuy jëfandikoo blok yi ñu soxla kese ak prefix yu nuróo (lu melni ab sistem buñ bokk) mën nañu joxoñ benn blok bi. Multi-head Latent Attention (MLA), ñu koy jëfandikoo ci xeetu DeepSeek, dafay komprime K ak V ci benn vecteur bu ndaw buñ bokk, di dagg mémoire bi ba noppi di tëye njub.
Xam KV Cache Optimisation
Cache KV dafay denc caabi yi ak valeur yi transformateur bi jota xayma, moo tax du delloo liggéey ci token bu bees bu nekk - waaye mën na balloon ba gigabytes. KV cache optimisation dafay wàññi ba noppi yor memory bi suko defee model yi di mëna jëfandikoo contexte yu gëna gudd ngir jëfandikukat yu bari benn yoon. KV Cache Optimization ab bloku tabax la bu am njeexital ci kalite model bi, njëgu infrastructure bi, yeexal bi, ak wóor ci eskaal bi. Ngir tabax xam-xam bu xóot, jàppal KV Cache Optimization ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ba noppi tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.
Ci jëf, ekip yu am doole yiy jëfandikoo KV Cache Optimization dañuy gëna baaxal architecture, done, ak tànneefi infrastructure ci wàllu wóor ak njëg. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jamano jooju, Optimisation benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.
njeextalu pexe
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw.
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal.
Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi.
Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Doxal ci àdduna dëgg
vLLM's PagedAttention dafay liggéey ci sesioŋ yu bari yuy waxtaan ci benn yoon, ci defar ay bloku KV te du am xaajalug mémoire
Grouped-Query Fexe ci xeetu Llama wàññi dayo cache KV suko defee contexte yu gëna gudd mëna méngoo ak mémoire GPU
Kantite cache KV ci 8-bit (KV8) ngir xaaj mémoire cache bi ci diiru résumé dokimaa yu gudd
Cache prefix biy jëfandikoowaat bloku KV yi ci benn sistem buñ bokk laaj ci ay junni laaj API
Modèlu jëfandikoo
KV Cache gëna xéewale ci jëf
PagedAttention bu vLLM dafay liggéey ci sesioŋ yu bari yuy waxtaan ci benn yoon, ci defar ay bloku KV te du am benn xaajaloo ci mémoire bi.
vLLM's PagedAttention di liggéey ci sesioŋ yu bari yuy waxtaan ci benn yoon, di ëmb ay bloku KV te du am fragmentation memory. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
KV Cache gëna xéewale ci jëf
Grouped-Query Fexe ci xeetu Llama wàññi dayo cache KV suko defee contexte yu gëna gudd mëna duggu ci mémoire GPU.
Grouped-Query Attention ci xeetu Llama wàññi dayo cache KV suko defee muy gëna gudd ci memory GPU Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
KV Cache gëna xéewale ci jëf
Xayma limu cache KV ci 8-bit (KV8) ngir xaaj mémoire cache bi ci diiru résumé dokimaa yu gudd.
Quantizing cache KV ci 8-bit (KV8) ngir xaaj mémoire cache bi ci diiru summary dokimaa yu gudd. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njëgu njuumte yi ci diir bi.
KV Cache gëna xéewale ci jëf
Cache prefix biy jëfandikoowaat bloku KV yi ci benn sistem buñ bokk laaj ci ay junni laaj API.
Prefix caching biy jëfandikoowaat bloku KV yi ci benn sistem buñ bokk laaj ci ay junni laaj API Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
Risk yi ak balustrade yi
Optimize benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi.
Njëg li ñuy fay ci infrastructure yi ak ci toppatoo dañuy faral di suufeel.
Bu sistem yi di gëna xawa jafee xam, jafe-jafe yi am ci wàllu kaaraange ak seetlu mën nañu gëna bari.
Roadmap ngir samp gi
Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo.
Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Benchmark ci biir sargal ak done yu dëggu.
Benchmark ci biir sargal ak done yu dëggu. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi.
Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale.
Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.