Ntụziaka nka

KV cache Optimization

Ihe nchekwa KV na-echekwa igodo na ụkpụrụ nke igwe ngbanwe agbakọọlarị ka ọ ghara ịrụgharị ọrụ maka akara ọhụrụ ọ bụla - mana ọ nwere ike ịgbanye gigabytes.

Nchịkọta

Ihe nchekwa KV na-echekwa igodo na ụkpụrụ nke igwe ngbanwe agbakọọlarị ka ọ ghara ịrụgharị ọrụ maka akara ọhụrụ ọ bụla - mana ọ nwere ike ịgbanye gigabytes. KV cache kachasị mma na-ebelata ma na-ejikwa ebe nchekwa ahụ ka ụdị na-enye ọtụtụ ndị ọrụ ohere ogologo oge.

KV Cache Optimization bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, nkwụsịtụ, na ntụkwasị obi n'ọ̀tụ̀tụ̀.

Ime miri emi

N'ime ihe ngbanwe, akara ọhụrụ ọ bụla na-aga akara ngosi niile gara aga site na igodo nlebara anya (K) na ụkpụrụ (V). Ịgbakọ K na V maka usoro niile na usoro ọ bụla ga-abụ akụkụ anọ na ihe efu, yabụ ụdị na-echekwa ha: cache KV. Ihe dị ala bụ nha. Ebe nchekwa ahụ na-eto n'ahịrị na ogologo usoro, nha batch, akwa na isi, yabụ arịrịọ ogologo okwu nwere ike iri ebe nchekwa GPU karịa karịa ihe atụ ahụ n'onwe ha. Nkwalite na-eme nke a site n'akụkụ dị iche iche: ebe nchekwa ibe (vLLM's PagedAttention) na-echekwa cache na ngọngọ na-adịghị agafe agafe iji kpochapụ nkewa ma mee ka ikekọrịta; quantization na-echekwa K na V na 8-bit ma ọ bụ 4-bit; na mgbanwe ụkpụrụ ụlọ dị ka Grouped-Query Attention (GQA) na Multi-Query Attention (MQA) mee ka ọtụtụ ndị isi ajụjụ kesaa isi igodo ole na ole / uru, na-egbutu nha cache na isi mmalite.

Nghọta nka nka

PagedNtị n'uche na-enweta paging memory-memory site na sistemu arụ ọrụ: cache na-ebi na blọk ndị edobere site na tebụl nyocha, yabụ arịrịọ na-eji naanị ngọngọ ha chọrọ yana prefixes yiri ya (dị ka usoro nkekọrịta ngwa ngwa) nwere ike na-arụtụ aka na otu ngọngọ. Multi-head Latent Attention (MLA), nke ejiri na ụdị DeepSeek, na-akpakọ K na V n'ime obere vector latent nkekọrịta, na-egbutu ebe nchekwa n'ụzọ dị egwu ma na-edobe izi ezi.

Ịmalite nkwalite cache KV

Ihe nchekwa KV na-echekwa igodo na ụkpụrụ nke igwe ngbanwe agbakọọlarị ka ọ ghara ịrụgharị ọrụ maka akara ọhụrụ ọ bụla - mana ọ nwere ike ịgbanye gigabytes. KV cache kachasị mma na-ebelata ma na-ejikwa ebe nchekwa ahụ ka ụdị na-enye ọtụtụ ndị ọrụ ohere ogologo oge. KV Cache Optimization bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, nkwụsịtụ, na ntụkwasị obi n'ọ̀tụ̀tụ̀. Iji wulite nghọta miri emi, mesoo KV Cache Optimization dị ka ihe nlereanya na-arụ ọrụ, ọ bụghị otu njirimara: kọwapụta nsonaazụ achọrọ, dokwuo anya echiche, wee kewaa ihe sistemụ nwere ike ime nke ọma na ihe ka chọrọ mkpebi ndị ọkachamara.

Na omume, otu ndị siri ike na-eji KV Cache Optimization na-ebuli ụkpụrụ ụlọ, data na akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.

Mmetụta atụmatụ

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọdịnihu nke nkwalite cache KV

Ka windo ndị gbara ya gburugburu na-agbatị ruo narị puku kwuru puku ma ọ bụ nde akara, cache KV na-aghọ ọnụ ahịa kacha mkpa nke ije ozi. Na-atụ anya mkpakọ cache dị egwu na nchụpụ (iwepụ akara nlebara anya dị ala), ịkekọrịta prefix arịrịọ dị ka ndabara, na-ebufe cache oyi na CPU ma ọ bụ NVMe, yana ihe owuwu dịka MLA na GQA na-aghọ ọkọlọtọ. Njikwa cache ga-adịwanye ka usoro ebe nchekwa zuru oke nwere ọkwa yana prefetching smart.

Mmejuputa n'ezie n'ụwa

vLLM's Paged nlebara anya na-eje ozi ọtụtụ mkparịta ụka na-emekọ ihe ọnụ site na ịkwakọba ihe mgbochi KV na-enweghị nkewa ebe nchekwa.

Nleba anya n'ajụjụ ọnụ agbakọtara na ụdị Llama na-ebelata ogo cache KV ka ogologo ọnọdụ dabara na ebe nchekwa GPU

Na-atụnye cache KV ka ọ bụrụ 8-bit (KV8) iji belata ebe nchekwa cache dị obere n'oge nchịkọta ogologo akwụkwọ.

Ndozi ihe nrịbama nke na-ejigharị KV blocks nke sistemụ kekọrịtara gafere ọtụtụ puku arịrịọ API

Usoro mmejuputa

KV cache Optimization na omume

vLLM's Paged ilebara anya na-eje ozi ọtụtụ mkparịta ụka na-emekọ ihe ọnụ site na ịkwakọba ihe mgbochi KV na-enweghị nkewa ebe nchekwa.

vLLM's Paged ilebara anya na-eje ozi ọtụtụ mkparịta ụka na-emekọ ihe ọnụ site na ịkwakọba ihe mgbochi KV na-enweghị nkewa ebe nchekwa Otu egwuregwu na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie ka oge na-aga.

KV cache Optimization na omume

Nleba anya n'ajụjụ ọnụ agbakọtara na ụdị Llama na-ebelata ogo cache KV ka ogologo ọnọdụ dabara na ebe nchekwa GPU.

Nleba anya ajụjụ ọnụ na ụdị Llama na-ebelata nha cache KV ka ogologo ọnọdụ dabara na GPU ebe nchekwa Otu na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie n'ime oge.

KV cache Optimization na omume

N'ịkọba ihe nchekwa KV ka ọ bụrụ 8-bit (KV8) iji belata ebe nchekwa cache dị obere n'oge nchịkọta ogologo akwụkwọ.

Ịkọwa cache KV ka ọ bụrụ 8-bit (KV8) iji belata ebe nchekwa cache n'oge nchịkọta akwụkwọ ogologo oge Otu dị iche iche na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka ikpe ikpe, ma soro ma uru mmepụta na ụgwọ njehie na-aga n'ihu oge.

KV cache Optimization na omume

Ndozi ihe nrịbama nke na-ejigharị KV blocks nke sistemụ kekọrịtara gafere ọtụtụ puku arịrịọ API.

Prefix caching nke na-ejigharị KV blocks nke sistemụ kesara gafere puku kwuru puku API arịrịọ Otu dị iche iche na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, na-edobe ụzọ ịrị elu mmadụ maka ikpe ikpe, ma soro ma uru nrụpụta yana ụgwọ njehie ka oge na-aga.

Ihe ize ndụ & okporo ụzọ nche

!

Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.

!

A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.

!

Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.

Map mmejuputa

1

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

2

Benchmark n'okpuru ibu dị adị na ọnọdụ data.

Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

3

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

4

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

Nọgide na-eme nchọpụta