Lugha AI MWONGOZO

Kashe ya KV

Kache ya KV huhifadhi vidhibiti vya ufunguo na thamani ambayo transfoma tayari imekusanya tokeni za hapo awali, kwa hivyo sio lazima kuzirudisha kwa kila neno jipya linalotoa.

Muhtasari

Kache ya KV huhifadhi vidhibiti vya ufunguo na thamani ambayo transfoma tayari imekusanya tokeni za hapo awali, kwa hivyo sio lazima kuzirudisha kwa kila neno jipya linalotoa. Ndiyo sababu kubwa zaidi uundaji wa maandishi ni wa haraka - na jambo kuu ni kula kumbukumbu yako ya GPU wakati wa mazungumzo marefu.

Akiba ya KV ni sehemu ya mrundikano wa lugha-AI unaotumiwa kusoma, kutengeneza, kuainisha na kubadilisha maandishi na hotuba kwa kiwango.

Dive ya kina

Transfoma hutengeneza maandishi tokeni moja kwa wakati mmoja, na kila safu ya tahadhari ya tokeni mpya inahitaji kulinganisha dhidi ya kila tokeni iliyotangulia. Utaratibu wa umakini hugeuza kila ishara kuwa hoja, ufunguo, na vekta ya thamani. Bila kuakibisha, kutengeneza nambari ya tokeni 1,000 kungemaanisha kukokotoa tena funguo na thamani kwa tokeni zote 999 za awali kwa kila hatua - kazi ya mara nne, ya ubadhirifu. Akiba ya KV huhifadhi vekta hizo za ufunguo na thamani baada ya kukokotwa kwanza na kuzitumia tena, kwa hivyo kila hatua mpya hukusanya vekta pekee kwa tokeni mpya zaidi na kuhudhuria kwenye akiba iliyohifadhiwa. Hii hupunguza gharama ya kila tokeni kutoka kuongeza urefu wa mfuatano hadi takriban mara kwa mara. Ubadilishanaji ni kumbukumbu: kashe hukua sawia na urefu wa muktadha, idadi ya tabaka, na vichwa vya umakini, mara nyingi huwa mtumiaji mkuu wa kumbukumbu katika huduma ya muktadha mrefu.

Ufahamu wa Kiufundi

Wakati wa awamu ya 'kujaza mapema' modeli huchakata arifa nzima na kujaza akiba; wakati wa 'decode' inaongeza tokeni moja ya K/V kwa kila hatua na inashikilia tena. Mizani ya ukubwa wa akiba kama 2 (K na V) × safu × vichwa × head_dim × sequence_length × bechi, katika usahihi uliochaguliwa. Ili kudhibiti hili, miundo ya kisasa hutumia uzingatiaji wa hoja za makundi au hoja nyingi kushiriki funguo/thamani kwenye vichwa vyote, na mifumo inayohudumia kama vLLM hutumia PagedAttention kutenga akiba katika vizuizi visivyoshikamana, kukata mgawanyiko na taka.

Kujua Cache ya KV

Kache ya KV huhifadhi vidhibiti vya ufunguo na thamani ambayo transfoma tayari imekusanya tokeni za hapo awali, kwa hivyo sio lazima kuzirudisha kwa kila neno jipya linalotoa. Ndiyo sababu kubwa zaidi uundaji wa maandishi ni wa haraka - na jambo kuu ni kula kumbukumbu yako ya GPU wakati wa mazungumzo marefu. Akiba ya KV ni sehemu ya mrundikano wa lugha-AI unaotumiwa kusoma, kutengeneza, kuainisha na kubadilisha maandishi na hotuba kwa kiwango. Ili kujenga uelewaji wa kina, chukulia Kashe ya KV kama kielelezo cha uendeshaji, si kipengele kimoja: fafanua matokeo unayotaka, fafanua mawazo, na utenganishe kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Kwa mazoezi, timu dhabiti zinazotumia vidokezo vya muundo wa Akiba ya KV, kurejesha na kukagua mizunguko kama mfumo mmoja wa mawasiliano uliojumuishwa. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Mitiririko ya kazi ya lugha inaweza kusonga kwa kasi zaidi bila kuacha uthabiti. Wakati huo huo, mambo ya ukweli yanaweza kuingiza ripoti kwa utulivu, mtiririko wa usaidizi, au matokeo ya utafiti. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Mitiririko ya kazi ya lugha inaweza kusonga kwa kasi zaidi bila kuacha uthabiti.

Mitiririko ya kazi ya lugha inaweza kusonga kwa kasi zaidi bila kuacha uthabiti. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Inapanua ufikiaji katika lugha na mitindo ya mawasiliano.

Inapanua ufikiaji katika lugha na mitindo ya mawasiliano. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Timu zinaweza kutumia muda mwingi kufanya uamuzi huku otomatiki ikishughulikia marudio.

Timu zinaweza kutumia muda mwingi kufanya uamuzi huku otomatiki ikishughulikia marudio. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa Akiba ya KV

Madirisha ya muktadha yanapoenea hadi mamia ya maelfu ya ishara, kashe ya KV inakuwa kizuizi kikuu, kwa hivyo uvumbuzi ni mkali: ujanibishaji wa akiba hadi biti 8 au 4, sera za uondoaji ambazo hupunguza ishara za umuhimu wa chini, kushiriki kiambishi awali cha ombi tofauti, na kupakua kwa CPU au diski. Mabadiliko ya usanifu kama vile umakini wa fiche wa vichwa vingi hubana kache yenyewe. Tarajia uundaji mwenza unaoendelea wa anuwai za umakini na mifumo ya kumbukumbu inayolenga kutoa muktadha mrefu sana kwa bei nafuu na kwa uboreshaji wa juu.

Utekelezaji wa Ulimwengu Halisi

Kuharakisha majibu ya chatbot kwa kutumia tena vitufe/thamani zilizoakibishwa kutoka kwa historia ya mazungumzo badala ya kuyachakata tena kila zamu.

Uakibishaji wa kiambishi awali ambao unashiriki akiba kwa kidokezo cha mfumo mrefu kwa watumiaji wengi, kupunguza gharama na muda wa kusubiri.

PagedAttention ya vLLM inayosimamia akiba ya KV kwenye vizuizi ili kuhudumia maombi mengi ya wakati mmoja kwenye GPU moja kwa ufanisi.

Kuhesabu akiba ya KV ili kupunguza usahihi ili kutoshea miktadha mirefu kwenye kumbukumbu ndogo ya GPU.

Miundo ya Utekelezaji

KV Cache katika mazoezi

Kuharakisha majibu ya chatbot kwa kutumia tena vitufe/thamani zilizoakibishwa kutoka kwa historia ya mazungumzo badala ya kuyachakata tena kila zamu.

Kuharakisha majibu ya gumzo kwa kutumia tena vitufe/thamani zilizoakibishwa kutoka kwa historia ya mazungumzo badala ya kuichakata tena kila zamu Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

KV Cache katika mazoezi

Uakibishaji wa kiambishi awali ambao unashiriki akiba kwa kidokezo cha mfumo mrefu kwa watumiaji wengi, kupunguza gharama na muda wa kusubiri.

Uakibishaji wa kiambishi awali unaoshiriki akiba kwa muda mrefu wa haraka wa mfumo kwa watumiaji wengi, Timu za kupunguza gharama na muda wa kusubiri kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

KV Cache katika mazoezi

PagedAttention ya vLLM inayosimamia akiba ya KV kwenye vizuizi ili kuhudumia maombi mengi ya wakati mmoja kwenye GPU moja kwa ufanisi.

PagedAttention ya vLLM inayosimamia akiba ya KV katika vizuizi ili kuwasilisha maombi mengi kwa wakati mmoja kwenye GPU moja kwa ufanisi Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora, kuweka njia ya kupanda juu ya hali ya juu ya binadamu, na kufuatilia faida za tija na gharama za makosa kwa wakati.

KV Cache katika mazoezi

Kuhesabu akiba ya KV ili kupunguza usahihi ili kutoshea miktadha mirefu kwenye kumbukumbu ndogo ya GPU.

Kukadiria akiba ya KV ili kupunguza usahihi ili kutoshea muktadha mrefu katika kumbukumbu ndogo za GPU Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

Hatari & Walinzi

!

Mambo ya ukweli yanaweza kuingiza ripoti kwa utulivu, mitiririko ya usaidizi, au matokeo ya utafiti.

!

Usikivu wa haraka unaweza kuunda matokeo yasiyolingana katika maombi sawa.

!

Data nyeti ya maandishi inaweza kufichuliwa ikiwa vidhibiti vya ufikiaji ni dhaifu.

Ramani ya Utekelezaji

1

Bainisha umbizo la towe, toni na viwango vya ubora kabla ya kusambaza.

Bainisha umbizo la towe, toni na viwango vya ubora kabla ya kusambaza. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

2

Majibu ya msingi na vyanzo vinavyoaminika wakati wowote usahihi ni muhimu.

Majibu ya msingi na vyanzo vinavyoaminika wakati wowote usahihi ni muhimu. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

3

Weka ukaguzi wa ukaguzi wa kibinadamu kwa matokeo ya juu.

Weka ukaguzi wa ukaguzi wa kibinadamu kwa matokeo ya juu. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

4

Fuatilia mifumo ya kushindwa na fundisha tena vidokezo au mtiririko wa kazi mara kwa mara.

Fuatilia mifumo ya kushindwa na fundisha tena vidokezo au mtiririko wa kazi mara kwa mara. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza