አጠቃላይ እይታ
የ KV መሸጎጫ አንድ ትራንስፎርመር አስቀድሞ ለቀደሙት ቶከኖች ያሰላቸው ቁልፍ እና ዋጋ ያላቸውን ቬክተሮች ያከማቻል፣ ስለዚህ ለሚያመነጨው እያንዳንዱ አዲስ ቃል እንደገና ማስላት አያስፈልገውም። የጽሑፍ ማመንጨት ፈጣን የሚሆንበት ብቸኛው ትልቁ ምክንያት ነው - እና በረጅም ንግግሮች ጊዜ የጂፒዩ ማህደረ ትውስታዎን የሚበላው ዋናው ነገር።
KV Cache ጽሑፍን እና ንግግርን በመለኪያ ለማንበብ፣ ለማፍለቅ፣ ለመፈረጅ እና ለመለወጥ የሚያገለግል የቋንቋ-AI ቁልል አካል ነው።
ጥልቅ ዳይቭ
ትራንስፎርመሮች ጽሑፍ በአንድ ጊዜ አንድ ማስመሰያ ያመነጫሉ፣ እና እያንዳንዱ አዲስ የማስመሰያ ትኩረት ሽፋን ከእያንዳንዱ ቀዳሚ ማስመሰያ ጋር ማወዳደር አለበት። የትኩረት ዘዴ እያንዳንዱን ማስመሰያ ወደ መጠይቅ፣ ቁልፍ እና እሴት ቬክተር ይለውጠዋል። መሸጎጫ ከሌለ ማስመሰያ ቁጥር 1,000 ማመንጨት ማለት ለ999 ቀደምት ቶከኖች በእያንዳንዱ እርምጃ ቁልፎችን እና እሴቶችን እንደገና ማስላት ማለት ነው - ኳድራቲክ ፣ አባካኝ ሥራ። የKV መሸጎጫ እነዚያ ቁልፍ እና ዋጋ ያላቸው ቬክተሮች መጀመሪያ ከተሰሉ በኋላ እንደገና ጥቅም ላይ ከዋሉ በኋላ ያስቀምጣቸዋል፣ ስለዚህ እያንዳንዱ አዲስ እርምጃ ቬክተሮችን ለአዲሱ ቶከን ያሰላል እና በተከማቸ መሸጎጫ ውስጥ ይከታተላል። ይህ በቅደም ተከተል ርዝመት ካለው ልኬት ወደ ቋሚ ቋሚነት የአንድ-ቶከን ወጪ ይቀንሳል። ግብይቱ የማስታወስ ችሎታ ነው፡ መሸጎጫው በአውድ ርዝመት፣ በንብርብሮች ብዛት እና ትኩረት በሚሰጥ ራስ ላይ በመስመራዊ ያድጋል፣ ብዙ ጊዜ በረጅም አውድ አገልግሎት ውስጥ ዋና ማህደረ ትውስታ ተጠቃሚ ይሆናል።
ቴክኒካዊ ግንዛቤ
በ'ቅድመ-ሙላ' ደረጃ ሞዴሉ አጠቃላይ ጥያቄውን ያስኬዳል እና መሸጎጫውን ይሞላል። በ'ዲኮድ' ጊዜ በእያንዳንዱ እርምጃ አንድ ማስመሰያ K/V ይጨምርና እንደገና ይከታተላል። የመሸጎጫ መጠን ሚዛኖች እንደ 2 (K እና V) × ንብርብሮች × ራሶች × head_dim × ተከታታይ_ርዝመት × ባች፣ በተመረጠው ትክክለኛነት። ይህንን ለመግራት፣ ዘመናዊ ሞዴሎች በቡድን የተሰባሰቡ መጠይቅን ወይም ባለብዙ መጠይቅ ትኩረትን በጭንቅላት ላይ ቁልፎችን/እሴቶችን ለመጋራት ይጠቀማሉ፣ እና እንደ vLLM ያሉ ማገልገል ስርዓቶች PagedAttentionን በመጠቀም መሸጎጫ ባልሆኑ ብሎኮች ውስጥ ለመመደብ፣ ቁርጥራጭ እና ቆሻሻን ይቆርጣሉ።
የKV መሸጎጫ ማስተዳደር
የ KV መሸጎጫ አንድ ትራንስፎርመር አስቀድሞ ለቀደሙት ቶከኖች ያሰላቸው ቁልፍ እና ዋጋ ያላቸውን ቬክተሮች ያከማቻል፣ ስለዚህ ለሚያመነጨው እያንዳንዱ አዲስ ቃል እንደገና ማስላት አያስፈልገውም። የጽሑፍ ማመንጨት ፈጣን የሚሆንበት ብቸኛው ትልቁ ምክንያት ነው - እና በረጅም ንግግሮች ጊዜ የጂፒዩ ማህደረ ትውስታዎን የሚበላው ዋናው ነገር። KV Cache ጽሑፍን እና ንግግርን በመለኪያ ለማንበብ፣ ለማፍለቅ፣ ለመፈረጅ እና ለመለወጥ የሚያገለግል የቋንቋ-AI ቁልል አካል ነው። ጥልቅ ግንዛቤን ለመገንባት የKV Cacheን እንደ ኦፕሬሽን ሞዴል እንጂ አንድ ባህሪ አይደለም፡ የሚፈለጉትን ውጤቶች ይግለጹ፣ ግምቶችን ያብራሩ እና ስርዓቱ በአስተማማኝ ሁኔታ ምን ማድረግ እንደሚችል አሁንም የባለሙያዎችን ውሳኔ ከሚያስፈልገው ለይ።
በተግባር፣ ጠንካራ ቡድኖች የKV Cache ንድፍ ጥያቄዎችን፣ ሰርስሮ ማውጣት እና የግምገማ ቀለበቶችን እንደ አንድ የተቀናጀ የግንኙነት ስርዓት። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።
የቋንቋ የስራ ፍሰቶች ወጥነትን ሳያጠፉ በፍጥነት ሊንቀሳቀሱ ይችላሉ። በተመሳሳይ ጊዜ፣ የተሳሳቱ እውነታዎች ሪፖርቶችን፣ የድጋፍ ፍሰቶችን ወይም የምርምር ውጤቶችን በጸጥታ ማስገባት ይችላሉ። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።
ስልታዊ ተጽእኖ
የቋንቋ የስራ ፍሰቶች ወጥነትን ሳያጠፉ በፍጥነት ሊንቀሳቀሱ ይችላሉ።
የቋንቋ የስራ ፍሰቶች ወጥነትን ሳያጠፉ በፍጥነት ሊንቀሳቀሱ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
በሁሉም ቋንቋዎች እና የግንኙነት ዘይቤዎች ተደራሽነትን ያሰፋል።
በሁሉም ቋንቋዎች እና የግንኙነት ዘይቤዎች ተደራሽነትን ያሰፋል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
አውቶሜሽን ድግግሞሹን ሲቆጣጠር ቡድኖች በፍርድ ላይ ብዙ ጊዜ ሊያጠፉ ይችላሉ።
አውቶሜሽን ድግግሞሹን ሲቆጣጠር ቡድኖች በፍርድ ላይ ብዙ ጊዜ ሊያጠፉ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
የእውነተኛ-ዓለም አተገባበር
የውይይት ቦት ምላሾችን ማፋጠን እያንዳንዱን ተራ ከማዘጋጀት ይልቅ የተሸጎጡ ቁልፎችን/እሴቶችን በውይይት ታሪክ እንደገና በመጠቀም።
መሸጎጫውን ለብዙ ተጠቃሚዎች ረጅም የስርዓት ጥያቄን የሚያጋራ ቅድመ ቅጥያ ዋጋን እና መዘግየትን ይቀንሳል።
በአንድ ጂፒዩ ላይ ብዙ ተመሳሳይ ጥያቄዎችን በብቃት ለማቅረብ የVLLM Paged ትኩረት የKV መሸጎጫ በብሎኮች ማስተዳደር።
ረጅም አውዶችን ከተገደበ የጂፒዩ ማህደረ ትውስታ ጋር ለማስማማት የKV መሸጎጫውን ወደ ትክክለኝነት ዝቅ ማድረግ።
የትግበራ ቅጦች
KV መሸጎጫ በተግባር
የውይይት ቦት ምላሾችን ማፋጠን እያንዳንዱን ተራ ከማዘጋጀት ይልቅ የተሸጎጡ ቁልፎችን/እሴቶችን በውይይት ታሪክ እንደገና በመጠቀም።
የቻትቦት ምላሾችን ማፋጠን እያንዳንዱን ተራ ከማዘጋጀት ይልቅ የተሸጎጡ ቁልፎችን/እሴቶችን በድጋሚ በመጠቀም ቡድኖች አብዛኛውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲወስኑ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰው ልጅ እድገት መንገድን ይጠብቁ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
KV መሸጎጫ በተግባር
መሸጎጫውን ለብዙ ተጠቃሚዎች ረጅም የስርዓት ጥያቄን የሚያጋራ ቅድመ ቅጥያ ዋጋን እና መዘግየትን ይቀንሳል።
መሸጎጫውን ለብዙ ተጠቃሚዎች ረጅም የስርዓት ጥያቄን የሚያካፍል ቅድመ ቅጥያ መሸጎጫ፣ ወጪን መቀነስ እና መዘግየት ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲወስኑ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
KV መሸጎጫ በተግባር
በአንድ ጂፒዩ ላይ ብዙ ተመሳሳይ ጥያቄዎችን በብቃት ለማቅረብ የVLLM Paged ትኩረት የKV መሸጎጫ በብሎኮች ማስተዳደር።
የVLLM ገጽድ ትኩረት KV መሸጎጫ በብሎኮች ማስተዳደር በአንድ ጂፒዩ ላይ ብዙ ጊዜ የሚቀርቡ ጥያቄዎችን በብቃት ለማገልገል ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
KV መሸጎጫ በተግባር
ረጅም አውዶችን ከተገደበ የጂፒዩ ማህደረ ትውስታ ጋር ለማስማማት የKV መሸጎጫውን ወደ ትክክለኝነት ዝቅ ማድረግ።
የKV መሸጎጫውን በመለካት ትክክለኝነትን ዝቅ በማድረግ ረዘም ያሉ አውዶችን ከተገደቡ የጂፒዩ ማህደረ ትውስታ ጋር ለማስማማት ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲወስኑ የተሻለ ውጤት ያገኛሉ ፣ለጫፍ ጉዳዮች የሰው ልጅ እድገት መንገድን ሲጠብቁ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት መከታተል።
አደጋዎች እና የጥበቃ መንገዶች
የተሳሳቱ እውነታዎች በጸጥታ ወደ ሪፖርቶች፣ የድጋፍ ፍሰቶች ወይም የምርምር ውጤቶችን ማስገባት ይችላሉ።
ፈጣን ትብነት በተመሳሳይ ጥያቄዎች ላይ የማይጣጣሙ ውጤቶችን ሊፈጥር ይችላል።
የመዳረሻ መቆጣጠሪያዎች ደካማ ከሆኑ ሚስጥራዊነት ያለው የጽሑፍ ውሂብ ሊጋለጥ ይችላል።
የትግበራ ፍኖተ ካርታ
ከመልቀቅዎ በፊት የውጤት ቅርጸትን፣ ድምጽን እና የጥራት ደረጃዎችን ይግለጹ።
ከመልቀቅዎ በፊት የውጤት ቅርጸትን፣ ድምጽን እና የጥራት ደረጃዎችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
ትክክለኛነት አስፈላጊ በሚሆንበት ጊዜ ሁሉ ከታመኑ ምንጮች ጋር ምላሾች።
ትክክለኛነት አስፈላጊ በሚሆንበት ጊዜ ሁሉ ከታመኑ ምንጮች ጋር ምላሾች። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
ከፍተኛ ውጤት ለማግኘት የሰው የግምገማ ነጥብ አቆይ።
ከፍተኛ ውጤት ለማግኘት የሰው የግምገማ ነጥብ አቆይ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
የውድቀት ንድፎችን ይከታተሉ እና ጥያቄዎችን ወይም የስራ ፍሰቶችን በመደበኛነት ያሠለጥኑ።
የውድቀት ንድፎችን ይከታተሉ እና ጥያቄዎችን ወይም የስራ ፍሰቶችን በመደበኛነት ያሠለጥኑ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።