አጠቃላይ እይታ
PagedAttention የአንድ ቋንቋ ሞዴል ትኩረት መሸጎጫ ከአንድ ትልቅ ተጓዳኝ ቁራጭ ይልቅ እንደገና ጥቅም ላይ በሚውሉ ትንንሽ ብሎኮች ውስጥ የሚያከማች የማህደረ ትውስታ አስተዳደር ቴክኒክ ነው። አንድ ጂፒዩ ምን ያህል ጥያቄዎችን ማስተናገድ እንደሚችል በሚያስደንቅ ሁኔታ የሚጨምር vLLM የሆነውን ክፍት ምንጭ የሚያገለግል ሞተርን ያበረታታል።
PagedAttention እና vLLM የሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው።
ጥልቅ ዳይቭ
የቋንቋ ሞዴል ጽሑፍ ሲያመነጭ፣ ለሚያየው እያንዳንዱ ማስመሰያ 'KV cache' (ቁልፍ እና እሴት ቬክተር) ያስቀምጣል። በተለምዶ እያንዳንዱ ጥያቄ ቅደም ተከተሎች ሲያጥሩ ወይም ርዝመታቸው ሲለያይ ከፍተኛ መጠን በማባከን አንድ ትልቅ የጂፒዩ ማህደረ ትውስታ መጠን ያለው ንጣፍ ይይዛል። PagedAttention፣ ከዩሲ በርክሌይ በ2023 vLLM ወረቀት ላይ አስተዋውቋል፣ የቨርቹዋል ሚሞሪ ፓጂንግ ሃሳብን ከኦፕሬቲንግ ሲስተሞች ወስዷል፡ የ KV መሸጎጫውን በየትኛውም ቦታ በማስታወሻ ውስጥ ሊኖሩ እና በፍላጎት ሊመደቡ ወደ ሚችሉ ቋሚ መጠን ብሎኮች ይከፍላቸዋል። የመፈለጊያ ሠንጠረዥ አመክንዮአዊ ማስመሰያ ቦታዎችን ወደ አካላዊ ብሎኮች ያዘጋጃል። ይህ የማህደረ ትውስታ መበታተንን ያስወግዳል እና ብሎኮች እንዲጋሩ ያስችላቸዋል፣ ለምሳሌ ከተመሳሳዩ መጠየቂያ ውጤቶች ውስጥ።
ቴክኒካዊ ግንዛቤ
የKV መሸጎጫ ወደ ቋሚ መጠን ገፆች የተከፈለ ነው፣ እያንዳንዱም ለተወሰኑ ቶከኖች ቁልፎችን እና እሴቶችን ይይዛል። በየቅደም ተከተላቸው ብሎክ ሰንጠረዡ አመክንዮአዊ አቀማመጦችን ወደ አካላዊ ገጽ ቦታዎች ያዘጋጃል፣ ስለዚህ የተከታታይ መሸጎጫ ተከታታይ መሆን የለበትም። ተመሳሳይ ቅድመ-ቅጥያዎች (የተጋራ የስርዓት መጠየቂያ ወይም የጨረር ፍለጋ ቅርንጫፎች) ወደ ተመሳሳዩ አካላዊ ገፆች በቅጂ-ላይ-ፃፍ ሊጠቁሙ ስለሚችሉ፣ ማህደረ ትውስታ ከተባዛ ይልቅ እንደገና ጥቅም ላይ ይውላል፣ ቆሻሻን ከ60% በላይ ወደ ጥቂት በመቶ ይቀንሳል።
PagedAttention እና vLLMን ማስተማር
PagedAttention የአንድ ቋንቋ ሞዴል ትኩረት መሸጎጫ ከአንድ ትልቅ ተጓዳኝ ቁራጭ ይልቅ እንደገና ጥቅም ላይ በሚውሉ ትንንሽ ብሎኮች ውስጥ የሚያከማች የማህደረ ትውስታ አስተዳደር ቴክኒክ ነው። አንድ ጂፒዩ ምን ያህል ጥያቄዎችን ማስተናገድ እንደሚችል በሚያስደንቅ ሁኔታ የሚጨምር vLLM የሆነውን ክፍት ምንጭ የሚያገለግል ሞተርን ያበረታታል። PagedAttention እና vLLM የሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው። ጥልቅ ግንዛቤን ለመገንባት PagedAttention እና vLLMን እንደ ኦፕሬሽን ሞዴል ያዙ እንጂ አንድ ባህሪ አይደሉም፡ የተፈለገውን ውጤት ይግለጹ፣ ግምቶችን ያብራሩ እና ስርዓቱ አሁንም የባለሙያዎችን ፍርድ ከሚያስፈልገው ነገር ለይ።
በተግባር፣ PagedAttention እና vLLM የሚጠቀሙ ጠንካራ ቡድኖች አርክቴክቸር፣ ዳታ እና የመሠረተ ልማት ምርጫዎችን ከአስተማማኝነት እና ከወጪ ጋር ያሻሽላሉ። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።
የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. በተመሳሳይ ጊዜ፣ አንድ ቤንችማርክን ማሻሻል ሰፋ ያሉ የስርዓት ድክመቶችን መደበቅ ይችላል። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።
ስልታዊ ተጽእኖ
የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ.
የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል።
የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ.
የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
የእውነተኛ-ዓለም አተገባበር
vLLM ከአንድ ጂፒዩ ከፍተኛ መጠን ያለው የውይይት ተጠቃሚ የሚያደርግበት ክፍት ምንጭ LLM ኤፒአይን ማስተናገድ
በቅድመ ቅጥያ መሸጎጫ በኩል ረጅም የስርዓት መጠየቂያ ማጋራት አንድ ጊዜ እንጂ ተደጋጋሚ አይደለም
የጨረር ፍለጋን ማስኬድ ወይም ለጋራ መጠየቂያው KV ብሎኮችን የሚጋሩ በርካታ ናሙና ማጠናቀቂያዎች በቅጂ ላይ መጻፍ
አቅራቢው በተመሳሳይ ሃርድዌር ላይ ተጨማሪ በአንድ ጊዜ ክፍለ ጊዜዎችን ማሸግ እንዲችል የጂፒዩ ማህደረ ትውስታ ቆሻሻን ከመከፋፈል መቁረጥ
የትግበራ ቅጦች
PagedAttention እና vLLM በተግባር
vLLM ከአንድ ጂፒዩ በከፍተኛ ፍጥነት ብዙ በተመሳሳይ ጊዜ የውይይት ተጠቃሚዎችን የሚያገለግልበት ክፍት ምንጭ LLM ኤፒአይን ማስተናገድ።
ክፍት ምንጭ LLM ኤፒአይን ማስተናገድ vLLM ከአንድ ጂፒዩ በከፍተኛ የውጤት መጠን የሚያገለግልበት ብዙ ጊዜ የውይይት ተጠቃሚዎችን ቡድኖች አብዛኛውን ጊዜ ከፊት ለፊት የጥራት ደረጃዎችን ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ መሻሻል መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
PagedAttention እና vLLM በተግባር
በቅድመ ቅጥያ መሸጎጫ በኩል ረጅም የስርዓት መጠየቂያ ማጋራት አንድ ጊዜ እንጂ ተደጋጋሚ አይደለም።
በቅድመ-ቅጥያ መሸጎጫ በኩል ረጅም የስርዓት ጥያቄን መጋራት አንድ ጊዜ እንዲሰራ ሳይሆን በተደጋጋሚ ቡድኖች የጥራት ደረጃዎችን ሲወስኑ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰው ልጅ እድገት መንገድን ይጠብቁ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
PagedAttention እና vLLM በተግባር
የጨረር ፍለጋን ማስኬድ ወይም ለጋራ መጠየቂያው የ KV ብሎኮችን የሚጋሩ በርካታ ናሙናዎች ማጠናቀቂያዎች በቅጂ ፃፍ።
የጨረር ፍለጋን ወይም በርካታ የናሙና የተመረቁ ማጠናቀቂያዎች ለጋራ መጠየቂያው የKV ብሎኮችን በቅጂ ፃፍ ቡድኖች ብዙውን ጊዜ ከፊት ለፊት የጥራት ደረጃዎችን ሲገልጹ፣ የሰው ልጅን የማሳደግ መንገድን ለጫፍ ጉዳዮች ሲያደርጉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ሲከታተሉ የተሻለ ውጤት ያገኛሉ።
PagedAttention እና vLLM በተግባር
አቅራቢው በተመሳሳይ ሃርድዌር ላይ ተጨማሪ በአንድ ጊዜ ክፍለ ጊዜዎችን ማሸግ እንዲችል የጂፒዩ ማህደረ ትውስታ ቆሻሻን ከመከፋፈል መቁረጥ።
የጂፒዩ የማህደረ ትውስታ ቆሻሻን ከመበታተን በመቁረጥ አቅራቢው በተመሳሳይ የሃርድዌር ቡድን ላይ ተጨማሪ በአንድ ጊዜ ክፍለ ጊዜዎችን ማሸግ እንዲችል ብዙ ጊዜ የተሻሉ ውጤቶችን ያገኛሉ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድን ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት መከታተል።
አደጋዎች እና የጥበቃ መንገዶች
አንድ ቤንችማርክን ማሳደግ ሰፋ ያሉ የስርዓት ድክመቶችን ሊደብቅ ይችላል።
የመሠረተ ልማት እና የጥገና ወጪዎች ብዙ ጊዜ ዝቅተኛ ናቸው.
ስርዓቶች ይበልጥ ውስብስብ ሲሆኑ የደህንነት እና የታዛቢነት ክፍተቶች ሊያድጉ ይችላሉ።
የትግበራ ፍኖተ ካርታ
ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ።
ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች።
ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል።
ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ።
ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።