አጠቃላይ እይታ
ትልቅ የቋንቋ ሞዴል ግንዛቤን ወደ ሁለት የተለያዩ ደረጃዎች የሚከፍል - ቅድመ-ሙላ እና ኮድ - እና በተለያዩ የጂፒዩዎች ገንዳዎች ላይ የሚያስኬድ የአገልግሎት አርክቴክቸር። አስፈላጊ ነው ምክንያቱም እነዚህ ሁለት ደረጃዎች የሃርድዌር የምግብ ፍላጎት ተቃራኒዎች ስላሏቸው እና ወደ ተመሳሳይ ማሽኖች ማስገደድ አቅምን ያባክናል እና መዘግየትን ይጎዳል።
የተከፋፈለ ቅድመ ሙሌት እና ዲኮድ ማገልገል የሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው።
ጥልቅ ዳይቭ
LLM ሲመልስ፣ በሁለት ደረጃዎች ይሰራል። ቅድመ-ሙላ ሁሉንም መጠየቂያውን በአንድ ጊዜ ያነባል እና የቁልፍ እሴት (KV) መሸጎጫ ይገነባል; ይህ የጂፒዩ ሒሳብ ክፍሎችን የሚሞላ ትልቅ፣ ትይዩ፣ በስሌት የታሰረ ፍንዳታ ነው። ከዚያም ዲኮድ አንድ በአንድ ቶከኖችን ያመነጫል፣ እያንዳንዱ እርምጃ ሙሉውን የKV መሸጎጫ ያነባል። አብራችሁ ሩጡ፣ ረጅም ቅድመ ሙሌት የሁሉንም ሰው ዲኮድ ያቆማል (የመስመር መስመርን ማገድ) እና ሁለቱን መጠቅለል ጣልቃ ገብነትን ይፈጥራል። መለያየት በአንድ የጂፒዩ ፑል ላይ ቅድመ መሙላትን ያስቀምጣል እና በሌላ ላይ የ KV መሸጎጫውን በመካከላቸው እንደ NVLink ወይም InfiniBand ባሉ ፈጣን ማገናኛዎች ያስተላልፋል። እያንዳንዱ ገንዳ በተናጥል የተስተካከለ እና ሚዛኑን የጠበቀ ነው፣ ጥሩ ምርትን ያሻሽላል፣ የጅራት መዘግየትን ያስተካክላል፣ እና ኦፕሬተሮች ከግዜ እስከ መጀመሪያ ማስመሰያ እና የውጤት ማስመሰያ ዒላማዎችን በአንድ ጊዜ እንዲመታ ያስችላቸዋል።
ቴክኒካዊ ግንዛቤ
ሁለቱ ደረጃዎች በእቅፋቸው ይለያያሉ. ቅድመ-ሙላ ሁሉንም ፈጣን ቶከኖች በትይዩ ያስኬዳል፣ ስለዚህ የእሱ FLOPs በፈጣን ርዝመት ይመዝናል እና ከፍተኛውን የ tensor ኮሮችን ያበዛል። ዲኮድ አውቶማቲክ ነው፡ እያንዳንዱ አዲስ ማስመሰያ ሙሉውን የKV cache ከHBM ደግመን የሚያነብ አንድ ወደፊት ማለፊያ ያስፈልገዋል፣ስለዚህ ውፅዓት የሚሸፈነው በማስታወሻ ባንድዊድዝ ነው እንጂ በማስላት አይደለም። መለያየት ይህንን በመጠን ፣ በመመደብ እና ለእያንዳንዱ ገንዳ የተለያዩ ትይዩዎችን በመምረጥ ይጠቀማል ፣ ከዚያም የ KV ካሼን ከቅድመ-ሙላ ሰራተኞች በማጓጓዝ ሰራተኞችን መፍታት።
የተከፋፈለ ቅድመ-ሙላ እና ማገልገልን መፍታት
ትልቅ የቋንቋ ሞዴል ግንዛቤን ወደ ሁለት የተለያዩ ደረጃዎች የሚከፍል - ቅድመ-ሙላ እና ኮድ - እና በተለያዩ የጂፒዩዎች ገንዳዎች ላይ የሚያስኬድ የአገልግሎት አርክቴክቸር። አስፈላጊ ነው ምክንያቱም እነዚህ ሁለት ደረጃዎች የሃርድዌር የምግብ ፍላጎት ተቃራኒዎች ስላሏቸው እና ወደ ተመሳሳይ ማሽኖች ማስገደድ አቅምን ያባክናል እና መዘግየትን ይጎዳል። የተከፋፈለ ቅድመ ሙሌት እና ዲኮድ ማገልገል የሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው። ጥልቅ ግንዛቤን ለመገንባት የተከፋፈለውን ቅድመ-ሙላ እና ዲኮድ ማገልገልን እንደ ኦፕሬሽን ሞዴል እንጂ አንድ ባህሪ አይደለም፡ የሚፈለጉትን ውጤቶች ይግለጹ፣ ግምቶችን ያብራሩ እና ስርዓቱ ምን ሊሰራ እንደሚችል አሁንም የባለሙያዎችን ፍርድ ከሚያስፈልገው ለይ።
በተግባር፣ የተከፋፈለ ቅድመ-ሙላ እና ኮድ ማገልገልን የሚጠቀሙ ጠንካራ ቡድኖች አርክቴክቸርን፣ መረጃን እና የመሰረተ ልማት ምርጫዎችን ከአስተማማኝነት እና ከወጪ ጋር ያሻሽላሉ። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።
የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. በተመሳሳይ ጊዜ፣ አንድ ቤንችማርክን ማሻሻል ሰፋ ያሉ የስርዓት ድክመቶችን መደበቅ ይችላል። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።
ስልታዊ ተጽእኖ
የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ.
የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል።
የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ.
የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
የእውነተኛ-ዓለም አተገባበር
የውይይት ረዳት ረጅም ሰነድን ወደ ስሌት-ከባድ የቅድመ-መሙያ ክላስተር ይጠይቃል፣ከዚያም የመተየብ መዘግየት ለስላሳ እንዲሆን ከማስታወሻ-የተመቻቸ የመግለጫ ክላስተር ምላሾችን ይልቀቁ።
NVIDIA Dynamo እና vLLM ኦፕሬተሮች የተለየ ቅድመ-ሙላ እንዲያሰማሩ እና የሰራተኛ ቡድኖችን መፍታት እንዲችሉ የረዥም ጥቆማዎች ፍንዳታ ቀጣይ ትውልዶችን እንዳይቀዘቅዝ ይፈቅዳሉ።
ሙንኬክ (በMoonshot AI's Kimi ጥቅም ላይ የሚውለው) ቅድመ-ሙላ እና ኮድ መፍታት እና የተከፋፈለ የKV-cache ፑል በመጨመር ያልተደጋገመ ፈጣን ዳግም ማስላትን በመለኪያ ያክላል።
አብዛኛው ወጪ የሚመጣው ብዙ የውጤት ቶከኖችን በማሰራጨት ስለሆነ የኮድ ማጠናቀቂያ አገልግሎት ትንሽ ቅድመ-ሙላ ገንዳ ለአጭር ጊዜ ጥያቄዎች እና ለትልቅ ዲኮድ ገንዳ ይሰጣል።
የትግበራ ቅጦች
የተከፋፈለው ቅድመ-ሙላ እና ኮድ መፍታት በተግባር ማገልገል
የውይይት ረዳት ረጅም ሰነድን ወደ ስሌት-ከባድ የቅድመ-መሙያ ክላስተር ይጠይቃል፣ከዚያም የመተየብ መዘግየት ለስላሳ እንዲሆን ከማስታወሻ-የተመቻቸ የመግለጫ ክላስተር ምላሾችን ይልቀቁ።
የውይይት ረዳት ረጅም ሰነድን ወደ ኮምፒውተ-ከባድ ቅድመ-ሙላ ክላስተር ይገፋፋናል፣ከዚያም ዥረቶች ከማስታወሻ-የተመቻቸ ዲኮድ ክላስተር ምላሽ ይሰጣሉ የቆይታ ጊዜ ለስላሳ መተየብ ለመቀጠል ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ለዳር ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
የተከፋፈለው ቅድመ-ሙላ እና ኮድ መፍታት በተግባር ማገልገል
NVIDIA Dynamo እና vLLM ኦፕሬተሮች የተለየ ቅድመ-ሙላ እንዲያሰማሩ እና የሰራተኛ ቡድኖችን መፍታት እንዲችሉ የረዥም ጥቆማዎች ፍንዳታ ቀጣይ ትውልዶችን እንዳይቀዘቅዝ ይፈቅዳሉ።
NVIDIA Dynamo እና vLLM ኦፕሬተሮች የተለየ ቅድመ-ሙላ እንዲያሰማሩ እና የሰራተኛ ቡድኖችን እንዲፈቱ ፈቅደዋል ስለሆነም የረዥም ጥያቄዎች ፍንዳታ ቀጣይነት ያለው ትውልዶች እንዳይቀዘቅዙ ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ሲወስኑ የተሻለ ውጤት ያገኛሉ ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ይጠብቃሉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
የተከፋፈለው ቅድመ-ሙላ እና ኮድ መፍታት በተግባር ማገልገል
ሙንኬክ (በMoonshot AI's Kimi ጥቅም ላይ የሚውለው) ቅድመ-ሙላ እና ኮድ መፍታት እና የተከፋፈለ የKV-cache ፑል በመጨመር ያልተደጋገመ ፈጣን ዳግም ማስላትን በመለኪያ ያክላል።
Mooncake (በMoonshot AI's Kimi ጥቅም ላይ የሚውለው) ቅድመ-ሙላ እና ኮድ መፍታት እና የተከፋፈለ የKV-cache ፑል በመጨመር ተደጋጋሚ ፈጣን ስሌትን በመለኪያ ለመቁረጥ ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው መስፋፋት መንገድን ይጠብቁ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
የተከፋፈለው ቅድመ-ሙላ እና ኮድ መፍታት በተግባር ማገልገል
አብዛኛው ወጪ የሚመጣው ብዙ የውጤት ቶከኖችን በማሰራጨት ስለሆነ የኮድ ማጠናቀቂያ አገልግሎት ትንሽ ቅድመ-ሙላ ገንዳ ለአጭር ጊዜ ጥያቄዎች እና ለትልቅ ዲኮድ ገንዳ ይሰጣል።
የኮድ ማጠናቀቂያ አገልግሎት ለአጭር መጠየቂያዎች እና ለትልቅ ዲኮድ ገንዳ ትንሽ ቅድመ-ሙላ ገንዳ ይሰጣል ፣ ምክንያቱም አብዛኛው ወጪ የሚመጣው ብዙ የውጤት ምልክቶችን በዥረት በማሰራጨት ነው ። ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ያቆዩ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
አደጋዎች እና የጥበቃ መንገዶች
አንድ ቤንችማርክን ማሳደግ ሰፋ ያሉ የስርዓት ድክመቶችን ሊደብቅ ይችላል።
የመሠረተ ልማት እና የጥገና ወጪዎች ብዙ ጊዜ ዝቅተኛ ናቸው.
ስርዓቶች ይበልጥ ውስብስብ ሲሆኑ የደህንነት እና የታዛቢነት ክፍተቶች ሊያድጉ ይችላሉ።
የትግበራ ፍኖተ ካርታ
ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ።
ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች።
ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል።
ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ።
ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።