የቋንቋ AI መመሪያ

የብዝሃ-ጥያቄ ትኩረት

የብዝሃ-ጥያቄ ትኩረት (MQA) በሁሉም የትኩረት ራሶች ላይ አንድ የቁልፍ እና የእሴቶችን ስብስብ የሚያጋራ የማስታወሻ ቆጣቢ የትራንስፎርመር ትኩረት ነው።

አጠቃላይ እይታ

የብዝሃ-ጥያቄ ትኩረት (MQA) በሁሉም የትኩረት ራሶች ላይ አንድ የቁልፍ እና የእሴቶችን ስብስብ የሚያጋራ የማስታወሻ ቆጣቢ የትራንስፎርመር ትኩረት ነው። ሞዴሉ መወዛወዝ ያለበትን ማህደረ ትውስታን በመቀነስ የጽሑፍ ማመንጨትን በአስደናቂ ሁኔታ ያፋጥናል።

የብዝሃ-ጥያቄ ትኩረት ጽሑፍን እና ንግግርን በተመጣጣኝ መጠን ለማንበብ፣ ለማፍለቅ፣ ለመከፋፈል እና ለመለወጥ የሚያገለግል የቋንቋ-AI ቁልል አካል ነው።

ጥልቅ ዳይቭ

መደበኛ የብዝሃ-ጭንቅላት ትኩረት ለእያንዳንዱ ጭንቅላት የራሱን ጥያቄ፣ ቁልፍ እና የእሴት ትንበያ ይሰጣል። በትውልድ ጊዜ የሁሉም ያለፉ ቶከኖች ቁልፎች እና እሴቶች በእያንዳንዱ እርምጃ መሸጎጫ እና እንደገና መጫን አለባቸው - ይህ የ KV መሸጎጫ ዋናው ማነቆ ይሆናል ፣ ምክንያቱም ከማስታወስ ማንበብ ከሂሳብ ራሱ ያነሰ ነው። በ2019 በNoam Shazeer የቀረበው የብዝሃ-ጥያቄ ትኩረት በአንድ ጭንቅላት የተለየ የመጠይቅ ትንበያ ያስቀምጣል ነገር ግን ቁልፎችን እና እሴቶቹን ወደ አንድ የጋራ ጭንቅላት ይሰብራል። ይህ የKV መሸጎጫውን ከጭንቅላት ብዛት ጋር እኩል በሆነ ምክንያት ይቀንሳል፣ አንዳንዴ ከ8x እስከ 64x ያነሰ። ውጤቱ በጣም ፈጣን አውቶማቲክ ዲኮዲንግ እና ቀላል የማህደረ ትውስታ አሻራ ነው፣ መጠነኛ ጥራት ያለው ማጥለቅ ብቻ ነው። መሃከለኛ መሬት፣ የቡድን-መጠይቅ ትኩረት፣ የንግድ ልውውጡን ሚዛኑን የጠበቀ ነው።

ቴክኒካዊ ግንዛቤ

በMQA ውስጥ፣ የመጠይቅ ክብደቶች አሁንም H የተለየ የመጠይቅ ቬክተር ያፈራሉ፣ ነገር ግን አንድ ቁልፍ ትንበያ እና ነጠላ እሴት ትንበያ በሁሉም ጭንቅላት ላይ ይጋራሉ። እያንዳንዱ ጭንቅላት የራሱን መጠይቅ ከተመሳሳይ ቁልፎች እና እሴቶች ጋር በመጠቀም ትኩረትን ያሰላል። የተሸጎጡ የK እና V ቴነሮች ከጭንቅላት ብዛት ጋር ስለማይመዘኑ፣በመግለጫ ጊዜ የማህደረ ትውስታ ባንድዊድዝ በከፍተኛ ሁኔታ ይወድቃል -እና የመተላለፊያ ይዘት ሳይሆን የመተላለፊያ ፍጥነት በዘመናዊ አፋጣኞች ላይ ነው።

የብዝሃ-ጥያቄ ትኩረትን መቆጣጠር

የብዝሃ-ጥያቄ ትኩረት (MQA) በሁሉም የትኩረት ራሶች ላይ አንድ የቁልፍ እና የእሴቶችን ስብስብ የሚያጋራ የማስታወሻ ቆጣቢ የትራንስፎርመር ትኩረት ነው። ሞዴሉ መወዛወዝ ያለበትን ማህደረ ትውስታን በመቀነስ የጽሑፍ ማመንጨትን በአስደናቂ ሁኔታ ያፋጥናል። የብዝሃ-ጥያቄ ትኩረት ጽሑፍን እና ንግግርን በተመጣጣኝ መጠን ለማንበብ፣ ለማፍለቅ፣ ለመከፋፈል እና ለመለወጥ የሚያገለግል የቋንቋ-AI ቁልል አካል ነው። ጥልቅ ግንዛቤን ለመገንባት፣ የብዝሃ መጠይቅ ትኩረትን እንደ ኦፕሬሽን ሞዴል ይያዙ፣ አንድ ባህሪ ሳይሆን፡ የሚፈለጉትን ውጤቶች ይግለጹ፣ ግምቶችን ያብራሩ እና ስርዓቱ አሁንም የባለሙያዎችን ፍርድ ከሚያስፈልገው ነገር ለይ።

በተግባራዊ መልኩ፣ የብዝሃ-ጥያቄ ትኩረት ንድፍ ጥያቄዎችን፣ ሰርስሮ ማውጣት እና የግምገማ ቀለበቶችን እንደ አንድ የተቀናጀ የግንኙነት ስርዓት የሚጠቀሙ ጠንካራ ቡድኖች። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።

የቋንቋ የስራ ፍሰቶች ወጥነትን ሳያጠፉ በፍጥነት ሊንቀሳቀሱ ይችላሉ። በተመሳሳይ ጊዜ፣ የተሳሳቱ እውነታዎች ሪፖርቶችን፣ የድጋፍ ፍሰቶችን ወይም የምርምር ውጤቶችን በጸጥታ ማስገባት ይችላሉ። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።

ስልታዊ ተጽእኖ

የቋንቋ የስራ ፍሰቶች ወጥነትን ሳያጠፉ በፍጥነት ሊንቀሳቀሱ ይችላሉ።

የቋንቋ የስራ ፍሰቶች ወጥነትን ሳያጠፉ በፍጥነት ሊንቀሳቀሱ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

በሁሉም ቋንቋዎች እና የግንኙነት ዘይቤዎች ተደራሽነትን ያሰፋል።

በሁሉም ቋንቋዎች እና የግንኙነት ዘይቤዎች ተደራሽነትን ያሰፋል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

አውቶሜሽን ድግግሞሹን ሲቆጣጠር ቡድኖች በፍርድ ላይ ብዙ ጊዜ ሊያጠፉ ይችላሉ።

አውቶሜሽን ድግግሞሹን ሲቆጣጠር ቡድኖች በፍርድ ላይ ብዙ ጊዜ ሊያጠፉ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የብዝሃ-ጥያቄ ትኩረት የወደፊት

MQA ተደጋጋሚ ቁልፍ/ዋጋ ጭንቅላቶችን በትንሽ ጉዳት መቁረጥ እንደምትችል አረጋግጧል፣ እና ያ ግንዛቤ አሁን እያንዳንዱን ፈጣን ግምት LLM ይቀርፃል። ሜዳው በሊማ 2/3 እና ሌሎች ብዙ ጥቅም ላይ የዋለው በቡድን-ጥያቄ ትኩረት (GQA) ላይ በአብዛኛው ተሰብስቧል፣ ይህም አብዛኛውን የፍጥነት ፍጥነት ጠብቆ ጥራቱን ለማስመለስ ከአንድ ይልቅ ጥቂት የKV ቡድኖችን ይጠቀማል። የወደፊት ስራ እነዚህን ሃሳቦች ከKV-cache መጭመቂያ፣መጠኑ እና ከብዙ ስውር ትኩረት ጋር በማዋሃድ ረጅም አውዶችን እና ርካሽ አገልግሎትን ለመግፋት።

የእውነተኛ-ዓለም አተገባበር

በቻት ረዳቶች ውስጥ ማስመሰያ-ቶከንን ማፍጠን የ KV መሸጎጫ፣ ጥሬ ስሌት ሳይሆን፣ የውጤት መጠንን ይገድባል።

_AIU_PROTECTED_11__'s PaLM፣ የብዙ መጠይቅ ትኩረትን ተጠቅሞ ቀልጣፋ መጠነ ሰፊ መረጃን ለማንቃት።

የ KV መሸጎጫ ማህደረ ትውስታን በመቀነስ ብዙ ተጠቃሚዎችን በአንድ ጂፒዩ ማገልገል።

የተመደበ-ጥያቄ ትኩረት በላማ 2 70ቢ እና ላማ 3፣ የMQAን ፍጥነት ከሙሉ ትኩረት ጥራት ጋር በማመጣጠን ቀጥተኛ ዘር።

የትግበራ ቅጦች

የብዙ መጠይቅ ትኩረት በተግባር

በቻት ረዳቶች ውስጥ ማስመሰያ-ቶከንን ማፍጠን የ KV መሸጎጫ፣ ጥሬ ስሌት ሳይሆን፣ የውጤት መጠንን ይገድባል።

በቻት ረዳቶች ውስጥ የ KV መሸጎጫ፣ ጥሬ ስሌት፣ የውጤት መጠንን የሚገድብበት የውይይት ረዳቶች ማፋጠን ቡድኖቹ ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰው ልጅ እድገት መንገድን ይጠብቁ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

የብዙ መጠይቅ ትኩረት በተግባር

_AIU_PROTECTED_11__'s PaLM፣ የብዙ መጠይቅ ትኩረትን ተጠቅሞ ቀልጣፋ መጠነ ሰፊ መረጃን ለማንቃት።

ቀልጣፋ መጠነ-ሰፊ ግንዛቤን ለማስቻል የብዝሃ-ጥያቄ ትኩረትን የተጠቀመው የGoogle PALM ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰው ልጅ እድገት መንገድን ይጠብቁ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

የብዙ መጠይቅ ትኩረት በተግባር

የ KV መሸጎጫ ማህደረ ትውስታን በመቀነስ ብዙ ተጠቃሚዎችን በአንድ ጂፒዩ ማገልገል።

በአንድ ጂፒዩ ላይ ብዙ ተጠቃሚዎችን በአንድ ጂፒዩ ማገልገል በየጥያቄው የKV cache memory ቡድኖች የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድ ሲያደርጉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ሲከታተሉ የተሻለ ውጤት ያገኛሉ።

የብዙ መጠይቅ ትኩረት በተግባር

የተመደበ-ጥያቄ ትኩረት በላማ 2 70ቢ እና ላማ 3፣ የMQAን ፍጥነት ከሙሉ ትኩረት ጥራት ጋር በማመጣጠን ቀጥተኛ ዘር።

የቡድን-መጠይቅ ትኩረት በላማ 2 70ቢ እና ላማ 3፣ የMQAን ፍጥነት ከሙሉ ትኩረት ጥራት ጋር በማመጣጠን ቀጥተኛ ተወላጅ ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድን ይጠብቃሉ፣ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

አደጋዎች እና የጥበቃ መንገዶች

!

የተሳሳቱ እውነታዎች በጸጥታ ወደ ሪፖርቶች፣ የድጋፍ ፍሰቶች ወይም የምርምር ውጤቶችን ማስገባት ይችላሉ።

!

ፈጣን ትብነት በተመሳሳይ ጥያቄዎች ላይ የማይጣጣሙ ውጤቶችን ሊፈጥር ይችላል።

!

የመዳረሻ መቆጣጠሪያዎች ደካማ ከሆኑ ሚስጥራዊነት ያለው የጽሑፍ ውሂብ ሊጋለጥ ይችላል።

የትግበራ ፍኖተ ካርታ

1

ከመልቀቅዎ በፊት የውጤት ቅርጸትን፣ ድምጽን እና የጥራት ደረጃዎችን ይግለጹ።

ከመልቀቅዎ በፊት የውጤት ቅርጸትን፣ ድምጽን እና የጥራት ደረጃዎችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

2

ትክክለኛነት አስፈላጊ በሚሆንበት ጊዜ ሁሉ ከታመኑ ምንጮች ጋር ምላሾች።

ትክክለኛነት አስፈላጊ በሚሆንበት ጊዜ ሁሉ ከታመኑ ምንጮች ጋር ምላሾች። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

3

ከፍተኛ ውጤት ለማግኘት የሰው የግምገማ ነጥብ አቆይ።

ከፍተኛ ውጤት ለማግኘት የሰው የግምገማ ነጥብ አቆይ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

4

የውድቀት ንድፎችን ይከታተሉ እና ጥያቄዎችን ወይም የስራ ፍሰቶችን በመደበኛነት ያሠለጥኑ።

የውድቀት ንድፎችን ይከታተሉ እና ጥያቄዎችን ወይም የስራ ፍሰቶችን በመደበኛነት ያሠለጥኑ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

ማሰስዎን ይቀጥሉ