የቴክኒክ መመሪያ

የማግበር ድጋሚ ስሌት ውድቀቶች

የማግበር ድጋሚ ስሌት (ግራዲየንት ወይም አግብር ፍተሻ) በስልጠና ወቅት የጂፒዩ ማህደረ ትውስታን ይቆጥባል ፣ መካከለኛ እንቅስቃሴዎችን ወደ ፊት ማለፊያ በመጣል እና በኋለኛው ማለፊያ ጊዜ እንደገና በማስላት።

አጠቃላይ እይታ

የማግበር ድጋሚ ስሌት (ግራዲየንት ወይም አግብር ፍተሻ) በስልጠና ወቅት የጂፒዩ ማህደረ ትውስታን ይቆጥባል ፣ መካከለኛ እንቅስቃሴዎችን ወደ ፊት ማለፊያ በመጣል እና በኋለኛው ማለፊያ ጊዜ እንደገና በማስላት። ትላልቅ ሞዴሎችን ወይም ረጅም ቅደም ተከተሎችን በተመሳሳይ ሃርድዌር ላይ የማሰልጠን ችሎታ ለማግኘት ተጨማሪ ስሌት ይገበያያል።

የማግበር ድጋሚ ስሌት ንግድ ሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው።

ጥልቅ ዳይቭ

ቅልመትን ለማስላት የኋላ መስፋፋት የቀጣይ ማለፊያ ማነቃቂያዎችን ይፈልጋል፣ ስለዚህ በነባሪ የእያንዳንዱ ንብርብር ውጤቶች ይከማቻሉ - በሞዴል መጠን፣ ባች መጠን እና በቅደም ተከተል ርዝመት የሚያድግ ትልቅ የማህደረ ትውስታ ዋጋ። የማግበሪያ ድጋሚ ስሌት ጥቂት 'የፍተሻ ነጥብ' ቴነሮችን ብቻ ይይዛል (ብዙውን ጊዜ የንብርብር ወሰኖችን ብቻ) እና የቀረውን ይጥላል። በኋለኛው ማለፊያ ጊዜ፣ በፍላጎት የተጣሉ እንቅስቃሴዎችን ለማደስ በፍተሻ ኬላዎች መካከል ያለውን ወደፊት ስሌት እንደገና ያስኬዳል። ክላሲክ ውጤቱ በእያንዳንዱ ካሬ(N) ንብርብ በተቀመጡ የፍተሻ ነጥቦች፣ ማህደረ ትውስታ ወደ O(sqrt(N)) ሲወርድ አንድ ተጨማሪ ወደፊት ማለፊያ (~ 33% ተጨማሪ ስሌት) ሲጨመር ነው። የተመረጡ ተለዋጮች እንደገና የሚሰሉት ርካሽ ነገር ግን የማህደረ ትውስታ-ከባድ ኦፕስ ብቻ ነው (እንደ ትኩረት ወይም ማቋረጥ) ውድ የሆኑትን እየሸጎጡ፣ አብዛኛዎቹ የማህደረ ትውስታ ቁጠባዎች እጅግ በጣም አነስተኛ በሆነ ወጪ ገንዘብ ያገኛሉ።

ቴክኒካዊ ግንዛቤ

ዋናው ግብይት የማህደረ ትውስታ እና የFLOPs ነው። ሙሉ ስሌት በደረጃ አንድ ተጨማሪ ወደፊት ማለፊያ ይጨምራል (~ 30-40% ቀርፋፋ) ነገር ግን የማግበር ማህደረ ትውስታን በትእዛዝ መጠን ሊቀንስ ይችላል። ብልጥ እርምጃው የተመረጠ የፍተሻ ነጥብ ነው፡ ኦፕስ የማስታወሻ-ትልቅ ነገር ግን በርካሽ (Softmax, Layernorm, GELU, ትኩረት ውጤቶች) መለየት እና እነዚያን ብቻ እንደገና አስላ, ውድ የሆኑ GEMMs የተሸጎጡ ውጤቶችን በማቆየት - የሚባክነውን ስሌት በመቀነስ.

የማግበሪያ ድጋሚ ስሌት ውድቀቶችን መቆጣጠር

የማግበር ድጋሚ ስሌት (ግራዲየንት ወይም አግብር ፍተሻ) በስልጠና ወቅት የጂፒዩ ማህደረ ትውስታን ይቆጥባል ፣ መካከለኛ እንቅስቃሴዎችን ወደ ፊት ማለፊያ በመጣል እና በኋለኛው ማለፊያ ጊዜ እንደገና በማስላት። ትላልቅ ሞዴሎችን ወይም ረጅም ቅደም ተከተሎችን በተመሳሳይ ሃርድዌር ላይ የማሰልጠን ችሎታ ለማግኘት ተጨማሪ ስሌት ይገበያያል። የማግበር ድጋሚ ስሌት ንግድ ሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው። ጥልቅ ግንዛቤን ለመገንባት፣ Activation Recomputation Tradeoffsን እንደ ኦፕሬሽን ሞዴል እንጂ አንድ ባህሪ አይደለም፡ የሚፈለጉትን ውጤቶች ይግለጹ፣ ግምቶችን ያብራሩ፣ እና ስርዓቱ አሁንም የባለሙያዎችን ፍርድ ከሚያስፈልገው ነገር ለይተው በአስተማማኝ ሁኔታ ሊሰሩ ይችላሉ።

በተግባር፣ የአክቲቬሽን ድጋሚ ስሌት ነጋዴዎችን የሚጠቀሙ ጠንካራ ቡድኖች የአርክቴክቸር፣ የመረጃ እና የመሠረተ ልማት ምርጫዎችን ከአስተማማኝነት እና ከወጪ ጋር ያሻሽላሉ። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. በተመሳሳይ ጊዜ፣ አንድ ቤንችማርክን ማሻሻል ሰፋ ያሉ የስርዓት ድክመቶችን መደበቅ ይችላል። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።

ስልታዊ ተጽእኖ

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ.

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል።

የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ.

የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የማግበሪያ ድጋሚ ስሌት ውድቀቶች የወደፊት

ዳግም ማስላት ከጊዜ ወደ ጊዜ በራስ-ሰር የሚሠራ እና የሚመረጥ ነው። Frameworks አሁን የተሻሉ የፍተሻ ነጥቦችን ለመምረጥ የእያንዳንዱን ኦፕ ማህደረ ትውስታ እና የFLOP ወጪን ይገልፃሉ፣ እና ድጋሚ ስሌትን ከማግበር ወደ ሲፒዩ/NVMe ከማውረድ እና ከትይዩነት ስልቶች ጋር ያጣምሩታል። የአውድ ርዝማኔዎች እና የሞዴል መጠኖች እያደጉ ሲሄዱ በአቀናባሪ የሚነዱ ፖሊሲዎች (በPyTorch፣ JAX/XLA) በአንድ ጊዜ የሚደረጉ ውሳኔዎችን በራስ-ሰር የሚመርጡ፣ እና ተጨማሪ FLOPs በከፊል ተደብቀው እንዲቆዩ ከግንኙነት ጋር ጥብቅ መደራረብ ይጠብቁ።

የእውነተኛ-ዓለም አተገባበር

እያንዳንዱን የንብርብር ብሎክ በማጣራት የማይመጥን ትልቅ ትራንስፎርመር ማሰልጠን

የPyTorch's torch.utils.checkpointን በመጠቀም ትራንስፎርመር ብሎኮችን ለመጠቅለል እና የማግበር ማህደረ ትውስታን ለመቁረጥ

በትንሹ መቀዛቀዝ ማህደረ ትውስታን ለመቆጠብ በሜጋትሮን-ኤልኤም ውስጥ የተመረጠ ትኩረት/softmax ስሌት

በቋሚ ጂፒዩ በጀት ላይ ረዣዥም ተከታታይ ርዝመቶችን ማንቃት ገቢሮችን ከማከማቸት ይልቅ እንደገና በማስላት

የትግበራ ቅጦች

የማግበር ድጋሚ ማስላት በተግባር ላይ ያሉ ውድቀቶች

እያንዳንዱን የንብርብር ብሎክ በማጣራት የማይመጥን ትልቅ ትራንስፎርመር ማሰልጠን።

እያንዳንዱን የንብርብር ብሎክ በማጣራት የማይመጥን ትልቅ ትራንስፎርመር ማሰልጠን ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ ፣ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት መከታተል።

የማግበር ድጋሚ ማስላት በተግባር ላይ ያሉ ውድቀቶች

የPyTorch's torch.utils.checkpointን በመጠቀም ትራንስፎርመር ብሎኮችን ለመጠቅለል እና የማግበር ማህደረ ትውስታን ለመቁረጥ።

የPyTorch's torch.utils.checkpointን በመጠቀም የትራንስፎርመር ብሎኮችን ለመጠቅለል እና የማግበር ማህደረ ትውስታን ለመቁረጥ ቡድኖች ብዙውን ጊዜ የተሻሉ ውጤቶችን ያገኛሉ የጥራት ደረጃዎችን ከፊት ለፊት ሲገልጹ ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

የማግበር ድጋሚ ማስላት በተግባር ላይ ያሉ ውድቀቶች

በትንሹ መቀዛቀዝ ማህደረ ትውስታን ለመቆጠብ በሜጋትሮን-ኤልኤም ውስጥ የተመረጠ ትኩረት/softmax ስሌት።

በሜጋትሮን-ኤልኤም ውስጥ የማስታወስ ችሎታን በትንሹ መቀዛቀዝ ለመቆጠብ የተመረጠ ትኩረት/softmax ዳግመኛ ስሌት ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድን ይጠብቃሉ፣ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

የማግበር ድጋሚ ማስላት በተግባር ላይ ያሉ ውድቀቶች

በቋሚ ጂፒዩ በጀት ላይ ረዣዥም ተከታታይ ርዝመቶችን ማንቃት ገቢሮችን ከማከማቸት ይልቅ እንደገና በማስላት።

በቋሚ ጂፒዩ ባጀት ላይ ረዣዥም ተከታታይ ርዝመቶችን ማስቻል እነሱን ከማጠራቀም ይልቅ ማግበርን እንደገና በማስላት ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ መሻሻል መንገድን ይጠብቃሉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

አደጋዎች እና የጥበቃ መንገዶች

!

አንድ ቤንችማርክን ማሳደግ ሰፋ ያሉ የስርዓት ድክመቶችን ሊደብቅ ይችላል።

!

የመሠረተ ልማት እና የጥገና ወጪዎች ብዙ ጊዜ ዝቅተኛ ናቸው.

!

ስርዓቶች ይበልጥ ውስብስብ ሲሆኑ የደህንነት እና የታዛቢነት ክፍተቶች ሊያድጉ ይችላሉ።

የትግበራ ፍኖተ ካርታ

1

ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ።

ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

2

ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች።

ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

3

ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል።

ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

4

ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ።

ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

ማሰስዎን ይቀጥሉ