የቴክኒክ መመሪያ

DeepSpeed እና Megatron ስልጠና ቁልል

DeepSpeed (Microsoft) እና ሜጋትሮን-ኤልኤም (NVIDIA) በሺዎች በሚቆጠሩ ጂፒዩዎች ውስጥ በቢሊዮኖች የሚቆጠሩ መመዘኛዎች ያላቸውን የሥልጠና ሞዴሎችን እውን የሚያደርጉ የሶፍትዌር ቁልል ናቸው።

አጠቃላይ እይታ

DeepSpeed (Microsoft) እና ሜጋትሮን-ኤልኤም (NVIDIA) በሺዎች በሚቆጠሩ ጂፒዩዎች ውስጥ በቢሊዮኖች የሚቆጠሩ መመዘኛዎች ያላቸውን የሥልጠና ሞዴሎችን እውን የሚያደርጉ የሶፍትዌር ቁልል ናቸው። እነሱ ከሌሉ የዛሬዎቹ የድንበር ሞዴሎች በቀላሉ ከማስታወስ ጋር ሊጣጣሙ ወይም በተመጣጣኝ ጊዜ ስልጠና ሊጨርሱ አይችሉም።

DeepSpeed ​​and Megatron Training Stacks የሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው።

ጥልቅ ዳይቭ

በአንድ ጂፒዩ ላይ ትልቅ ሞዴል ማሰልጠን የማይቻል ነው ምክንያቱም ክብደቶቹ፣ ቅልሞቹ እና አመቻቾች አይመጥኑም። እነዚህ ቁልል ስራውን በብዙ ጂፒዩዎች ይከፋፍሏቸዋል። ሜጋትሮን-ኤልኤም የ tensor parallelism በአቅኚነት ያበረከተ ሲሆን በእያንዳንዱ ሽፋን ውስጥ ያሉትን ነጠላ ማትሪክስ ብዜቶች በጂፒዩዎች ላይ በመቁረጥ እና የቧንቧ መስመር ትይዩ በተለያዩ ጂፒዩዎች ላይ ያስቀምጣል። የ DeepSpeed ​​ፊርማ አስተዋፅዖ ዜሮ (ዜሮ ተደጋጋሚነት አመቻች) ነው፣ ይህም አመቻቾችን ግዛቶችን፣ ድግግሞሾችን እና መመዘኛዎችን ከመድገም ይልቅ በመላ ጂፒዩዎች ላይ ያበላሻል፣ ይህም የጂፒዩ ማህደረ ትውስታን በሚያስደንቅ ሁኔታ ይቀንሳል። እንደ BLOOM-176B እና Megatron-Turing NLG ያሉ ሞዴሎችን ለማሰልጠን ሁለቱ ብዙውን ጊዜ (ሜጋትሮን-ዲፕስፒድ) ይጣመራሉ። እንዲሁም የተቀላቀሉ ትክክለኛነትን፣ የነቃ ፍተሻ ነጥቦችን እና ጭነትን ወደ ሲፒዩ ወይም NVMe ይጨምራሉ ግዙፍ ሞዴሎች በውስን ሃርድዌር ላይ ያሰለጥናሉ።

ቴክኒካዊ ግንዛቤ

ዜሮ የማህደረ ትውስታ ቁጠባዎችን ለመጨመር ሶስት እርከኖች አሉት፡ ደረጃ 1 ሻርድድ አመቻች ይላል፣ ደረጃ 2 ደግሞ ግርዶሾችን ይቆርጣል፣ እና ደረጃ 3 እራሳቸውን መለኪያዎችን ያዘጋጃል ፣ ወደፊት እና ወደ ኋላ በሚተላለፉበት ጊዜ በፍላጎት ይሰበስባቸዋል። ከ tensor parallelism (intra-layer) እና የቧንቧ መስመር ትይዩ (ኢንተር-ንብርብር) ጋር ተዳምሮ ይህ '3D parallelism' ይፈጥራል። ዋናው ውጥረት ከራስ በላይ የግንኙነት ነው፡ እያንዳንዱ የሻርድ ክፍፍል ከጂፒዩ ወደ ጂፒዩ ትራፊክ ይጨምራል፣ ስለዚህ መሐንዲሶች የNVLink እና InfiniBand አገናኞች በፍጥነት እንዲሞሉ ክፍፍሉን ያስተካክላሉ።

DeepSpeed እና Megatron የሥልጠና ቁልሎችን ማስተማር

DeepSpeed ​​(Microsoft) እና ሜጋትሮን-ኤልኤም (NVIDIA) በሺዎች በሚቆጠሩ ጂፒዩዎች ውስጥ በቢሊዮኖች የሚቆጠሩ መመዘኛዎች ያላቸውን የሥልጠና ሞዴሎችን እውን የሚያደርጉ የሶፍትዌር ቁልል ናቸው። እነሱ ከሌሉ የዛሬዎቹ የድንበር ሞዴሎች በቀላሉ ከማስታወስ ጋር ሊጣጣሙ ወይም በተመጣጣኝ ጊዜ ስልጠና ሊጨርሱ አይችሉም። DeepSpeed ​​and Megatron Training Stacks የሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው። ጥልቅ ግንዛቤን ለመገንባት DeepSpeed ​​and Megatron Training Stacksን እንደ ኦፕሬሽን ሞዴል ያዙ እንጂ አንድ ባህሪ አይደሉም፡ የሚፈለጉትን ውጤቶች ይግለጹ፣ ግምቶችን ያብራሩ እና ስርዓቱ አሁንም የባለሙያዎችን ፍርድ ከሚፈልገው ይለዩ።

በተግባር፣ DeepSpeed ​​እና Megatron Training Stacks የሚጠቀሙ ጠንካራ ቡድኖች አርክቴክቸር፣ ዳታ እና የመሰረተ ልማት ምርጫዎችን ከአስተማማኝነት እና ከዋጋ ጋር ያሻሽላሉ። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. በተመሳሳይ ጊዜ፣ አንድ ቤንችማርክን ማሻሻል ሰፋ ያሉ የስርዓት ድክመቶችን መደበቅ ይችላል። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።

ስልታዊ ተጽእኖ

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ.

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል።

የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ.

የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የDeepSpeed እና የሜጋትሮን ስልጠና ቁልል የወደፊት ዕጣ

በPyTorch ቤተኛ FSDP (Fully Sharded Data Parallel) ብዙ የዜሮ ሃሳቦችን ከያዘው፣ በምርምር ቁልል እና በዋና ማዕቀፎች መካከል ያለውን መስመር በማደብዘዝ ከፒቶርች ተወላጅ FSDP (Fully Sharded Data Parallel) ጋር ጥብቅ ውህደትን ይጠብቁ። በማጠናቀር የሚመሩ አቀራረቦች እና አውቶማቲክ ትይዩ እቅድ አውጪዎች ዓላማቸው በእጅ ማስተካከልን ለማስወገድ ነው። የሥልጠና ስብስቦች ወደ መቶ ሺዎች ወደሚቆጠሩ አፋጣኞች እያደጉ ሲሄዱ፣ ጥፋትን መቻቻል፣ የመለጠጥ ልኬትን እና ከኮምፒውተሬሽን ጋር መደራረብ ዋነኛ የምህንድስና ድንበሮች ሲሆኑ፣ እንደ ኤንቪዲ ብላክዌል ያሉ አዳዲስ ሃርድዌር እና ብጁ የሥልጠና ቺፖችን ከመደገፍ ጎን ለጎን።

የእውነተኛ-ዓለም አተገባበር

የ Megatron-DeepSpeed ​​ቁልል በመቶዎች በሚቆጠሩ ጂፒዩዎች ላይ በመጠቀም ክፍት ባለብዙ ቋንቋ BLOOM-176B ሞዴል ማሰልጠን።

Microsoft እና ኤንቪዲየ 530-ቢሊየን-ፓራሜትር ሜጋትሮን-ቱሪንግ ኤንኤልጂ ሞዴልን ከ3D ትይዩ ጋር እያሰለጠነ ነው።

ዜሮ-ኦፍሎድ ተመራማሪዎች አመቻቾችን ወደ ሲፒዩ ራም በማፍሰስ ባለብዙ-ቢሊዮን መለኪያዎች ሞዴሎችን በአንድ የስራ ጣቢያ ጂፒዩ ላይ እንዲያስተካክሉ ያስችላቸዋል።

በእነዚህ ቁልል ውስጥ የማግበር ፍተሻን በመጠቀም ረዣዥም የአውድ መስኮቶችን ለመግጠም ሁሉንም ከማከማቸት ይልቅ ማግበርን እንደገና በማስላት።

የትግበራ ቅጦች

DeepSpeed ​​እና Megatron የስልጠና ቁልል በተግባር

የ Megatron-DeepSpeed ​​ቁልል በመቶዎች በሚቆጠሩ ጂፒዩዎች ላይ በመጠቀም ክፍት ባለብዙ ቋንቋ BLOOM-176B ሞዴል ማሰልጠን።

የተከፈተውን ባለብዙ ቋንቋ BLOOM-176B ሞዴል በማሰልጠን በመቶዎች በሚቆጠሩ የጂፒዩዎች ጥምር የሜጋትሮን-DeepSpeed ​​ቁልል በመጠቀም ብዙ ጊዜ የተሻሉ ውጤቶችን ያገኛሉ ቡድኖች የጥራት ደረጃዎችን ከፊት ሲገልጹ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድን ሲያደርጉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት መከታተል።

DeepSpeed ​​እና Megatron የስልጠና ቁልል በተግባር

Microsoft እና ኤንቪዲየ 530-ቢሊየን-ፓራሜትር ሜጋትሮን-ቱሪንግ ኤንኤልጂ ሞዴልን ከ3D ትይዩ ጋር እያሰለጠነ ነው።

Microsoft እና NVIDIA የ530-ቢሊየን መለኪያ ሜጋትሮን-ቱሪንግ ኤንኤልጂ ሞዴልን ከ3D ትይዩነት ጋር ሲያሰለጥኑ ብዙውን ጊዜ የተሻሉ ውጤቶችን የሚያገኙ ሲሆን ከፊት ለፊት የጥራት ደረጃዎችን ሲወስኑ ፣ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

DeepSpeed ​​እና Megatron የስልጠና ቁልል በተግባር

ዜሮ-ኦፍሎድ ተመራማሪዎች አመቻቾችን ወደ ሲፒዩ ራም በማፍሰስ ባለብዙ-ቢሊዮን መለኪያዎች ሞዴሎችን በአንድ የስራ ጣቢያ ጂፒዩ ላይ እንዲያስተካክሉ ያስችላቸዋል።

ZeRO-Offload ለተመራማሪዎች የባለብዙ-ቢሊዮን መለኪያ ሞዴሎችን በአንድ የስራ ጣቢያ ጂፒዩ ላይ በጥሩ ሁኔታ እንዲያስተካክሉ መፍቀድ አመቻቾችን ወደ ሲፒዩ ራም ቡድኖች በማፍሰስ ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

DeepSpeed ​​እና Megatron የስልጠና ቁልል በተግባር

በእነዚህ ቁልል ውስጥ የማግበር ፍተሻን በመጠቀም ረዣዥም የአውድ መስኮቶችን ለመግጠም ሁሉንም ከማከማቸት ይልቅ ማግበርን እንደገና በማስላት።

በእነዚህ ቁልል ውስጥ የማግበር ፍተሻን በመጠቀም ሁሉንም ከማከማቸት ይልቅ ማግበርን እንደገና በማስላት ረዣዥም አውድ መስኮቶችን ለመግጠም ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድን ይጠብቁ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተሉ።

አደጋዎች እና የጥበቃ መንገዶች

!

አንድ ቤንችማርክን ማሳደግ ሰፋ ያሉ የስርዓት ድክመቶችን ሊደብቅ ይችላል።

!

የመሠረተ ልማት እና የጥገና ወጪዎች ብዙ ጊዜ ዝቅተኛ ናቸው.

!

ስርዓቶች ይበልጥ ውስብስብ ሲሆኑ የደህንነት እና የታዛቢነት ክፍተቶች ሊያድጉ ይችላሉ።

የትግበራ ፍኖተ ካርታ

1

ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ።

ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

2

ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች።

ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

3

ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል።

ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

4

ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ።

ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

ማሰስዎን ይቀጥሉ