የቴክኒክ መመሪያ

ለአይአይ ማሰልጠኛ ስብስቦች ግርግር

Slurm ከፍተኛ አፈጻጸም ባላቸው የኮምፒውተር ስብስቦች ላይ መርሐግብር የሚያወጣ እና የሚያስኬድ ክፍት ምንጭ የሥራ ጫና አስተዳዳሪ ነው፣ እና ለትልቅ AI ስልጠና ነባሪ ምርጫ ሆኗል።

አጠቃላይ እይታ

Slurm ከፍተኛ አፈጻጸም ባላቸው የኮምፒውተር ስብስቦች ላይ መርሐግብር የሚያወጣ እና የሚያስኬድ ክፍት ምንጭ የሥራ ጫና አስተዳዳሪ ነው፣ እና ለትልቅ AI ስልጠና ነባሪ ምርጫ ሆኗል። በሺዎች በሚቆጠሩ ጂፒዩዎች ውስጥ ግዙፍ የስልጠና ሂደቶችን በአስተማማኝ መልኩ ስለሚያሰራጭ አስፈላጊ ነው።

Slurm for AI Training Clusters የሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው።

ጥልቅ ዳይቭ

Slurm (ቀላል የሊኑክስ መገልገያ ለሀብት አስተዳደር) በሱፐር ኮምፒዩቲንግ የመነጨ ሲሆን አሁን ብዙዎቹን የአለም ትላልቅ የኤአይ ማሰልጠኛ ስብስቦችን ያበረታታል። ተጠቃሚዎች ባች ስክሪፕቶችን በsbatch ያስገባሉ፣ እንደ ኖዶች እና ጂፒዩዎች ካሉ መመሪያዎች ጋር እንደ --gres=gpu:8 እና Slurm queues ይጠይቃሉ፣ ቅድሚያ ይሰጣሉ እና ስራውን ያስጀምራሉ። የእሱ srun ማስጀመሪያ በመስቀለኛ መንገድ ላይ የተቀናጁ ሂደቶችን ያፈልቃል፣ እነዚህም በተፈጥሮ ከተከፋፈሉ እንደ ፒይቶርች ዲዲፒ እና NCCL ካሉ ማዕቀፎች ጋር ይጣመራሉ። Slurm የሀብት ሒሳብን ይከታተላል፣ ፍትሃዊ ድርሻን እና የክፍልፍል ገደቦችን ያስፈጽማል፣ እና አነስተኛ ስራዎችን ወደ ክፍተት ለማስገባት የኋላ ሙሌት መርሃ ግብርን ይቆጣጠራል። ለድንበር ሞዴል ስልጠና ቡድኖቹ በሺዎች የሚቆጠሩ ጂፒዩዎችን ለማስተዳደር በ Slurm ላይ ይተማመናሉ፣ የመስቀለኛ መንገድ አለመሳካቶችን ከፈተሹ በኋላ እንደገና ለመጀመር እና ለረጅም ጊዜ ለብዙ ሳምንት ሩጫዎች የተወሰነ አቅም ያስይዙ።

ቴክኒካዊ ግንዛቤ

Slurm controller daemon (slurmctld) የመርሐግብር ውሳኔዎችን ሲወስን በእያንዳንዱ መስቀለኛ መንገድ ላይ ያለ slurmd ወኪል ተግባራትን ሲጀምር እና ሁኔታውን ሪፖርት ያደርጋል። የጄኔሪክ ሪሶርስ (GRES) ፕለጊን ጂፒዩዎችን ይከታተላል ስለዚህ ስራዎች በግልጽ ይጠይቃቸዋል። srun የሥልጠና ቤተ መጻሕፍት የሚያሰራጩ የአካባቢ ተለዋዋጮችን (ደረጃ፣ የዓለም መጠን፣ ዋና አድራሻ) ያዘጋጃል። Backfill መርሐግብር ከፍተኛ ቅድሚያ የሚሰጣቸውን ቦታዎች እስካልዘገዩ ድረስ አጠር ያሉ ሥራዎች ቀደም ብለው እንዲሠሩ ያስችላቸዋል፣ ይህም አጠቃቀሙን ከፍ ያደርገዋል።

ለ AI የሥልጠና ክላስተር ማስተርስ

Slurm ከፍተኛ አፈጻጸም ባላቸው የኮምፒውተር ስብስቦች ላይ መርሐግብር የሚያወጣ እና የሚያስኬድ ክፍት ምንጭ የሥራ ጫና አስተዳዳሪ ነው፣ እና ለትልቅ AI ስልጠና ነባሪ ምርጫ ሆኗል። በሺዎች በሚቆጠሩ ጂፒዩዎች ውስጥ ግዙፍ የስልጠና ሂደቶችን በአስተማማኝ መልኩ ስለሚያሰራጭ አስፈላጊ ነው። Slurm for AI Training Clusters የሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው። ጥልቅ ግንዛቤን ለመገንባት፣ Slurm for AI Training Clustersን እንደ ኦፕሬሽን ሞዴል እንጂ አንድ ባህሪ አይደለም፡ የሚፈለጉትን ውጤቶች ይግለጹ፣ ግምቶችን ያብራሩ፣ እና ስርዓቱ የባለሙያዎችን ፍርድ ከሚያስፈልገው ነገር በአስተማማኝ ሁኔታ ለይ።

በተግባር፣ Slurm ለ AI ማሰልጠኛ ክላስተር የሚጠቀሙ ጠንካራ ቡድኖች አርክቴክቸር፣ ዳታ እና የመሰረተ ልማት ምርጫዎችን ከአስተማማኝነት እና ከወጪ ጋር ያሻሽላሉ። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. በተመሳሳይ ጊዜ፣ አንድ ቤንችማርክን ማሻሻል ሰፋ ያሉ የስርዓት ድክመቶችን መደበቅ ይችላል። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።

ስልታዊ ተጽእኖ

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ.

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል።

የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ.

የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

ለአይአይ ማሰልጠኛ ስብስቦች የ Slurm የወደፊት

Slurm የደመና-ፍንዳታ፣ የመያዣ ድጋፍ በPyxis እና Enroot እና ጥብቅ ጂፒዩ የሚያውቁ ባህሪያትን መጨመሩን ቀጥሏል። AI ዘለላዎች ወደ 100,000-ፕላስ ጂፒዩዎች ሲመዘኑ፣ ጠንከር ያለ የስህተት መቻቻል፣ ራስ-ሰር የፍተሻ ነጥብ-ዳግም ማስጀመሪያ ውህደት እና ከውድቀት በኋላ የሚለወጡ የመለጠጥ ስራዎች ይጠብቁ። ብዙ ድርጅቶች አሁን ከኩበርኔትስ ጎን ወይም በታች Slurm ን ያካሂዳሉ፣ እና የድብልቅ መርሐግብር አውጪዎች ዓላማቸው የHPC-style ቅልጥፍናን ከደመና-ተወላጅ ተለዋዋጭነት ለዘለዓለም ትልቅ የሥልጠና ሩጫዎች ማዋሃድ ነው።

የእውነተኛ-ዓለም አተገባበር

የድንበር ላብራቶሪ በብዙ ሺዎች በሚቆጠሩ ጂፒዩዎች ላይ ባለ አንድ ነጠላ ስክሪፕት በመቶዎች የሚቆጠሩ ኖዶችን የሚጠይቅ የብዙ ሳምንት የሥልጠና ሩጫ ይጀምራል።

አንድ ተመራማሪ ለPyTorch DDP ሙከራ በአንድ መስቀለኛ መንገድ ላይ ስምንት ጂፒዩዎችን ለመያዝ 'srun --gres=gpu:8' አስረክቧል።

Backfill መርሐግብር አጠር ያለ የግምገማ ሥራ ወደ ሥራ ፈት ጂፒዩዎች ያስቀምጣል። ትልቅ የተያዘ የሥልጠና ሩጫ ለመጀመር ይጠብቃል።

አንድ መስቀለኛ መንገድ በሩጫ አጋማሽ ላይ ካልተሳካ በኋላ፣ Slurm ስራውን ይጠይቃል እና እንደገና ከመጀመር ይልቅ ከቅርብ ጊዜው የፍተሻ ነጥብ ይቀጥላል።

የትግበራ ቅጦች

ለ AI የሥልጠና ስብስቦች በተግባር

የድንበር ላብራቶሪ በብዙ ሺዎች በሚቆጠሩ ጂፒዩዎች ላይ ባለ አንድ ነጠላ ስክሪፕት በመቶዎች የሚቆጠሩ ኖዶችን የሚጠይቅ የብዙ ሳምንት የሥልጠና ሩጫ ይጀምራል።

የድንበር ላብራቶሪ በብዙ ሳምንታት የሚቆይ የሥልጠና ሩጫ በሺዎች በሚቆጠሩ ጂፒዩዎች ውስጥ በአንድ sbatch ስክሪፕት በመቶዎች የሚቆጠሩ ኖዶችን የሚጠይቅ ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ መሻሻል መንገድን ሲይዙ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

ለ AI የሥልጠና ስብስቦች በተግባር

አንድ ተመራማሪ ለPyTorch DDP ሙከራ በአንድ መስቀለኛ መንገድ ላይ ስምንት ጂፒዩዎችን ለመያዝ 'srun --gres=gpu:8' አስረክቧል።

አንድ ተመራማሪ በአንድ መስቀለኛ መንገድ ላይ ስምንት ጂፒዩዎችን ለመያዝ 'srun -gres=gpu:8'ን ለፒቶርች ዲዲፒ ሙከራ ቡድኖቹ ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ መሻሻል መንገድን ይጠብቃሉ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

ለ AI የሥልጠና ስብስቦች በተግባር

Backfill መርሐግብር አጠር ያለ የግምገማ ሥራ ወደ ሥራ ፈት ጂፒዩዎች ያስቀምጣል። ትልቅ የተያዘ የሥልጠና ሩጫ ለመጀመር ይጠብቃል።

Backfill መርሐግብር ማስያዝ አጭር የግምገማ ሥራ ወደ ሥራ ፈት ጂፒዩዎች ሲያስገባ ትልቅ የተያዘ የሥልጠና ሩጫ ለመጀመር ሲጠብቅ ቡድኖቹ ብዙውን ጊዜ የጥራት ደረጃዎችን ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰውን ዕድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተሉ።

ለ AI የሥልጠና ስብስቦች በተግባር

አንድ መስቀለኛ መንገድ በሩጫ አጋማሽ ላይ ካልተሳካ በኋላ፣ Slurm ስራውን ይጠይቃል እና እንደገና ከመጀመር ይልቅ ከቅርብ ጊዜው የፍተሻ ነጥብ ይቀጥላል።

አንድ መስቀለኛ መንገድ በመሀል ሩጫ ካልተሳካ በኋላ Slurm ስራውን ይጠይቃል እና ቡድኖችን ከመጀመር ይልቅ ከቅርቡ የፍተሻ ነጥብ ይቀጥላል ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰው ልጅ መሻሻል መንገድን ይጠብቁ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተሉ።

አደጋዎች እና የጥበቃ መንገዶች

!

አንድ ቤንችማርክን ማሳደግ ሰፋ ያሉ የስርዓት ድክመቶችን ሊደብቅ ይችላል።

!

የመሠረተ ልማት እና የጥገና ወጪዎች ብዙ ጊዜ ዝቅተኛ ናቸው.

!

ስርዓቶች ይበልጥ ውስብስብ ሲሆኑ የደህንነት እና የታዛቢነት ክፍተቶች ሊያድጉ ይችላሉ።

የትግበራ ፍኖተ ካርታ

1

ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ።

ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

2

ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች።

ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

3

ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል።

ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

4

ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ።

ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

ማሰስዎን ይቀጥሉ