GUIDE teknik

Slurm ngir kuréel yiy tàggat IA

Slurm njiitu liggéey la bu ubbeeku, mooy waajal ak doxal ay liggéey ci cluster ordinatër yu am doole, mu nekk tànneef biñ tànn ci tàggat IA yu mag.

Résumé

Slurm njiitu liggéey la bu ubbeeku, mooy waajal ak doxal ay liggéey ci cluster ordinatër yu am doole, mu nekk tànneef biñ tànn ci tàggat IA yu mag. Dafa am solo ndax dafay séddale tàggat yaram yu bari ci ay junni GPU.

Slurm ngir IA Training Clusters ab bloku tabax la bu am njeexital ci kalite model bi, njëgu infrastructure bi, yeexal bi, ak wóor ci escale bi.

Plongeur bu xóot

Slurm (Utilite Linux bu yomb ngir doxal ay jumtukaay) mingi cosaanoo ci super ordinatër te leegi mooy dooleel cluster yu gëna mag ci àdduna bi di tàggat IA. Jëfandikukat yi dañuy joxe script yu bari ak sbatch, laaj jumtukaay yu melni node ak GPU ak tegtal yu melni --gres = gpu: 8, ak raŋ Slurm, njëkkante, ak tàmbali liggéey bi. Launcher srun bi dafay jur ay liggéey yuñ boole ci node yi, yuy boole seen bopp ak kaadar yuñ séddale yu melni PyTorch DDP ak NCCL. Slurm dafay topp kontabilite ci jumtukaay yi, di tëral ay yamaleg séddoo ak xaaj, ba noppi di yoriinu kalendriye delloosi ngir dindi ay liggéey yu ndaw ci ay bërëb. Ci wàllu tàggat modelu frontiere, ekip yi dañuy wéeru ci Slurm ngir yor ay junni GPU, tàmbaliwaat ci checkpoint yi ginaaw bi node yi ñàkkee, ba noppi denc kàttan ngir daw ayu-bis yu bari.

Gis-gis xarala

Daemon bi yor Slurm (slurmctld) mooy jël dogal ci jamono ji ab ndawu slurmd ci node bu nekk di tàmbali ay liggéey ak di xamle tolluwaayu liggéey bi. Plugin Resource Generic (GRES) dafay topp GPU yi suko defee liggéey yi laaj leen ci anam wu leer. srun dafay tëral ay variable environmaa bi (rang, dayo àdduna, adres master) biy séddale bibliotek yiy jàng ngir tàmbali jokkoo NCCL. Backfill scheduling dafay tax liggéey yu gàtt yi teela dem, lépp bëgg ñu baña yeexal reservation yu gëna am solo, ba noppi jëfandikoo gi gëna yéeg.

Xam Slurm ngir clusters tàggat IA

Slurm njiitu liggéey la bu ubbeeku, mooy waajal ak doxal ay liggéey ci cluster ordinatër yu am doole, mu nekk tànneef biñ tànn ci tàggat IA yu mag. Dafa am solo ndax dafay séddale tàggat yaram yu bari ci ay junni GPU. Slurm ngir IA Training Clusters ab bloku tabax la bu am njeexital ci kalite model bi, njëgu infrastructure bi, yeexal bi, ak wóor ci escale bi. Ngir tabax xam-xam bu xóot, jàppal Slurm for AI Training Clusters ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ba noppi tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.

Ci jëf, ekip yu am doole yiy jëfandikoo Slurm ngir IA Training Clusters dañuy gëna baaxal architecture, done, ak tànneefi infrastructure ci wàllu wóor ak njëg. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jamano jooju, Optimisation benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.

njeextalu pexe

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw.

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal.

Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi.

Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ëlëgu Slurm ngir kuréel yiy tàggat IA

Slurm mingi wéy di yokk cloud-bursting, jàppale conteneur jaaraleko ci Pyxis ak Enroot, ak man-mani GPU yu gëna dëgër. Bi clusters IA di yokk ba yegg ci 100,000-plus GPUs, xaar tolerans bu gëna am doole ci njuumte, boole checkpoint-tambaliwaat ci saa si, ak liggéey yu elastik yuy soppi dayo bi ginaaw bi ñu defee njuumte. Mbootaay yu bari leegi dañuy doxal Slurm ci wetu wala ci suufu Kubernetes, te scheduler hybrid yi dañu bëgga boole njariñu xeetu HPC ak neexaayu cloud-native ngir tàggat yaram yu gëna mag.

Doxal ci àdduna dëgg

Benn laboratoire frontier dafa tàmbali tàggat ayu-bis yu bari ci ay junni GPU ak benn script buy laaj téemeeri node.

Benn gëstukat dafa joxe 'srun --gres=gpu:8' ngir jël juróom ñatti GPU ci benn node ngir jàngat PyTorch DDP.

Backfill scheduling slots ab liggéeyu evaluation bu gàtt ci GPUs yu inaxul yi ci jamono ji ab tàggat yaram bu mag buñ denc di xaar ngir tàmbali.

Ginaaw bi node bi jàllul ci diggu run bi, Slurm dafay delloosi liggéey bi ba noppi mu dellu ci checkpoint bi mujjee ci barabu tàmbaliwaat.

Modèlu jëfandikoo

Slurm ngir IA di tàggat clusters ci jëf

Benn laboratoire frontier dafa tàmbali tàggat ayu-bis yu bari ci ay junni GPU ak benn script buy laaj téemeeri node.

Lab frontier dafa dugal ay tàggat ayu-bis yu bari ci ay junni GPUs ak benn script sbatch buy laaj téemeeri node. Ekip yi dañuy faral di am njariñ yu gëna baax suñu leeralee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ak topp njuréefi produit yi ci diir bi ak e.

Slurm ngir IA di tàggat clusters ci jëf

Benn gëstukat dafa joxe 'srun --gres=gpu:8' ngir jël juróom ñatti GPU ci benn node ngir jàngat PyTorch DDP.

Gëstukat bi dafa joxe 'srun -gres = gpu: 8' ngir jàpp juróom ñatti GPU ci benn node ngir jàngat PyTorch DDP. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay threshold yu baax ci kanam, tëye yoon wi nit ñi di yokk ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njëgu njuumte yi ci diir bi.

Slurm ngir IA di tàggat clusters ci jëf

Backfill scheduling slots ab liggéeyu evaluation bu gàtt ci GPUs yu inaxul yi ci jamono ji ab tàggat yaram bu mag buñ denc di xaar ngir tàmbali.

Backfill scheduling slots ab liggéeyu evaluation bu gàtt ci GPUs yu amul benn liggéey, ci noonu ab tàggat yaram bu mag buñ denc di xaar ngir tàmbali. Ekip yi dañuy faral di am njariñ yu gëna baax suñu leeralee kalite ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

Slurm ngir IA di tàggat clusters ci jëf

Ginaaw bi node bi jàllul ci diggu run bi, Slurm dafay delloosi liggéey bi ba noppi mu dellu ci checkpoint bi mujjee ci barabu tàmbaliwaat.

Ginaaw bi benn node ñàkkee ci diggu-run, Slurm dafay laaj liggéey bi ba noppi mu dellu ci checkpoint bi mujjee ci barabu tàmbaliwaat. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

Risk yi ak balustrade yi

!

Optimize benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi.

!

Njëg li ñuy fay ci infrastructure yi ak ci toppatoo dañuy faral di suufeel.

!

Bu sistem yi di gëna xawa jafee xam, jafe-jafe yi am ci wàllu kaaraange ak seetlu mën nañu gëna bari.

Roadmap ngir samp gi

1

Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo.

Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

2

Benchmark ci biir sargal ak done yu dëggu.

Benchmark ci biir sargal ak done yu dëggu. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

3

Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi.

Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

4

Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale.

Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

Weyal di banneexu