GUIDE teknik

NVLink ak GPU dañuy boole

NVLink ak interconnects yi ko méngoo ñooy lëkkalekaay yu gaaw yiy may GPU yu bari ñu waxtaan seen biir ci saa si te gaaw.

Résumé

NVLink ak interconnects yi ko méngoo ñooy lëkkalekaay yu gaaw yiy may GPU yu bari ñu waxtaan seen biir ci saa si te gaaw. Dañu am solo ndax tàggat ak liggéey ci xeetu IA yi gëna mag dafay laaj téemeeri wala junni GPU ngir doxal ni benn gaawaay bu mag.

NVLink ak GPU Interconnects ay bloku tabax xarala yu am njeexital ci kalite model bi, njëgu infrastructure bi, yeexal bi, ak wóor ci eskaal bi.

Plongeur bu xóot

Benn GPU mënul tëye model yi gëna mag, moo tax dañu leen xaaj puce yu bari yu wara weccoo ay done saa yu nekk, lu ci melni poid, gradient, ak aktivasioŋ. Bus PCIe biñ miin dafa yeex lool, moo tax NVIDIA sos NVLink, muy lëkkalekaay GPU-to-GPU buy joxe bandwidth bu gëna rëy ak latency bu gëna néew. Chips NVSwitch dañuy yokk lii ci benn tissu suko defee GPU bu nekk ci serwër bi mëna yegg ci beneen bi ci gaawaay bu mat sëkk, mu soppi juróom ñatti GPU ci benn memory bu mag ak pool ordinatër. Ci wàllu rack, sistem yu melni NVL72 bu NVIDIA dañuy boole fukki-fukki GPU ci benn domen NVLink buñ boole. Lu weesu benn rack, xaralay reso yu melni InfiniBand ak Ethernet (dañuy faral di ànd ak RDMA) dañuy boole ay junni node ci benn cluster. Kalite interconnect yooyu dafay tënk ni model yi di yaatoo ak ni ñu gaawee tàggatoo.

Gis-gis xarala

NVLink dafay joxe yoon yuñ jagleel point-à-point ci diggante GPU yi ak bandwidth bu ëpp PCIe bi ak latency bu gëna ndaw, loolu mooy tax GPU yi di jàng seen memory melni dañu ci dëkk bi. NVSwitch dafay melni crossbar bu gaaw, suko defee GPU yépp ci benn node di jokkoo te duñu bloke ci bandwidth bu mat. Liggéeyukaay yu mbooloo yu melni all-reduce, yuy boole gradient yi ci GPU yi ci diiru tàggat, dañu gëna gaaw ci kaw tissu bii, moo tax bandwidth interconnect dafay am njeexital yu am solo ci ni tàggat yaram di doxee ci puce yu bari.

Xam NVLink ak GPU lëkkaloo

NVLink ak interconnects yi ko méngoo ñooy lëkkalekaay yu gaaw yiy may GPU yu bari ñu waxtaan seen biir ci saa si te gaaw. Dañu am solo ndax tàggat ak liggéey ci xeetu IA yi gëna mag dafay laaj téemeeri wala junni GPU ngir doxal ni benn gaawaay bu mag. NVLink ak GPU Interconnects ay bloku tabax xarala yu am njeexital ci kalite model bi, njëgu infrastructure bi, yeexal bi, ak wóor ci eskaal bi. Ngir tabax xam-xam bu xóot, jàppal NVLink ak GPU Interconnects ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ba noppi tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.

Ci jëf, ekip yu am doole yiy jëfandikoo NVLink ak GPU Interconnects dañuy gëna baaxal architecture, done, ak tànneefi infrastructure ci wàllu wóor ak njëg. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jamano jooju, Optimisation benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.

njeextalu pexe

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw.

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal.

Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi.

Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ëlëgu NVLink ak GPU lëkkaloo

Ginaaw model yi dañuy gëna bari ay serwër yu benn, lëkkaloo gi dafay nekk sistem bi. NVLink mingi wéy di am bandwidth ci jamono bu nekk, ba noppi domen NVLink yu mag yi (lu melni NVL72) dañuy gëna yokk limu GPU yiy doxalee ni benn. Xaarandi domen yu gëna yaatu yuñ boole, lëkkaloo bu gëna seere ci ordinatër ak reso, lëkkalekaay optik ngir wàññi doole ci distance, ak jeegoowu liggéeyukaay yi ngir ubbi lëkkaloo (lu melni UALink) ngir xëcc tissu yiñ moom. Scaling IA dafay gëna aju ci toxal ay done ci diggante puce yi ni ci puce yi ci seen bopp.

Doxal ci àdduna dëgg

Keppal juróom ñatti GPUs ci biir benn serwër (lu melni sistem NVIDIA DGX) jaaraleko ci NVSwitch ngir ñu bokk mémoire ak tàggat benn model bu mag ñoom ñaar.

Def lépp luy wàññi senkronizaasioŋ gradient ci GPU yi ci diiru tàggat buñ séddale, gaaw ci yaatuwaayu band NVLink.

Lëkkaloo ay fukki-fukki GPU ci sistem NVL72 bu yam ci rack ci benn domen NVLink buñ boole muy model yu am ay trillioŋu paramet.

Teg ay junni serveur GPU ci benn cluster di jëfandikoo InfiniBand wala RDMA-ci kaw-Ethernet ngir tàggat modelu fondasioŋ bu yaatu.

Modèlu jëfandikoo

NVLink ak GPU dañuy lëkkaloo ci jëf

Keppal juróom ñatti GPUs ci biir benn serwër (lu melni sistem NVIDIA DGX) jaaraleko ci NVSwitch ngir ñu bokk mémoire ak tàggat benn model bu mag ñoom ñaar.

Konekte jiroom ñatti GPUs ci biir benn serwër (lu melni NVIDIA DGX sistem) jaaraleko ci NVSwitch ngir ñu bokk memory ak tàggat benn model bu mag ñoom ñaar. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ak topp error time ak produit gains.

NVLink ak GPU dañuy lëkkaloo ci jëf

Def lépp luy wàññi senkronizaasioŋ gradient ci GPU yi ci diiru tàggat buñ séddale, gaaw ci yaatuwaayu band NVLink.

Def lépp luy wàññi synchronisation gradient ci GPUs ci diiru tàggat buñ séddale, gaaw ci NVLink bandwidth Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

NVLink ak GPU dañuy lëkkaloo ci jëf

Lëkkaloo ay fukki-fukki GPU ci sistem NVL72 bu yam ci rack ci benn domen NVLink buñ boole muy model yu am ay trillioŋu paramet.

Liggéeyu fukki-fukki GPU ci sistemu NVL72 bu rack ci benn domen NVLink buñ boole muy model yu am trillion-parametre. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay kalite ci kanam, tëye yoonu eskalaasioŋ nit ngir jafe-jafe yi, ba noppi topp njariñu liggéey ak njëgu njuumte ci diir bi.

NVLink ak GPU dañuy lëkkaloo ci jëf

Teg ay junni serveur GPU ci benn cluster di jëfandikoo InfiniBand wala RDMA-ci kaw-Ethernet ngir tàggat modelu fondasioŋ bu yaatu.

Liggéey ay junni serwëru GPU ci benn cluster di jëfandikoo InfiniBand wala RDMA-over-Ethernet ngir tàggat modelu fondasioŋ bu mag. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njuumte yi.

Risk yi ak balustrade yi

!

Optimize benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi.

!

Njëg li ñuy fay ci infrastructure yi ak ci toppatoo dañuy faral di suufeel.

!

Bu sistem yi di gëna xawa jafee xam, jafe-jafe yi am ci wàllu kaaraange ak seetlu mën nañu gëna bari.

Roadmap ngir samp gi

1

Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo.

Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

2

Benchmark ci biir sargal ak done yu dëggu.

Benchmark ci biir sargal ak done yu dëggu. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

3

Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi.

Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

4

Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale.

Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

Weyal di banneexu