Műszaki ÚTMUTATÓ

Többpéldányos GPU particionálás

A többpéldányos GPU (MIG) egy NVIDIA technológia, amely egyetlen fizikai GPU-t több elkülönített hardverpartícióra szeletel.

Áttekintés

A többpéldányos GPU (MIG) egy NVIDIA technológia, amely egyetlen fizikai GPU-t több elkülönített hardverpartícióra szeletel. Ez azért fontos, mert lehetővé teszi, hogy egy drága gyorsító egyszerre sok kis munkaterhelést szolgáljon ki anélkül, hogy azok zavarnák egymást.

A többpéldányos GPU-particionálás egy olyan műszaki építőelem, amely nagymértékben befolyásolja a modell minőségét, az infrastruktúra költségeit, a késleltetést és a megbízhatóságot.

Mély merülés

Az NVIDIA A100 (Ampere) segítségével bevezetett, majd a H100 és újabb adatközponti GPU-kon folytatódott MIG egy GPU-t akár hét független példányra hasít. A szoftveres időszeleteléstől eltérően a MIG valódi hardveres elkülönítést biztosít: minden példány saját dedikált streaming multiprocesszort (SM), L2 cache szeleteket, memóriavezérlőket és egy fix szeletet nagy sávszélességű memóriát kap. A 40 GB-os A100 hét 5 GB-os példányra osztható, vagy kevesebbre, nagyobbra. Minden partíció kisebb önálló GPU-ként viselkedik, így az egyik példányban zajos vagy összeomló feladat nem éheztetheti vagy ronthatja el a másikat. Ez a garantált szolgáltatásminőség teszi a MIG-et ideálissá következtetések kiszolgálásához, több bérlős fürtökhöz és olyan fejlesztői környezetekhez, ahol sok felhasználó osztozik egy kártyán.

Technikai betekintés

A MIG a GPU belső keresztlécének fizikai kapuzásával működik, így minden példánynak fix útvonala van a saját memóriaszeletéhez és az SM-ekhez. Az NVIDIA a profilokat olyan töredékekként határozza meg, mint az 1g,5 GB (egy számítási szelet, 5 GB) 7 g,40 GB-ig. A GPU-példány memóriát és SM-eket foglal le; ezen belül egy Compute Instance tovább osztja az SM-eket. Mivel a partíciók hardver által kényszerítettek, a hibák, az ECC hibák és a memória sávszélessége egyetlen példányra korlátozódik.

A többpéldányos GPU-particionálás elsajátítása

A többpéldányos GPU (MIG) egy NVIDIA technológia, amely egyetlen fizikai GPU-t több elkülönített hardverpartícióra szeletel. Ez azért fontos, mert lehetővé teszi, hogy egy drága gyorsító egyszerre sok kis munkaterhelést szolgáljon ki anélkül, hogy azok zavarnák egymást. A többpéldányos GPU-particionálás egy olyan műszaki építőelem, amely nagymértékben befolyásolja a modell minőségét, az infrastruktúra költségeit, a késleltetést és a megbízhatóságot. A mélyebb megértés érdekében a többpéldányos GPU-particionálást kezelje működési modellként, ne egyetlen funkcióként: határozza meg a kívánt eredményeket, tisztázza a feltételezéseket, és válassza el, hogy a rendszer mire képes megbízhatóan, és ami még szakértői megítélést igényel.

A gyakorlatban a többpéldányos GPU-particionálást használó erős csapatok optimalizálják az architektúrát, az adatokat és az infrastruktúrát a megbízhatóság és a költségek szempontjából. Dokumentálják az explicit sikerkritériumokat, tesztelik a valósághű adatokat és munkafolyamatokat, és a megfigyelt hibaminták alapján iterálnak, nem pedig egyszeri benchmark győzelmek alapján. Ez az a hely, ahol az elméleti megértés tartós képességgé válik a termék, a politika és a műveletek között.

Az építészeti döntések évekig növelik a teljesítményt és a működési költségeket. Ugyanakkor az egyik benchmark optimalizálása elrejtheti a rendszer általános gyengeségeit. A legrugalmasabb megközelítés a kísérleti sebesség és az irányítási fegyelem kombinálása: kísérleti kísérletek futtatása, bizonyítékok rögzítése, döntési naplók közzététele és a biztosítékok folyamatos frissítése a modell viselkedésének, a felhasználói elvárásoknak és a szabályozási követelményeknek megfelelően.

Stratégiai hatás

Az építészeti döntések évekig növelik a teljesítményt és a működési költségeket.

Az építészeti döntések évekig növelik a teljesítményt és a működési költségeket. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A technikai oktatás segít a csapatoknak a megfelelő verem kiválasztásában, nem csak a legújabb készletben.

A technikai oktatás segít a csapatoknak a megfelelő verem kiválasztásában, nem csak a legújabb készletben. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A jobb mérnöki döntések csökkentik a termelés megbízhatósági incidenseit.

A jobb mérnöki döntések csökkentik a termelés megbízhatósági incidenseit. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A többpéldányos GPU-particionálás jövője

Ahogy a GPU-k 80 GB-ra, 141 GB-ra és még tovább nőnek, a particionálás vonzóbbá válik, mivel az egyes modellekhez ritkán van szükség egy teljes kártyára a következtetésekhez. Szorosabb Kubernetes és felhőintegráció, dinamikus újraparticionálás a csomópont lemerítése nélkül, és finomabb profilok. A versengő gyártók hasonló SR-IOV-stílusú GPU-virtualizációt folytatnak, és a szerver nélküli következtetési platformok egyre inkább a particionálásra támaszkodnak, hogy sok modellt sűrűn becsomagoljanak és csökkentsék az üresjárati veszteséget.

Valós megvalósítás

A felhőszolgáltató egy A100-at hét példányra oszt fel, így hét ügyfél mindegyike garantált, izolált GPU-szeletet kap következtetések levonására.

Egy egyetemi kutatócsoport minden doktorandusznak 10 GB-os MIG-példányt ad a prototípus elkészítéséhez, ahelyett, hogy teljes kártyákat monopolizálna.

Egy következtetési szolgáltatás több kis nyelvi és látási modellt csomagol egy H100-ra, mindegyik saját partíciójában, kiszámítható késleltetéssel.

A Kubernetes-fürt a MIG-példányokat ütemezhető erőforrásként hirdeti, így a podok az „nvidia.com/mig-1g.5gb” címet kérik, mint bármely más erőforrás.

Megvalósítási minták

Többpéldányos GPU particionálás a gyakorlatban

A felhőszolgáltató egy A100-at hét példányra oszt fel, így hét ügyfél mindegyike garantált, izolált GPU-szeletet kap következtetések levonására.

A felhőszolgáltató egy A100-at hét példányra oszt fel, így hét ügyfél garantált, izolált GPU-szeletet kap a következtetések levonására. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, megtartják az emberi eszkalációs útvonalat a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket az idő múlásával.

Többpéldányos GPU particionálás a gyakorlatban

Egy egyetemi kutatócsoport minden doktorandusznak 10 GB-os MIG-példányt ad a prototípus elkészítéséhez, ahelyett, hogy teljes kártyákat monopolizálna.

Egy egyetemi kutatási klaszter minden doktorandusznak 10 GB-os MIG-példányt ad a prototípusok készítéséhez, ahelyett, hogy teljes kártyákat monopolizálnának. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböt, emberi eszkalációs utat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

Többpéldányos GPU particionálás a gyakorlatban

Egy következtetési szolgáltatás több kis nyelvi és látási modellt csomagol egy H100-ra, mindegyik saját partíciójában, kiszámítható késleltetéssel.

Egy következtetési szolgáltatás több kis nyelvi és képi modellt csomagol egy H100-ra, mindegyik saját partíciójában, kiszámítható késleltetéssel. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, emberi eszkalációs útvonalat tartanak az éles esetekben, és nyomon követik mind a termelékenységnövekedést, mind a hibaköltségeket az idő múlásával.

Többpéldányos GPU particionálás a gyakorlatban

A Kubernetes-fürt a MIG-példányokat ütemezhető erőforrásként hirdeti, így a podok az „nvidia.com/mig-1g.5gb” címet kérik, mint bármely más erőforrás.

A Kubernetes-fürt a MIG-példányokat ütemezhető erőforrásként hirdeti, így a podok az „nvidia.com/mig-1g.5gb” címet kérik, mint bármely más erőforrás A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, emberi eszkalációs útvonalat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

Kockázatok és védőkorlátok

!

Egy benchmark optimalizálása elrejtheti a rendszer általános hiányosságait.

!

Az infrastrukturális és karbantartási költségeket gyakran alábecsülik.

!

A biztonsági és megfigyelhetőségi hiányosságok a rendszerek bonyolultabbá válásával nőhetnek.

Végrehajtási ütemterv

1

A megvalósítás előtt határozza meg a késleltetési, minőségi és költségcélokat.

A megvalósítás előtt határozza meg a késleltetési, minőségi és költségcélokat. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

2

Benchmark reális terhelési és adatviszonyok mellett.

Benchmark reális terhelési és adatviszonyok mellett. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

3

Műszerfigyelés a hibák, az eltolódás és a felhasználói hatások szempontjából.

Műszerfigyelés a hibák, az eltolódás és a felhasználói hatások szempontjából. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

4

A méretezés előtt készítse elő a visszagörgetési és az incidensre adott válaszútvonalakat.

A méretezés előtt készítse elő a visszagörgetési és az incidensre adott válaszútvonalakat. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

Folytassa a felfedezést