तकनीकी गाइड

मल्टी-इंस्टेंस जीपीयू विभाजन

मल्टी-इंस्टेंस जीपीयू (एमआईजी) एक एनवीआईडीआईए तकनीक है जो एक भौतिक जीपीयू को कई अलग-अलग हार्डवेयर विभाजनों में विभाजित करती है।

सिंहावलोकन

मल्टी-इंस्टेंस जीपीयू (एमआईजी) एक एनवीआईडीआईए तकनीक है जो एक भौतिक जीपीयू को कई अलग-अलग हार्डवेयर विभाजनों में विभाजित करती है। यह मायने रखता है क्योंकि यह एक महंगे त्वरक को एक-दूसरे के साथ हस्तक्षेप किए बिना कई छोटे कार्यभार को पूरा करने की सुविधा देता है।

मल्टी-इंस्टेंस जीपीयू पार्टिशनिंग एक तकनीकी बिल्डिंग ब्लॉक है जो बड़े पैमाने पर मॉडल की गुणवत्ता, बुनियादी ढांचे की लागत, विलंबता और विश्वसनीयता को प्रभावित करता है।

गहरा गोता

NVIDIA A100 (एम्पीयर) के साथ पेश किया गया और H100 और नए डेटा-सेंटर GPU पर जारी रखा गया, MIG एक GPU को सात स्वतंत्र उदाहरणों में बनाता है। सॉफ़्टवेयर टाइम-स्लाइसिंग के विपरीत, एमआईजी वास्तविक हार्डवेयर अलगाव प्रदान करता है: प्रत्येक इंस्टेंस को अपने स्वयं के समर्पित स्ट्रीमिंग मल्टीप्रोसेसर (एसएम), एल2 कैश स्लाइस, मेमोरी कंट्रोलर और उच्च-बैंडविड्थ मेमोरी का एक निश्चित स्लाइस मिलता है। 40GB वाले A100 को सात 5GB इंस्टेंस या उससे कम बड़े इंस्टेंस में विभाजित किया जा सकता है। प्रत्येक विभाजन एक छोटे स्टैंडअलोन जीपीयू की तरह व्यवहार करता है, इसलिए एक उदाहरण में शोर या क्रैश होने वाला कार्य दूसरे को भूखा या भ्रष्ट नहीं कर सकता है। सेवा की यह गारंटीकृत गुणवत्ता एमआईजी को अनुमान सेवा, बहु-किरायेदार समूहों और विकास वातावरण के लिए आदर्श बनाती है जहां कई उपयोगकर्ता एक कार्ड साझा करते हैं।

तकनीकी अंतर्दृष्टि

एमआईजी जीपीयू के आंतरिक क्रॉसबार को भौतिक रूप से गेट करके काम करता है ताकि प्रत्येक इंस्टेंस के पास अपनी मेमोरी स्लाइस और एसएम के लिए एक निश्चित पथ हो। NVIDIA प्रोफाइल को 1g.5gb (एक कंप्यूट स्लाइस, 5GB) से लेकर 7g.40gb तक के अंशों के रूप में परिभाषित करता है। एक जीपीयू इंस्टेंस मेमोरी और एसएम को सुरक्षित रखता है; इसके भीतर एक कंप्यूट इंस्टेंस एसएम को और अधिक उप-विभाजित करता है। चूँकि विभाजन हार्डवेयर-प्रवर्तित हैं, दोष, ईसीसी त्रुटियाँ और मेमोरी बैंडविड्थ एक ही उदाहरण तक सीमित रहते हैं।

मल्टी-इंस्टेंस जीपीयू विभाजन में महारत हासिल करना

मल्टी-इंस्टेंस जीपीयू (एमआईजी) एक एनवीआईडीआईए तकनीक है जो एक भौतिक जीपीयू को कई अलग-अलग हार्डवेयर विभाजनों में विभाजित करती है। यह मायने रखता है क्योंकि यह एक महंगे त्वरक को एक-दूसरे के साथ हस्तक्षेप किए बिना कई छोटे कार्यभार को पूरा करने की सुविधा देता है। मल्टी-इंस्टेंस जीपीयू पार्टिशनिंग एक तकनीकी बिल्डिंग ब्लॉक है जो बड़े पैमाने पर मॉडल की गुणवत्ता, बुनियादी ढांचे की लागत, विलंबता और विश्वसनीयता को प्रभावित करता है। गहरी समझ बनाने के लिए, मल्टी-इंस्टेंस जीपीयू पार्टिशनिंग को एक ऑपरेटिंग मॉडल के रूप में मानें, न कि एक विशेषता के रूप में: वांछित परिणामों को परिभाषित करें, मान्यताओं को स्पष्ट करें, और जो सिस्टम विश्वसनीय रूप से कर सकता है उसे अलग करें जिसके लिए अभी भी विशेषज्ञ निर्णय की आवश्यकता है।

व्यवहार में, मल्टी-इंस्टेंस जीपीयू पार्टिशनिंग का उपयोग करने वाली मजबूत टीमें विश्वसनीयता और लागत के मुकाबले वास्तुकला, डेटा और बुनियादी ढांचे के विकल्पों का अनुकूलन करती हैं। वे स्पष्ट सफलता मानदंडों का दस्तावेजीकरण करते हैं, यथार्थवादी डेटा और वर्कफ़्लो के विरुद्ध परीक्षण करते हैं, और एक बार की बेंचमार्क जीत के बजाय देखे गए विफलता पैटर्न के आधार पर पुनरावृत्ति करते हैं। यहीं पर सैद्धांतिक समझ उत्पाद, नीति और संचालन में टिकाऊ क्षमता में बदल जाती है।

वास्तुकला संबंधी निर्णय वर्षों तक प्रदर्शन और परिचालन लागत को संचालित करते हैं। साथ ही, एक बेंचमार्क को अनुकूलित करने से व्यापक सिस्टम कमजोरियों को छुपाया जा सकता है। सबसे लचीला दृष्टिकोण प्रयोग की गति को शासन अनुशासन के साथ जोड़ना है: पायलट चलाना, साक्ष्य प्राप्त करना, निर्णय लॉग प्रकाशित करना, और मॉडल व्यवहार, उपयोगकर्ता अपेक्षाओं और नियामक आवश्यकताओं के विकसित होने पर सुरक्षा उपायों को लगातार अपडेट करना।

सामरिक प्रभाव

वास्तुकला संबंधी निर्णय वर्षों तक प्रदर्शन और परिचालन लागत को संचालित करते हैं।

वास्तुकला संबंधी निर्णय वर्षों तक प्रदर्शन और परिचालन लागत को संचालित करते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

तकनीकी शिक्षा टीमों को सही स्टैक चुनने में मदद करती है, न कि केवल नवीनतम स्टैक चुनने में।

तकनीकी शिक्षा टीमों को सही स्टैक चुनने में मदद करती है, न कि केवल नवीनतम स्टैक चुनने में। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

बेहतर इंजीनियरिंग विकल्प उत्पादन में विश्वसनीयता की घटनाओं को कम करते हैं।

बेहतर इंजीनियरिंग विकल्प उत्पादन में विश्वसनीयता की घटनाओं को कम करते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

मल्टी-इंस्टेंस जीपीयू विभाजन का भविष्य

जैसे-जैसे GPU 80GB, 141GB और उससे अधिक तक बढ़ते हैं, विभाजन अधिक आकर्षक हो जाता है क्योंकि व्यक्तिगत मॉडलों को अनुमान के लिए शायद ही कभी पूरे कार्ड की आवश्यकता होती है। सख्त कुबेरनेट्स और क्लाउड एकीकरण, नोड को ख़त्म किए बिना गतिशील पुनर्विभाजन, और बेहतर प्रोफ़ाइल की अपेक्षा करें। प्रतिस्पर्धी विक्रेता समान एसआर-आईओवी-शैली जीपीयू वर्चुअलाइजेशन का अनुसरण कर रहे हैं, और सर्वर रहित अनुमान प्लेटफॉर्म तेजी से कई मॉडलों को सघन रूप से पैक करने और निष्क्रिय कचरे को काटने के लिए विभाजन पर भरोसा कर रहे हैं।

वास्तविक विश्व कार्यान्वयन

एक क्लाउड प्रदाता एक A100 को सात उदाहरणों में विभाजित करता है ताकि प्रत्येक सात ग्राहकों को अनुमान के लिए एक गारंटीकृत, पृथक जीपीयू स्लाइस मिल सके।

एक विश्वविद्यालय अनुसंधान क्लस्टर प्रत्येक पीएचडी छात्र को पूरे कार्ड पर एकाधिकार करने के बजाय प्रोटोटाइप के लिए 10 जीबी एमआईजी उदाहरण देता है।

एक अनुमान सेवा कई छोटी भाषा और दृष्टि मॉडल को एक H100 पर पैक करती है, प्रत्येक पूर्वानुमानित विलंबता के साथ अपने स्वयं के विभाजन में।

कुबेरनेट्स क्लस्टर MIG इंस्टेंसेस को शेड्यूल करने योग्य संसाधनों के रूप में विज्ञापित करता है, इसलिए पॉड्स किसी भी अन्य संसाधन की तरह 'nvidia.com/mig-1g.5gb' का अनुरोध करते हैं।

कार्यान्वयन पैटर्न

अभ्यास में मल्टी-इंस्टेंस जीपीयू विभाजन

एक क्लाउड प्रदाता एक A100 को सात उदाहरणों में विभाजित करता है ताकि प्रत्येक सात ग्राहकों को अनुमान के लिए एक गारंटीकृत, पृथक जीपीयू स्लाइस मिल सके।

एक क्लाउड प्रदाता एक A100 को सात उदाहरणों में विभाजित करता है ताकि प्रत्येक सात ग्राहकों को अनुमान के लिए एक गारंटीकृत, पृथक जीपीयू स्लाइस मिले। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

अभ्यास में मल्टी-इंस्टेंस जीपीयू विभाजन

एक विश्वविद्यालय अनुसंधान क्लस्टर प्रत्येक पीएचडी छात्र को पूरे कार्ड पर एकाधिकार करने के बजाय प्रोटोटाइप के लिए 10 जीबी एमआईजी उदाहरण देता है।

एक विश्वविद्यालय अनुसंधान क्लस्टर प्रत्येक पीएचडी छात्र को पूरे कार्ड पर एकाधिकार करने के बजाय प्रोटोटाइप के लिए 10 जीबी एमआईजी उदाहरण देता है। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

अभ्यास में मल्टी-इंस्टेंस जीपीयू विभाजन

एक अनुमान सेवा कई छोटी भाषा और दृष्टि मॉडल को एक H100 पर पैक करती है, प्रत्येक पूर्वानुमानित विलंबता के साथ अपने स्वयं के विभाजन में।

एक अनुमान सेवा कई छोटे भाषा और दृष्टि मॉडल को एक H100 पर पैक करती है, प्रत्येक पूर्वानुमानित विलंबता के साथ अपने स्वयं के विभाजन में टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

अभ्यास में मल्टी-इंस्टेंस जीपीयू विभाजन

कुबेरनेट्स क्लस्टर MIG इंस्टेंसेस को शेड्यूल करने योग्य संसाधनों के रूप में विज्ञापित करता है, इसलिए पॉड्स किसी भी अन्य संसाधन की तरह 'nvidia.com/mig-1g.5gb' का अनुरोध करते हैं।

कुबेरनेट्स क्लस्टर एमआईजी उदाहरणों को शेड्यूल करने योग्य संसाधनों के रूप में विज्ञापित करता है, इसलिए पॉड्स किसी भी अन्य संसाधन की तरह 'nvidia.com/mig-1g.5gb' का अनुरोध करते हैं। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को पहले से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

जोखिम और रेलिंग

!

एक बेंचमार्क को अनुकूलित करने से व्यापक सिस्टम कमजोरियों को छुपाया जा सकता है।

!

बुनियादी ढांचे और रखरखाव की लागत को अक्सर कम करके आंका जाता है।

!

जैसे-जैसे सिस्टम अधिक जटिल होते जाएंगे सुरक्षा और अवलोकन संबंधी अंतराल बढ़ सकते हैं।

कार्यान्वयन रोडमैप

1

कार्यान्वयन से पहले विलंबता, गुणवत्ता और लागत लक्ष्य परिभाषित करें।

कार्यान्वयन से पहले विलंबता, गुणवत्ता और लागत लक्ष्य परिभाषित करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

2

यथार्थवादी लोड और डेटा स्थितियों के तहत बेंचमार्क।

यथार्थवादी लोड और डेटा स्थितियों के तहत बेंचमार्क। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

3

त्रुटियों, बहाव और उपयोगकर्ता प्रभाव के लिए उपकरण निगरानी।

त्रुटियों, बहाव और उपयोगकर्ता प्रभाव के लिए उपकरण निगरानी। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

4

स्केलिंग से पहले रोलबैक और घटना प्रतिक्रिया पथ तैयार करें।

स्केलिंग से पहले रोलबैक और घटना प्रतिक्रिया पथ तैयार करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

अन्वेषण करते रहें