คู่มือทางเทคนิค

การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์

Multi-Instance GPU (MIG) เป็นเทคโนโลยี NVIDIA ที่แบ่ง GPU จริงตัวเดียวออกเป็นหลายพาร์ติชั่นฮาร์ดแวร์ที่แยกออกจากกัน

ภาพรวม

การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

เปิดตัวด้วย NVIDIA A100 (Ampere) และใช้งานต่อบน H100 และ GPU ศูนย์ข้อมูลรุ่นใหม่ MIG แยก GPU ออกเป็นอินสแตนซ์อิสระสูงสุดเจ็ดอินสแตนซ์ แตกต่างจากซอฟต์แวร์การแบ่งเวลา MIG ให้การแยกฮาร์ดแวร์อย่างแท้จริง: แต่ละอินสแตนซ์จะได้รับมัลติโปรเซสเซอร์สตรีมมิ่ง (SM), ชิ้นแคช L2, ตัวควบคุมหน่วยความจำ และชิ้นคงที่ของหน่วยความจำแบนด์วิธสูง A100 ที่มี 40GB สามารถแบ่งออกเป็นอินสแตนซ์ขนาด 5GB ได้เจ็ดอินสแตนซ์หรือใหญ่กว่านั้น แต่ละพาร์ติชั่นทำงานเหมือนกับ GPU แบบสแตนด์อโลนที่เล็กกว่า ดังนั้นงานที่ส่งเสียงดังหรือขัดข้องในอินสแตนซ์หนึ่งไม่สามารถอดอาหารหรือสร้างความเสียหายให้กับอีกอินสแตนซ์หนึ่งได้ คุณภาพของการบริการที่รับประกันนี้ทำให้ MIG เหมาะสำหรับการให้บริการการอนุมาน คลัสเตอร์ที่มีผู้เช่าหลายราย และสภาพแวดล้อมการพัฒนาที่ผู้ใช้จำนวนมากใช้การ์ดร่วมกัน

ข้อมูลเชิงลึกทางเทคนิค

MIG ทำงานโดยกั้นคานประตูภายในของ GPU เพื่อให้แต่ละอินสแตนซ์มีเส้นทางที่ตายตัวไปยังชิ้นส่วนหน่วยความจำและ SM ของตัวเอง NVIDIA กำหนดโปรไฟล์เป็นเศษส่วน เช่น 1g.5gb (หนึ่งชิ้นการประมวลผล 5GB) สูงสุด 7g.40gb อินสแตนซ์ GPU สงวนหน่วยความจำและ SM; ภายในนั้น Compute Instance จะแบ่งย่อย SM ออกไปอีก เนื่องจากพาร์ติชันนั้นบังคับใช้ด้วยฮาร์ดแวร์ ข้อบกพร่อง ข้อผิดพลาด ECC และแบนด์วิดท์หน่วยความจำจึงถูกจำกัดอยู่ในอินสแตนซ์เดียว

การเรียนรู้การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์

Multi-Instance GPU (MIG) เป็นเทคโนโลยี NVIDIA ที่แบ่ง GPU จริงตัวเดียวออกเป็นหลายพาร์ติชั่นฮาร์ดแวร์ที่แยกออกจากกัน สิ่งสำคัญคือช่วยให้ตัวเร่งความเร็วราคาแพงตัวหนึ่งสามารถรองรับเวิร์กโหลดเล็กๆ น้อยๆ จำนวนมากได้ในคราวเดียว โดยไม่รบกวนซึ่งกันและกัน การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการแบ่งพาร์ติชัน GPU แบบหลายอินสแตนซ์เป็นรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การแบ่งพาร์ติชัน GPU แบบหลายอินสแตนซ์จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการแบ่งพาร์ติชัน GPU หลายอินสแตนซ์

เมื่อ GPU ขยายเป็น 80GB, 141GB และมากกว่านั้น การแบ่งพาร์ติชั่นจะน่าสนใจยิ่งขึ้น เนื่องจากแต่ละรุ่นไม่จำเป็นต้องใช้การ์ดทั้งหมดในการอนุมาน คาดว่าจะมีการรวม Kubernetes และคลาวด์ที่เข้มงวดมากขึ้น การแบ่งพาร์ติชันแบบไดนามิกโดยไม่ทำให้โหนดเปลือง และโปรไฟล์ที่ละเอียดยิ่งขึ้น ผู้จำหน่ายที่แข่งขันกันกำลังแสวงหาการจำลองเสมือน GPU สไตล์ SR-IOV ที่คล้ายกัน และแพลตฟอร์มการอนุมานแบบไร้เซิร์ฟเวอร์พึ่งพาการแบ่งพาร์ติชันมากขึ้นเพื่อบรรจุโมเดลจำนวนมากไว้หนาแน่นและลดขยะที่ไม่ได้ใช้งาน

การใช้งานจริงในโลกแห่งความเป็นจริง

ผู้ให้บริการระบบคลาวด์แบ่ง A100 หนึ่งเครื่องออกเป็นเจ็ดอินสแตนซ์ ดังนั้นลูกค้าเจ็ดรายแต่ละรายจะได้รับชิ้นส่วน GPU ที่รับประกันและแยกส่วนสำหรับการอนุมาน

กลุ่มการวิจัยของมหาวิทยาลัยมอบอินสแตนซ์ MIG ขนาด 10GB แก่นักศึกษาปริญญาเอกแต่ละคนสำหรับการสร้างต้นแบบ แทนที่จะผูกขาดการ์ดทั้งหมด

บริการอนุมานได้รวมโมเดลภาษาและการมองเห็นขนาดเล็กจำนวนมากไว้ใน H100 ตัวเดียว โดยแต่ละโมเดลอยู่ในพาร์ติชันของตัวเองพร้อมเวลาแฝงที่คาดการณ์ได้

คลัสเตอร์ Kubernetes โฆษณาอินสแตนซ์ MIG ว่าเป็นทรัพยากรที่กำหนดเวลาได้ ดังนั้นพ็อดจึงขอ 'nvidia.com/mig-1g.5gb' เช่นเดียวกับทรัพยากรอื่นๆ

รูปแบบการดำเนินงาน

การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์ในทางปฏิบัติ

ผู้ให้บริการคลาวด์แบ่ง A100 หนึ่งเครื่องออกเป็นเจ็ดอินสแตนซ์ เพื่อให้ลูกค้าเจ็ดรายได้รับชิ้นส่วน GPU ที่แยกส่วนและรับประกันสำหรับการอนุมาน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์ในทางปฏิบัติ

กลุ่มการวิจัยของมหาวิทยาลัยมอบอินสแตนซ์ MIG ขนาด 10GB แก่นักศึกษาปริญญาเอกแต่ละคนสำหรับการสร้างต้นแบบ แทนที่จะผูกขาดการ์ดทั้งหมด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์ในทางปฏิบัติ

บริการอนุมานได้รวมโมเดลภาษาและการมองเห็นขนาดเล็กจำนวนมากไว้บน H100 หนึ่งตัว โดยแต่ละโมเดลอยู่ในพาร์ติชันของตัวเองพร้อมเวลาแฝงที่คาดการณ์ได้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์ในทางปฏิบัติ

คลัสเตอร์ Kubernetes โฆษณาอินสแตนซ์ MIG ว่าเป็นทรัพยากรแบบกำหนดเวลาได้ ดังนั้นพ็อดจึงขอ 'nvidia.com/mig-1g.5gb' เช่นเดียวกับทรัพยากรอื่นๆ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เกณฑ์มาตรฐาน AI

ใช้การประเมินอย่างเหมาะสมเมื่อเปรียบเทียบตัวเลือกทางเทคนิค

อ่านคู่มือ

การเรียนรู้แบบเสริมกำลัง

เจาะลึกถึงกลยุทธ์การฝึกอบรมทางเทคนิค

อ่านคู่มือ