ภาพรวม
Multi-Instance GPU (MIG) เป็นเทคโนโลยี NVIDIA ที่แบ่ง GPU จริงตัวเดียวออกเป็นหลายพาร์ติชั่นฮาร์ดแวร์ที่แยกออกจากกัน สิ่งสำคัญคือช่วยให้ตัวเร่งความเร็วราคาแพงตัวหนึ่งสามารถรองรับเวิร์กโหลดเล็กๆ น้อยๆ จำนวนมากได้ในคราวเดียว โดยไม่รบกวนซึ่งกันและกัน
การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง
เจาะลึก
เปิดตัวด้วย NVIDIA A100 (Ampere) และใช้งานต่อบน H100 และ GPU ศูนย์ข้อมูลรุ่นใหม่ MIG แยก GPU ออกเป็นอินสแตนซ์อิสระสูงสุดเจ็ดอินสแตนซ์ แตกต่างจากซอฟต์แวร์การแบ่งเวลา MIG ให้การแยกฮาร์ดแวร์อย่างแท้จริง: แต่ละอินสแตนซ์จะได้รับมัลติโปรเซสเซอร์สตรีมมิ่ง (SM), ชิ้นแคช L2, ตัวควบคุมหน่วยความจำ และชิ้นคงที่ของหน่วยความจำแบนด์วิธสูง A100 ที่มี 40GB สามารถแบ่งออกเป็นอินสแตนซ์ขนาด 5GB ได้เจ็ดอินสแตนซ์หรือใหญ่กว่านั้น แต่ละพาร์ติชั่นทำงานเหมือนกับ GPU แบบสแตนด์อโลนที่เล็กกว่า ดังนั้นงานที่ส่งเสียงดังหรือขัดข้องในอินสแตนซ์หนึ่งไม่สามารถอดอาหารหรือสร้างความเสียหายให้กับอีกอินสแตนซ์หนึ่งได้ คุณภาพของการบริการที่รับประกันนี้ทำให้ MIG เหมาะสำหรับการให้บริการการอนุมาน คลัสเตอร์ที่มีผู้เช่าหลายราย และสภาพแวดล้อมการพัฒนาที่ผู้ใช้จำนวนมากใช้การ์ดร่วมกัน
ข้อมูลเชิงลึกทางเทคนิค
MIG ทำงานโดยกั้นคานประตูภายในของ GPU เพื่อให้แต่ละอินสแตนซ์มีเส้นทางที่ตายตัวไปยังชิ้นส่วนหน่วยความจำและ SM ของตัวเอง NVIDIA กำหนดโปรไฟล์เป็นเศษส่วน เช่น 1g.5gb (หนึ่งชิ้นการประมวลผล 5GB) สูงสุด 7g.40gb อินสแตนซ์ GPU สงวนหน่วยความจำและ SM; ภายในนั้น Compute Instance จะแบ่งย่อย SM ออกไปอีก เนื่องจากพาร์ติชันนั้นบังคับใช้ด้วยฮาร์ดแวร์ ข้อบกพร่อง ข้อผิดพลาด ECC และแบนด์วิดท์หน่วยความจำจึงถูกจำกัดอยู่ในอินสแตนซ์เดียว
การเรียนรู้การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์
Multi-Instance GPU (MIG) เป็นเทคโนโลยี NVIDIA ที่แบ่ง GPU จริงตัวเดียวออกเป็นหลายพาร์ติชั่นฮาร์ดแวร์ที่แยกออกจากกัน สิ่งสำคัญคือช่วยให้ตัวเร่งความเร็วราคาแพงตัวหนึ่งสามารถรองรับเวิร์กโหลดเล็กๆ น้อยๆ จำนวนมากได้ในคราวเดียว โดยไม่รบกวนซึ่งกันและกัน การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการแบ่งพาร์ติชัน GPU แบบหลายอินสแตนซ์เป็นรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การแบ่งพาร์ติชัน GPU แบบหลายอินสแตนซ์จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี
การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด
การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต
ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
ผู้ให้บริการระบบคลาวด์แบ่ง A100 หนึ่งเครื่องออกเป็นเจ็ดอินสแตนซ์ ดังนั้นลูกค้าเจ็ดรายแต่ละรายจะได้รับชิ้นส่วน GPU ที่รับประกันและแยกส่วนสำหรับการอนุมาน
กลุ่มการวิจัยของมหาวิทยาลัยมอบอินสแตนซ์ MIG ขนาด 10GB แก่นักศึกษาปริญญาเอกแต่ละคนสำหรับการสร้างต้นแบบ แทนที่จะผูกขาดการ์ดทั้งหมด
บริการอนุมานได้รวมโมเดลภาษาและการมองเห็นขนาดเล็กจำนวนมากไว้ใน H100 ตัวเดียว โดยแต่ละโมเดลอยู่ในพาร์ติชันของตัวเองพร้อมเวลาแฝงที่คาดการณ์ได้
คลัสเตอร์ Kubernetes โฆษณาอินสแตนซ์ MIG ว่าเป็นทรัพยากรที่กำหนดเวลาได้ ดังนั้นพ็อดจึงขอ 'nvidia.com/mig-1g.5gb' เช่นเดียวกับทรัพยากรอื่นๆ
รูปแบบการดำเนินงาน
การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์ในทางปฏิบัติ
ผู้ให้บริการระบบคลาวด์แบ่ง A100 หนึ่งเครื่องออกเป็นเจ็ดอินสแตนซ์ ดังนั้นลูกค้าเจ็ดรายแต่ละรายจะได้รับชิ้นส่วน GPU ที่รับประกันและแยกส่วนสำหรับการอนุมาน
ผู้ให้บริการคลาวด์แบ่ง A100 หนึ่งเครื่องออกเป็นเจ็ดอินสแตนซ์ เพื่อให้ลูกค้าเจ็ดรายได้รับชิ้นส่วน GPU ที่แยกส่วนและรับประกันสำหรับการอนุมาน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์ในทางปฏิบัติ
กลุ่มการวิจัยของมหาวิทยาลัยมอบอินสแตนซ์ MIG ขนาด 10GB แก่นักศึกษาปริญญาเอกแต่ละคนสำหรับการสร้างต้นแบบ แทนที่จะผูกขาดการ์ดทั้งหมด
กลุ่มการวิจัยของมหาวิทยาลัยมอบอินสแตนซ์ MIG ขนาด 10GB แก่นักศึกษาปริญญาเอกแต่ละคนสำหรับการสร้างต้นแบบ แทนที่จะผูกขาดการ์ดทั้งหมด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์ในทางปฏิบัติ
บริการอนุมานได้รวมโมเดลภาษาและการมองเห็นขนาดเล็กจำนวนมากไว้ใน H100 ตัวเดียว โดยแต่ละโมเดลอยู่ในพาร์ติชันของตัวเองพร้อมเวลาแฝงที่คาดการณ์ได้
บริการอนุมานได้รวมโมเดลภาษาและการมองเห็นขนาดเล็กจำนวนมากไว้บน H100 หนึ่งตัว โดยแต่ละโมเดลอยู่ในพาร์ติชันของตัวเองพร้อมเวลาแฝงที่คาดการณ์ได้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การแบ่งพาร์ติชัน GPU หลายอินสแตนซ์ในทางปฏิบัติ
คลัสเตอร์ Kubernetes โฆษณาอินสแตนซ์ MIG ว่าเป็นทรัพยากรที่กำหนดเวลาได้ ดังนั้นพ็อดจึงขอ 'nvidia.com/mig-1g.5gb' เช่นเดียวกับทรัพยากรอื่นๆ
คลัสเตอร์ Kubernetes โฆษณาอินสแตนซ์ MIG ว่าเป็นทรัพยากรแบบกำหนดเวลาได้ ดังนั้นพ็อดจึงขอ 'nvidia.com/mig-1g.5gb' เช่นเดียวกับทรัพยากรอื่นๆ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้
ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป
ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น
แผนงานการดำเนินงาน
กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน
กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง
เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้
การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด
เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น