คู่มือทางเทคนิค

การเชื่อมต่อระหว่าง NVLink และ GPU

NVLink และการเชื่อมต่อระหว่างกันที่เกี่ยวข้องคือลิงก์ความเร็วสูงที่ช่วยให้ GPU จำนวนมากพูดคุยกันโดยตรงและรวดเร็ว

ภาพรวม

NVLink และการเชื่อมต่อระหว่างกันที่เกี่ยวข้องคือลิงก์ความเร็วสูงที่ช่วยให้ GPU จำนวนมากพูดคุยกันโดยตรงและรวดเร็ว สิ่งเหล่านี้มีความสำคัญเนื่องจากการฝึกฝนและการให้บริการโมเดล AI ที่ใหญ่ที่สุดต้องใช้ GPU นับร้อยหรือหลายพันตัวเพื่อทำหน้าที่เหมือนเครื่องเร่งความเร็วขนาดยักษ์ตัวเดียว

การเชื่อมต่อระหว่างกันของ NVLink และ GPU เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

GPU ตัวเดียวไม่สามารถรองรับรุ่นที่ใหญ่ที่สุดได้ ดังนั้นจึงถูกแบ่งออกเป็นชิปจำนวนมากที่ต้องแลกเปลี่ยนข้อมูลอย่างต่อเนื่อง เช่น น้ำหนัก การไล่ระดับสี และการเปิดใช้งาน บัส PCIe มาตรฐานช้าเกินไปสำหรับสิ่งนี้ ดังนั้น NVIDIA จึงสร้าง NVLink ซึ่งเป็นลิงก์ระหว่าง GPU กับ GPU โดยตรงที่ให้แบนด์วิธที่สูงกว่ามากและเวลาแฝงที่ต่ำกว่า ชิป NVSwitch ขยายสิ่งนี้ออกเป็นแฟบริคเพื่อให้ GPU ทุกตัวในเซิร์ฟเวอร์สามารถเข้าถึงกันและกันด้วยความเร็วสูงสุด โดยเปลี่ยน GPU แปดตัวให้เป็นหน่วยความจำขนาดใหญ่และกลุ่มการประมวลผลเดียว ในระดับแร็ค ระบบเช่น NVL72 ของ NVIDIA เชื่อมต่อ GPU หลายสิบตัวผ่านโดเมน NVLink ที่รวมเป็นหนึ่งเดียว นอกเหนือจากแร็คเดียว เทคโนโลยีเครือข่ายเช่น InfiniBand และอีเทอร์เน็ต (มักมี RDMA) จะเชื่อมโยงโหนดนับพันรายการไว้ในคลัสเตอร์ คุณภาพของการเชื่อมต่อระหว่างกันเหล่านี้จะจำกัดขนาดและความเร็วของโมเดลในการฝึกโดยตรง

ข้อมูลเชิงลึกทางเทคนิค

NVLink จัดเตรียมเลนแบบจุดต่อจุดโดยเฉพาะระหว่าง GPU ที่มีแบนด์วิธมากกว่า PCIe และเวลาแฝงที่ต่ำกว่า ทำให้ GPU อ่านหน่วยความจำของกันและกันได้เกือบจะเหมือนกับว่าอยู่ในเครื่อง NVSwitch ทำหน้าที่เหมือนคานประตูความเร็วสูง ดังนั้น GPU ทั้งหมดในโหนดจะสื่อสารแบบไม่ปิดกั้นที่แบนด์วิธเต็ม การดำเนินการโดยรวม เช่น all-reduce ซึ่งรวมการไล่ระดับของ GPU ในระหว่างการฝึก จะทำงานเร็วกว่ามากบน Fabric นี้ ซึ่งเป็นเหตุผลว่าทำไมแบนด์วิดท์ที่เชื่อมต่อถึงกันจึงมีอิทธิพลอย่างมากต่อขนาดการฝึกฝนในชิปหลายๆ ตัว

การเรียนรู้การเชื่อมต่อระหว่างกันของ NVLink และ GPU

NVLink และการเชื่อมต่อระหว่างกันที่เกี่ยวข้องคือลิงก์ความเร็วสูงที่ช่วยให้ GPU จำนวนมากพูดคุยกันโดยตรงและรวดเร็ว สิ่งเหล่านี้มีความสำคัญเนื่องจากการฝึกฝนและการให้บริการโมเดล AI ที่ใหญ่ที่สุดต้องใช้ GPU นับร้อยหรือหลายพันตัวเพื่อทำหน้าที่เหมือนเครื่องเร่งความเร็วขนาดยักษ์ตัวเดียว การเชื่อมต่อระหว่างกันของ NVLink และ GPU เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า NVLink และ GPU Interconnects เป็นรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ NVLink และ GPU Interconnects จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการเชื่อมต่อระหว่าง NVLink และ GPU

เนื่องจากโมเดลมีเซิร์ฟเวอร์มากกว่าเซิร์ฟเวอร์เดียว การเชื่อมต่อถึงกันจึงกลายเป็นระบบ NVLink ได้รับแบนด์วิธอย่างต่อเนื่องในแต่ละรุ่น และโดเมน NVLink ระดับแร็ค (เช่น NVL72) กำลังขยายจำนวน GPU ที่ทำงานเป็นหนึ่งเดียว คาดหวังโดเมนรวมที่ใหญ่กว่า การมีเพศสัมพันธ์ที่แน่นแฟ้นยิ่งขึ้นระหว่างการประมวลผลและเครือข่าย ลิงก์แบบออปติคอลเพื่อลดพลังงานในระยะไกล และความพยายามของอุตสาหกรรมในการสร้างมาตรฐานการเชื่อมต่อระหว่างกันแบบเปิด (เช่น UALink) เพื่อเป็นคู่แข่งกับแฟบริคที่เป็นกรรมสิทธิ์ การปรับขนาด AI ขึ้นอยู่กับการย้ายข้อมูลระหว่างชิปมากขึ้นเรื่อยๆ เช่นเดียวกับบนตัวชิปเอง

การใช้งานจริงในโลกแห่งความเป็นจริง

การเชื่อมต่อ GPU แปดตัวภายในเซิร์ฟเวอร์เดียว (เช่น ระบบ NVIDIA DGX) ผ่าน NVSwitch เพื่อแชร์หน่วยความจำและฝึกฝนโมเดลขนาดใหญ่หนึ่งตัวด้วยกัน

ดำเนินการซิงโครไนซ์การไล่ระดับสีแบบลดทั้งหมดบน GPU ในระหว่างการฝึกแบบกระจาย ซึ่งเร่งความเร็วด้วยแบนด์วิดท์ NVLink

การเชื่อมโยง GPU หลายสิบตัวในระบบ NVL72 ระดับแร็คเข้ากับโดเมน NVLink ที่รวมเป็นหนึ่งเดียวสำหรับโมเดลล้านล้านพารามิเตอร์

เชื่อมโยงเซิร์ฟเวอร์ GPU นับพันตัวเข้ากับคลัสเตอร์โดยใช้ InfiniBand หรือ RDMA-over-Ethernet สำหรับการฝึกฝนโมเดลพื้นฐานขนาดใหญ่

รูปแบบการดำเนินงาน

NVLink และ GPU Interconnects ในทางปฏิบัติ

การเชื่อมต่อ GPU แปดตัวภายในเซิร์ฟเวอร์เดียว (เช่น ระบบ NVIDIA DGX) ผ่าน NVSwitch เพื่อแชร์หน่วยความจำและฝึกฝนโมเดลขนาดใหญ่หนึ่งตัวด้วยกัน

การเชื่อมต่อ GPU แปดตัวภายในเซิร์ฟเวอร์เดียว (เช่น ระบบ NVIDIA DGX) ผ่าน NVSwitch เพื่อให้แชร์หน่วยความจำและฝึกฝนโมเดลขนาดใหญ่หนึ่งโมเดลร่วมกัน โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

NVLink และ GPU Interconnects ในทางปฏิบัติ

ดำเนินการซิงโครไนซ์การไล่ระดับสีแบบลดทั้งหมดบน GPU ในระหว่างการฝึกแบบกระจาย ซึ่งเร่งความเร็วด้วยแบนด์วิดท์ NVLink

การดำเนินการซิงโครไนซ์เกรเดียนต์แบบลดทั้งหมดบน GPU ในระหว่างการฝึกแบบกระจาย เร่งความเร็วด้วยแบนด์วิดท์ NVLink ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

NVLink และ GPU Interconnects ในทางปฏิบัติ

การเชื่อมโยง GPU หลายสิบตัวในระบบ NVL72 ระดับแร็คเข้ากับโดเมน NVLink ที่รวมเป็นหนึ่งเดียวสำหรับโมเดลล้านล้านพารามิเตอร์

การเชื่อมโยง GPU หลายสิบตัวในระบบ NVL72 ระดับแร็คให้เป็นโดเมน NVLink ที่รวมเป็นหนึ่งเดียวสำหรับโมเดลล้านล้านพารามิเตอร์ โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

NVLink และ GPU Interconnects ในทางปฏิบัติ

เชื่อมโยงเซิร์ฟเวอร์ GPU นับพันตัวเข้ากับคลัสเตอร์โดยใช้ InfiniBand หรือ RDMA-over-Ethernet สำหรับการฝึกฝนโมเดลพื้นฐานขนาดใหญ่

การเชื่อมโยงเซิร์ฟเวอร์ GPU นับพันตัวเข้ากับคลัสเตอร์โดยใช้ InfiniBand หรือ RDMA-over-Ethernet สำหรับการฝึกอบรมโมเดลพื้นฐานขนาดใหญ่ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป