คู่มือทางเทคนิค

เครือข่าย InfiniBand และ RDMA

InfiniBand คือการเชื่อมต่อความเร็วสูงและเวลาแฝงต่ำที่เชื่อมโยงเซิร์ฟเวอร์และ GPU ในคลัสเตอร์ AI และ RDMA ช่วยให้เครื่องหนึ่งอ่านหรือเขียนหน่วยความจำของอีกเครื่องหนึ่งโดยไม่ต้องเกี่ยวข้องกับ CPU

ภาพรวม

InfiniBand คือการเชื่อมต่อความเร็วสูงและเวลาแฝงต่ำที่เชื่อมโยงเซิร์ฟเวอร์และ GPU ในคลัสเตอร์ AI และ RDMA ช่วยให้เครื่องหนึ่งอ่านหรือเขียนหน่วยความจำของอีกเครื่องหนึ่งโดยไม่ต้องเกี่ยวข้องกับ CPU เมื่อรวมเข้าด้วยกันแล้ว สิ่งเหล่านี้คือระบบท่อที่คอยเก็บข้อมูล GPU นับพันตัวระหว่างการฝึกโมเดลขนาดใหญ่

InfiniBand และ RDMA Networking เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

เมื่อคุณฝึกโมเดลกับ GPU หลายพันตัว เครือข่ายมักจะกลายเป็นคอขวด ไม่ใช่ชิป InfiniBand เป็น switched Fabric ที่สร้างขึ้นโดยมีจุดประสงค์เพื่อสิ่งนี้ โดยให้แบนด์วิดท์ต่อลิงก์ในหลายร้อยกิกะบิตต่อวินาที (NDR ทำงานที่ 400 Gb/s) และมีเวลาแฝงระดับไมโครวินาที เคล็ดลับสำคัญคือ Remote Direct Memory Access (RDMA) ซึ่งย้ายข้อมูลโดยตรงระหว่างหน่วยความจำของสองโหนด โดยข้ามเคอร์เนลระบบปฏิบัติการและสำเนา CPU ที่ทำให้ TCP/IP ธรรมดาช้าลง 'การบายพาสเคอร์เนล' นี้จะทำให้วงจร CPU ว่างและลดเวลาแฝง InfiniBand ยังให้การควบคุมโฟลว์ของฮาร์ดแวร์สำหรับแฟบริคที่ไม่สูญเสียคุณภาพ และสวิตช์ Quantum ของ NVIDIA พร้อมอะแดปเตอร์ ConnectX ก็ครองซูเปอร์คอมพิวเตอร์ AI RoCE (RDMA บน Converged Ethernet) นำคุณประโยชน์ RDMA ที่คล้ายคลึงกันมาสู่เครือข่ายอีเทอร์เน็ต

ข้อมูลเชิงลึกทางเทคนิค

RDMA ทำงานผ่านคำกริยาและคู่คิว แอปพลิเคชันโพสต์คำของานเพื่อส่งและรับคิว อะแดปเตอร์เครือข่าย (HCA) จะอ่านและถ่ายโอนข้อมูลโดยตรงไปยังพื้นที่หน่วยความจำที่ลงทะเบียนล่วงหน้าและปักหมุดไว้บนโฮสต์ระยะไกล เนื่องจาก NIC จัดการการถ่ายโอนในฮาร์ดแวร์และเคอร์เนล OS ถูกข้าม จึงมีสำเนาข้อมูลเป็นศูนย์และไม่มีการขัดจังหวะ CPU ต่อแพ็กเก็ตสำหรับการถ่ายโอนจำนวนมาก การควบคุมการไหลตามเครดิตเลเยอร์ลิงก์ของ InfiniBand ป้องกันการล้นของบัฟเฟอร์ ทำให้แฟบริคไม่สูญเสียโดยไม่มีการส่งสัญญาณซ้ำ

การเรียนรู้ระบบเครือข่าย InfiniBand และ RDMA

InfiniBand คือการเชื่อมต่อความเร็วสูงและเวลาแฝงต่ำที่เชื่อมโยงเซิร์ฟเวอร์และ GPU ในคลัสเตอร์ AI และ RDMA ช่วยให้เครื่องหนึ่งอ่านหรือเขียนหน่วยความจำของอีกเครื่องหนึ่งโดยไม่ต้องเกี่ยวข้องกับ CPU เมื่อรวมเข้าด้วยกันแล้ว สิ่งเหล่านี้คือระบบท่อที่คอยเก็บข้อมูล GPU นับพันตัวระหว่างการฝึกโมเดลขนาดใหญ่ InfiniBand และ RDMA Networking เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า InfiniBand และ RDMA Networking เป็นเพียงโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ InfiniBand และ RDMA Networking จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของเครือข่าย InfiniBand และ RDMA

แบนด์วิดท์เพิ่มขึ้นอย่างต่อเนื่อง: XDR InfiniBand ตั้งเป้าไว้ที่ 800 Gb/s ต่อลิงก์ พร้อมแผนการทำงานที่ 1.6 Tb/s การแข่งขันทวีความรุนแรงมากขึ้นเมื่อ Ultra Ethernet Consortium ออกแบบอีเธอร์เน็ตที่ตรงกับ InfiniBand สำหรับปริมาณงาน AI และในขณะที่การประมวลผลในเครือข่าย (SHARP) ถ่ายข้อมูลทางคณิตศาสตร์โดยรวมไปยังสวิตช์เอง คาดว่าจะมีการรวม GPU เข้ากับเครือข่ายที่เข้มงวดยิ่งขึ้น การเชื่อมต่อแบบออปติคอลเพื่อลดพลังงาน และแฟบริคที่ปรับขนาดเป็นกลุ่มตัวเร่งความเร็วหลายแสนตัวเมื่อโมเดลระดับแนวหน้าเติบโตขึ้น

การใช้งานจริงในโลกแห่งความเป็นจริง

การเชื่อมต่อ GPU หลายพันตัวในซูเปอร์คอมพิวเตอร์ AI เพื่อให้ข้อมูลไล่ระดับสีระหว่างโหนดในหน่วยไมโครวินาทีระหว่างการฝึกแบบกระจาย

ปล่อยให้เซิร์ฟเวอร์หนึ่งอ่านหน่วยความจำของอีกเครื่องหนึ่งโดยตรง (RDMA) เพื่อเร่งระบบไฟล์และฐานข้อมูลแบบกระจายโดยไม่มีค่าใช้จ่ายของ CPU

การรัน NCCL แบบลดการดำเนินการทั้งหมดบน InfiniBand เพื่อซิงโครไนซ์น้ำหนักโมเดลทั่วทั้งคลัสเตอร์ GPU

การใช้ RoCE เพื่อนำการถ่ายโอนเวลาแฝงต่ำแบบ RDMA ไปยังเครือข่ายศูนย์ข้อมูลอีเธอร์เน็ตที่มีอยู่

รูปแบบการดำเนินงาน

InfiniBand และ RDMA Networking ในทางปฏิบัติ

การเชื่อมต่อ GPU หลายพันตัวในซูเปอร์คอมพิวเตอร์ AI เพื่อให้ข้อมูลไล่ระดับสีระหว่างโหนดในหน่วยไมโครวินาทีระหว่างการฝึกแบบกระจาย

การเชื่อมต่อ GPU หลายพันตัวในซูเปอร์คอมพิวเตอร์ AI เพื่อให้ข้อมูลไล่ระดับสีระหว่างโหนดในหน่วยไมโครวินาทีในระหว่างการฝึกอบรมแบบกระจาย ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

InfiniBand และ RDMA Networking ในทางปฏิบัติ

ปล่อยให้เซิร์ฟเวอร์หนึ่งอ่านหน่วยความจำของอีกเครื่องหนึ่งโดยตรง (RDMA) เพื่อเร่งระบบไฟล์และฐานข้อมูลแบบกระจายโดยไม่มีค่าใช้จ่ายของ CPU

การให้เซิร์ฟเวอร์หนึ่งอ่านหน่วยความจำของอีกเครื่องหนึ่งโดยตรง (RDMA) เพื่อเร่งความเร็วระบบไฟล์และฐานข้อมูลแบบกระจายโดยไม่มีโอเวอร์เฮดของ CPU ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

InfiniBand และ RDMA Networking ในทางปฏิบัติ

การรัน NCCL แบบลดการดำเนินการทั้งหมดบน InfiniBand เพื่อซิงโครไนซ์น้ำหนักโมเดลทั่วทั้งคลัสเตอร์ GPU

การเรียกใช้ NCCL แบบลดการดำเนินการทั้งหมดบน InfiniBand เพื่อซิงโครไนซ์น้ำหนักโมเดลทั่วทั้งคลัสเตอร์ GPU ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

InfiniBand และ RDMA Networking ในทางปฏิบัติ

การใช้ RoCE เพื่อนำการถ่ายโอนเวลาแฝงต่ำแบบ RDMA ไปยังเครือข่ายศูนย์ข้อมูลอีเธอร์เน็ตที่มีอยู่

การใช้ RoCE เพื่อนำการถ่ายโอนที่มีเวลาแฝงต่ำแบบ RDMA ไปยังเครือข่ายศูนย์ข้อมูลอีเทอร์เน็ตที่มีอยู่ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป