คู่มือทางเทคนิค

แกนเทนเซอร์

Tensor Cores เป็นหน่วยฮาร์ดแวร์เฉพาะภายใน NVIDIA GPU สมัยใหม่ที่ดำเนินการเมทริกซ์คูณและสะสมอย่างรวดเร็วมาก

ภาพรวม

Tensor Cores เป็นหน่วยฮาร์ดแวร์เฉพาะภายใน NVIDIA GPU สมัยใหม่ที่ดำเนินการเมทริกซ์คูณและสะสมอย่างรวดเร็วมาก นี่เป็นเหตุผลหลักที่ทำให้ GPU ตัวเดียวสามารถฝึกและรันโครงข่ายประสาทเทียมขนาดใหญ่ได้เร็วกว่าการคำนวณทั่วไป

Tensor Cores เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

Tensor Core ซึ่งเปิดตัวพร้อมกับสถาปัตยกรรม Volta ในปี 2017 เป็นวงจรเฉพาะที่คำนวณการคูณเมทริกซ์ขนาดเล็กบวกกับการบวก (D = A x B + C) ในการดำเนินการครั้งเดียว แทนที่จะทำการคูณครั้งละหนึ่งคอร์บนคอร์ CUDA มาตรฐาน เนื่องจากแทบทุกเลเยอร์ของโครงข่ายประสาทเทียมลดการคูณเมทริกซ์ จึงตรงกับคณิตศาสตร์ที่ AI ต้องการจริงๆ GPU แต่ละรุ่นขยายสิ่งที่พวกเขาจัดการ: Volta ทำไทล์ 4x4 FP16 ในขณะที่สถาปัตยกรรม Ampere, Hopper และ Blackwell ในเวลาต่อมาได้เพิ่มรูปแบบที่มีความแม่นยำต่ำกว่า เช่น TF32, BF16, INT8, FP8 และ FP4 ความแม่นยำที่ลดลงหมายถึงจำนวนที่ประมวลผลต่อนาฬิกามากขึ้น ซึ่งช่วยเพิ่มปริมาณงานสำหรับการฝึกอบรมและการอนุมานได้อย่างมาก ขณะเดียวกันก็รักษาความแม่นยำที่ยอมรับได้

ข้อมูลเชิงลึกทางเทคนิค

Tensor Core จะคูณเมทริกซ์ขนาดเล็กสองตัวและสะสมผลลัพธ์ไว้ในขั้นตอนเดียว โดยใช้ประโยชน์จากข้อเท็จจริงที่ว่าค่าอินพุตเดียวกันจะถูกนำมาใช้ซ้ำในองค์ประกอบเอาต์พุตจำนวนมาก โดยทั่วไปจะอ่านอินพุตด้วยความแม่นยำลดลง (FP16, BF16 หรือ FP8) แต่จะสะสมผลรวมที่ทำงานด้วยความแม่นยำสูงกว่า (มักจะเป็น FP32) เพื่อจำกัดข้อผิดพลาดในการปัดเศษ ไลบรารีซอฟต์แวร์ เช่น cuBLAS และ cuDNN และเฟรมเวิร์ก เช่น PyTorch จะเรียงเมทริกซ์ขนาดใหญ่ลงในบล็อกขนาดเล็กเหล่านี้โดยอัตโนมัติ เพื่อให้โมเดลได้รับการเร่งความเร็วโดยไม่ต้องเขียนโค้ดด้วยตนเอง

การเรียนรู้เทนเซอร์คอร์

Tensor Cores เป็นหน่วยฮาร์ดแวร์เฉพาะภายใน NVIDIA GPU สมัยใหม่ที่ดำเนินการเมทริกซ์คูณและสะสมอย่างรวดเร็วมาก นี่เป็นเหตุผลหลักที่ทำให้ GPU ตัวเดียวสามารถฝึกและรันโครงข่ายประสาทเทียมขนาดใหญ่ได้เร็วกว่าการคำนวณทั่วไป Tensor Cores เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Tensor Cores เป็นเพียงโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Tensor Core จะเพิ่มประสิทธิภาพสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของเทนเซอร์คอร์

Tensor Cores มุ่งสู่ความแม่นยำที่ลดลงอย่างต่อเนื่อง: Hopper เพิ่ม FP8 และ Blackwell เปิดตัว FP4 4 บิตพร้อมการปรับขนาดที่จัดการด้วยฮาร์ดแวร์ โดยเพิ่มปริมาณงานเป็นสองเท่าโดยประมาณในแต่ละขั้นตอนสำหรับปริมาณงานที่ต้องใช้การอนุมานจำนวนมาก คาดหวังการสนับสนุนที่เข้มงวดยิ่งขึ้นสำหรับความกระจัดกระจาย (ข้ามน้ำหนักเป็นศูนย์) รูปแบบไมโครสเกลที่แนบปัจจัยขนาดเข้ากับบล็อกตัวเลขขนาดเล็ก และการบูรณาการที่ลึกยิ่งขึ้นกับระบบหน่วยความจำเพื่อให้คอร์ยังคงได้รับอาหาร เมื่อโมเดลเติบโตขึ้น เมทริกซ์เอ็นจิ้น (ไม่ใช่ความเร็วสัญญาณนาฬิกาดิบ) ยังคงเป็นสมรภูมิสำคัญสำหรับประสิทธิภาพของฮาร์ดแวร์ AI

การใช้งานจริงในโลกแห่งความเป็นจริง

ฝึกอบรมโมเดลภาษาขนาดใหญ่ เช่น หม้อแปลงแบบ GPT ซึ่งการคูณเมทริกซ์นับพันล้านครั้งต่อขั้นตอนทำงานบน Tensor Cores ใน BF16 หรือ FP8

เรียกใช้การอนุมานแบบเรียลไทม์สำหรับแชทบอทและเครื่องสร้างรูปภาพ โดยใช้การวัดปริมาณ INT8 หรือ FP8 เพื่อให้บริการผู้ใช้ต่อ GPU มากขึ้น

การเร่งความเร็ว NVIDIA DLSS ในวิดีโอเกม โดยโครงข่ายประสาทเทียมจะอัปสเกลเฟรมที่มีความละเอียดต่ำลงโดยใช้ Tensor Cores แต่ละเฟรม

เร่งการประมวลผลทางวิทยาศาสตร์ เช่น การพับโปรตีน (AlphaFold) และแบบจำลองสภาพอากาศที่ได้รับการจัดรูปแบบใหม่ให้เป็นปริมาณงานของระบบประสาทที่เน้นเมทริกซ์

รูปแบบการดำเนินงาน

เทนเซอร์คอร์ในทางปฏิบัติ

ฝึกอบรมโมเดลภาษาขนาดใหญ่ เช่น หม้อแปลงแบบ GPT ซึ่งการคูณเมทริกซ์นับพันล้านครั้งต่อขั้นตอนทำงานบน Tensor Cores ใน BF16 หรือ FP8

การฝึกอบรมโมเดลภาษาขนาดใหญ่ เช่น หม้อแปลงแบบ GPT ซึ่งการคูณเมทริกซ์นับพันล้านครั้งต่อขั้นตอนทำงานบน Tensor Core ในทีม BF16 หรือ FP8 มักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

เทนเซอร์คอร์ในทางปฏิบัติ

เรียกใช้การอนุมานแบบเรียลไทม์สำหรับแชทบอทและเครื่องสร้างรูปภาพ โดยใช้การวัดปริมาณ INT8 หรือ FP8 เพื่อให้บริการผู้ใช้ต่อ GPU มากขึ้น

การเรียกใช้การอนุมานแบบเรียลไทม์สำหรับแชทบอทและเครื่องสร้างรูปภาพโดยใช้การวัดปริมาณ INT8 หรือ FP8 เพื่อให้บริการผู้ใช้มากขึ้นต่อทีม GPU มักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

เทนเซอร์คอร์ในทางปฏิบัติ

การเร่งความเร็ว NVIDIA DLSS ในวิดีโอเกม โดยโครงข่ายประสาทเทียมจะอัปสเกลเฟรมที่มีความละเอียดต่ำลงโดยใช้ Tensor Cores แต่ละเฟรม

การเร่งความเร็ว NVIDIA DLSS ในวิดีโอเกม โดยที่โครงข่ายประสาทเทียมจะอัปสเกลเฟรมที่มีความละเอียดต่ำโดยใช้ Tensor Core แต่ละเฟรม ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับ Edge Case และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

เทนเซอร์คอร์ในทางปฏิบัติ

เร่งการประมวลผลทางวิทยาศาสตร์ เช่น การพับโปรตีน (AlphaFold) และแบบจำลองสภาพอากาศที่ได้รับการจัดรูปแบบใหม่ให้เป็นปริมาณงานของระบบประสาทที่เน้นเมทริกซ์

การเร่งความเร็วการประมวลผลทางวิทยาศาสตร์ เช่น การพับโปรตีน (AlphaFold) และแบบจำลองสภาพอากาศที่ได้รับการจัดรูปแบบใหม่เป็นปริมาณงานของนิวรัลที่มีเมทริกซ์หนัก ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับของมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป