คู่มือทางเทคนิค

FP8 และรูปแบบความแม่นยำต่ำ

FP8 เป็นรูปแบบตัวเลขทศนิยม 8 บิตที่ช่วยให้โมเดล AI เก็บน้ำหนักและคำนวณโดยใช้หน่วยความจำหนึ่งในสี่ของตัวเลขมาตรฐาน 32 บิต

ภาพรวม

FP8 เป็นรูปแบบตัวเลขทศนิยม 8 บิตที่ช่วยให้โมเดล AI เก็บน้ำหนักและคำนวณโดยใช้หน่วยความจำหนึ่งในสี่ของตัวเลขมาตรฐาน 32 บิต เป็นเคล็ดลับสำคัญในการทำให้โมเดลขนาดใหญ่ราคาถูกและเร็วกว่าในการฝึกฝนและให้บริการ

รูปแบบ FP8 และความแม่นยำต่ำเป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

โครงข่ายประสาทเทียมประกอบด้วยตัวเลขหลายพันล้านตัว โดยปกติแล้วตัวเลขเหล่านั้นจะใช้ตัวเลขละ 32 บิต (FP32) หรือ 16 บิต (FP16/BF16) FP8 ย่อขนาดให้เหลือเพียง 8 บิต โดยลดหน่วยความจำและแบนด์วิธลงประมาณครึ่งหนึ่งเมื่อเทียบกับ 16 บิต มีโครงร่าง FP8 ทั่วไปสองแบบ: E4M3 (4 เลขชี้กำลังบิต, 3 บิตแมนทิสซา) ให้ความแม่นยำมากกว่าแต่มีช่วงที่เล็กกว่า และ E5M2 (5 เลขชี้กำลัง 2 แมนทิสซา) ให้ช่วงที่กว้างกว่าแต่มีขั้นตอนที่หยาบกว่า ข้อเสียเปรียบคือความเที่ยงตรง: บิตที่น้อยลงหมายถึงข้อผิดพลาดในการปัดเศษ เพื่อให้มีความถูกต้องแม่นยำ เฟรมเวิร์กจะใช้ปัจจัยการปรับขนาดต่อเทนเซอร์หรือต่อบล็อกที่จะรีสเกลค่าให้อยู่ในช่วงที่ใช้งานได้ของ FP8 Hopper และ Blackwell GPU ของ NVIDIA เพิ่มฮาร์ดแวร์เอ็นจิ้นเมทริกซ์ FP8 ทำให้ใช้งานได้จริงสำหรับทั้งการฝึกอบรมและการอนุมาน รูปแบบที่ใหม่กว่า เช่น MXFP8, MXFP4 และ NVFP4 ดันให้ต่ำลงอีกด้วยบล็อกไมโครสเกลที่ใช้ร่วมกัน

ข้อมูลเชิงลึกทางเทคนิค

ความท้าทายของ FP8 คือช่วงไดนามิก ด้วยบิตเอ็กซ์โพเนนต์เพียงไม่กี่บิต การเปิดใช้งานขนาดใหญ่หรือเล็กจะล้นหรืออันเดอร์โฟลว์เป็นศูนย์ การแก้ไขกำลังปรับขนาด: คูณเมตริกซ์ด้วยปัจจัยเพื่อให้ค่าของมันลงในหน้าต่างตัวแทนของ FP8 ทำ FP8 คูณสะสม จากนั้นหารกลับออก ซึ่งมักจะสะสมผลรวมบางส่วนด้วยความแม่นยำสูงกว่า (FP16/FP32) โดยทั่วไป E4M3 ใช้สำหรับน้ำหนักและการเปิดใช้งาน E5M2 สำหรับการไล่ระดับสีที่ช่วงมีความสำคัญมากกว่าความแม่นยำ

การเรียนรู้รูปแบบ FP8 และความแม่นยำต่ำ

FP8 เป็นรูปแบบตัวเลขทศนิยม 8 บิตที่ช่วยให้โมเดล AI เก็บน้ำหนักและคำนวณโดยใช้หน่วยความจำหนึ่งในสี่ของตัวเลขมาตรฐาน 32 บิต เป็นเคล็ดลับสำคัญในการทำให้โมเดลขนาดใหญ่ราคาถูกและเร็วกว่าในการฝึกฝนและให้บริการ รูปแบบ FP8 และความแม่นยำต่ำเป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า FP8 และรูปแบบความแม่นยำต่ำเป็นรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ FP8 และรูปแบบความแม่นยำต่ำจะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ FP8 และรูปแบบความแม่นยำต่ำ

ความแม่นยำกำลังลดลง หลังจาก FP8 มาถึงรูปแบบไมโครสเกล 4 บิต (MXFP4, NVFP4) ที่อัดสเกลที่ใช้ร่วมกันขนาดเล็กต่อบล็อกขนาดเล็ก และตอนนี้ฮาร์ดแวร์ Blackwell ก็เร่งความเร็ว FP4 ได้โดยตรง คาดว่าจะมีสูตรที่มีความแม่นยำแบบผสมโดยที่เลเยอร์ต่างๆ ใช้ความกว้างบิตต่างกัน พร้อมการฝึกอบรมที่คำนึงถึงปริมาณที่ดีกว่า ดังนั้น 4 บิตจึงกลายเป็นค่าเริ่มต้นสำหรับการอนุมาน เกมสุดท้ายกำลังบีบโมเดลระดับแนวหน้าลงบนชิปที่น้อยลงและราคาถูกลงโดยไม่มีการสูญเสียคุณภาพที่วัดได้

การใช้งานจริงในโลกแห่งความเป็นจริง

การฝึกอบรมโมเดลภาษาขนาดใหญ่บน NVIDIA Hopper/Blackwell GPU โดยใช้ FP8 เพื่อเพิ่มปริมาณงานเป็นสองเท่าเมื่อเทียบกับ BF16

ให้บริการการอนุมานแชทบอทใน FP8 ดังนั้นโมเดลจึงเหมาะกับ GPU น้อยลงและตอบคำขอต่อวินาทีได้มากขึ้น

การใช้ E5M2 สำหรับการสื่อสารแบบไล่ระดับระหว่างการฝึกแบบกระจายเพื่อลดแบนด์วิดท์เครือข่ายระหว่างโหนด

การปรับใช้โมเดลเชิงปริมาณ MXFP4/NVFP4 เพื่อให้พอดีกับโมเดลระดับแนวหน้าบน GPU หน่วยความจำสูงตัวเดียวเพื่อการอนุมานที่ถูกกว่า

รูปแบบการดำเนินงาน

FP8 และรูปแบบความแม่นยำต่ำในทางปฏิบัติ

การฝึกอบรมโมเดลภาษาขนาดใหญ่บน NVIDIA Hopper/Blackwell GPU โดยใช้ FP8 เพื่อเพิ่มปริมาณงานเป็นสองเท่าเมื่อเทียบกับ BF16

การฝึกอบรมโมเดลภาษาขนาดใหญ่บน NVIDIA Hopper/Blackwell GPU โดยใช้ FP8 เพื่อเพิ่มปริมาณงานเป็นสองเท่าเมื่อเทียบกับทีม BF16 มักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

FP8 และรูปแบบความแม่นยำต่ำในทางปฏิบัติ

ให้บริการการอนุมานแชทบอทใน FP8 ดังนั้นโมเดลจึงเหมาะกับ GPU น้อยลงและตอบคำขอต่อวินาทีได้มากขึ้น

ให้บริการการอนุมานแชทบอทใน FP8 ดังนั้นโมเดลจึงเหมาะกับ GPU น้อยลงและตอบคำขอได้มากขึ้นต่อวินาที โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

FP8 และรูปแบบความแม่นยำต่ำในทางปฏิบัติ

การใช้ E5M2 สำหรับการสื่อสารแบบไล่ระดับระหว่างการฝึกแบบกระจายเพื่อลดแบนด์วิดท์เครือข่ายระหว่างโหนด

การใช้ E5M2 สำหรับการสื่อสารแบบไล่ระดับระหว่างการฝึกอบรมแบบกระจายเพื่อลดแบนด์วิดท์เครือข่ายระหว่างโหนด โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

FP8 และรูปแบบความแม่นยำต่ำในทางปฏิบัติ

การปรับใช้โมเดลเชิงปริมาณ MXFP4/NVFP4 เพื่อให้พอดีกับโมเดลระดับแนวหน้าบน GPU หน่วยความจำสูงตัวเดียวเพื่อการอนุมานที่ถูกกว่า

การปรับใช้โมเดลเชิงปริมาณ MXFP4/NVFP4 เพื่อให้พอดีกับโมเดลระดับแนวหน้าบน GPU หน่วยความจำสูงเดี่ยวสำหรับการอนุมานที่ถูกกว่า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป