คู่มือทางเทคนิค

การหาปริมาณแบบจำลอง

การหาปริมาณโมเดลจะลดขนาดโครงข่ายประสาทเทียมโดยการจัดเก็บตัวเลขไว้ในบิตที่น้อยลง ดังนั้นโมเดลเดียวกันจึงทำงานได้เร็วขึ้นและบนฮาร์ดแวร์ที่เล็กกว่า

ภาพรวม

การหาปริมาณโมเดลจะลดขนาดโครงข่ายประสาทเทียมโดยการจัดเก็บตัวเลขไว้ในบิตที่น้อยลง ดังนั้นโมเดลเดียวกันจึงทำงานได้เร็วขึ้นและบนฮาร์ดแวร์ที่เล็กกว่า นี่คือเหตุผลหลักที่โมเดลขนาดใหญ่สามารถใส่ GPU แล็ปท็อป หรือแม้แต่โทรศัพท์ได้

Model Quantization เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

โดยปกติโมเดลที่ผ่านการฝึกอบรมจะจัดเก็บน้ำหนักแต่ละรายการเป็นตัวเลขทศนิยม 32 บิตหรือ 16 บิต การหาปริมาณจะแทนที่รูปแบบที่มีความแม่นยำต่ำกว่า เช่น จำนวนเต็ม 8 บิต (INT8) หรือค่า 4 บิต (INT4) ซึ่งตัดหน่วยความจำประมาณ 4x ถึง 8x โมเดลที่มีพารามิเตอร์ 7 หมื่นล้านพารามิเตอร์ที่ต้องการพื้นที่ประมาณ 140GB ใน 16 บิตสามารถลดลงได้เกือบ 35GB ที่ 4 บิต ซึ่งเหมาะสมกับ GPU สำหรับผู้บริโภคเพียงตัวเดียว การจับมีความแม่นยำ: การบีบค่าที่หลากหลายลงในที่เก็บข้อมูล 256 หรือ 16 จะสูญเสียรายละเอียด วิธีการสมัยใหม่ เช่น GPTQ, AWQ และรูปแบบ NF4 ที่ใช้ใน QLoRA จะเลือกปัจจัยการปรับขนาดอัจฉริยะและปกป้องน้ำหนักที่ละเอียดอ่อนที่สุด ดังนั้น การสูญเสียคุณภาพจึงมักจะเพียงเล็กน้อย การหาปริมาณคือสาเหตุที่เครื่องมืออย่าง llama.cpp และ Ollama สามารถเรียกใช้โมเดลที่มีความสามารถภายในเครื่องได้โดยไม่ต้องใช้ศูนย์ข้อมูล

ข้อมูลเชิงลึกทางเทคนิค

การหาปริมาณจะจับคู่ค่าจริงกับตารางจำนวนเต็มขนาดเล็กโดยใช้มาตราส่วนและจุดศูนย์: store_int = round(value / scale) + zero_point การเลือกขนาดบ่อถือเป็นเกมทั้งหมด มาตราส่วนต่อช่องหรือต่อกลุ่มจะแยกมาตราส่วนสำหรับเมทริกซ์น้ำหนักเป็นชิ้นๆ โดยรักษาความแม่นยำในส่วนที่สำคัญ การวัดปริมาณหลังการฝึกอบรมเพียงแปลงแบบจำลองที่เสร็จสมบูรณ์ ในขณะที่การฝึกอบรมที่คำนึงถึงปริมาณจะจำลองการปัดเศษระหว่างการฝึกอบรม เพื่อให้เครือข่ายเรียนรู้ที่จะยอมรับมัน ซึ่งมักจะให้ความแม่นยำบิตต่ำที่ดีกว่า

การเรียนรู้โมเดลการหาปริมาณ

การหาปริมาณโมเดลจะลดขนาดโครงข่ายประสาทเทียมโดยการจัดเก็บตัวเลขไว้ในบิตที่น้อยลง ดังนั้นโมเดลเดียวกันจึงทำงานได้เร็วขึ้นและบนฮาร์ดแวร์ที่เล็กกว่า นี่คือเหตุผลหลักที่โมเดลขนาดใหญ่สามารถใส่ GPU แล็ปท็อป หรือแม้แต่โทรศัพท์ได้ Model Quantization เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Model Quantization เป็นเพียงแบบจำลองการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Model Quantization จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการหาปริมาณแบบจำลอง

คาดว่าความแม่นยำที่ลดลงจะกลายเป็นปกติ การวิจัยกำลังผลักดันน้ำหนักแบบ 4 บิต 2 บิต และแม้กระทั่งไบนารี่ที่เชื่อถือได้ รวมถึงโครงร่างที่มีความแม่นยำแบบผสมที่ทำให้เลเยอร์ที่ละเอียดอ่อนสูงขึ้น ฮาร์ดแวร์มีดังต่อไปนี้: ขณะนี้ GPU และชิปโทรศัพท์มีหน่วยคณิตศาสตร์ INT8, INT4 และ FP8 ดั้งเดิมแล้ว รูปแบบเช่น FP8 และ MXFP4 มีจุดมุ่งหมายเพื่อรวมช่วงจำนวนทศนิยมกับขนาดของจำนวนเต็ม เมื่อรวมกับเทคนิคอย่าง QLoRA แล้ว การหาปริมาณจะทำให้โมเดลระดับแนวหน้ามีราคาถูกกว่าในการใช้งานและปรับแต่งบนอุปกรณ์ในชีวิตประจำวัน

การใช้งานจริงในโลกแห่งความเป็นจริง

ใช้งานรุ่น Llama 7B หรือ 13B บนแล็ปท็อปที่มี llama.cpp หรือ Ollama โดยใช้ไฟล์ GGUF 4 บิต

QLoRA ปรับแต่งโมเดลขนาดใหญ่บน GPU ตัวเดียวโดยคงน้ำหนักพื้นฐานไว้ใน NF4 4 บิต

การปรับใช้รุ่น INT8 บนโทรศัพท์ที่มีรันไทม์บนอุปกรณ์ เพื่อให้ผู้ช่วยทำงานแบบออฟไลน์และเป็นส่วนตัว

ให้บริการตำแหน่งข้อมูล API ที่ราคาถูกกว่า โดยการหาปริมาณ INT8/FP8 จะเพิ่มปริมาณงานเป็นสองเท่าโดยประมาณ และลดต้นทุนหน่วยความจำ

รูปแบบการดำเนินงาน

การหาปริมาณแบบจำลองในทางปฏิบัติ

ใช้งานรุ่น Llama 7B หรือ 13B บนแล็ปท็อปที่มี llama.cpp หรือ Ollama โดยใช้ไฟล์ GGUF 4 บิต

การใช้งานโมเดล Llama 7B หรือ 13B บนแล็ปท็อปที่มี llama.cpp หรือ Ollama โดยใช้ไฟล์ GGUF 4 บิต โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การหาปริมาณแบบจำลองในทางปฏิบัติ

QLoRA ปรับแต่งโมเดลขนาดใหญ่บน GPU ตัวเดียวโดยคงน้ำหนักพื้นฐานไว้ใน NF4 4 บิต

QLoRA การปรับแต่งโมเดลขนาดใหญ่บน GPU ตัวเดียวโดยการรักษาน้ำหนักพื้นฐานไว้ใน NF4 4 บิต โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับ Edge Case และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การหาปริมาณแบบจำลองในทางปฏิบัติ

การปรับใช้รุ่น INT8 บนโทรศัพท์ที่มีรันไทม์บนอุปกรณ์ เพื่อให้ผู้ช่วยทำงานแบบออฟไลน์และเป็นส่วนตัว

การปรับใช้โมเดล INT8 บนโทรศัพท์ที่มีรันไทม์บนอุปกรณ์ เพื่อให้ผู้ช่วยทำงานออฟไลน์และเป็นส่วนตัว ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การหาปริมาณแบบจำลองในทางปฏิบัติ

ให้บริการตำแหน่งข้อมูล API ที่ราคาถูกกว่า โดยการหาปริมาณ INT8/FP8 จะเพิ่มปริมาณงานเป็นสองเท่าโดยประมาณ และลดต้นทุนหน่วยความจำ

ให้บริการจุดสิ้นสุด API ที่ถูกกว่า โดยที่การหาปริมาณ INT8/FP8 จะเพิ่มปริมาณงานเป็นสองเท่าโดยประมาณและลดต้นทุนหน่วยความจำ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป