الدليل الفني

SmoothQuant وتنشيط الكمي

SmoothQuant هي تقنية تجعل من الممكن ضغط نماذج اللغة الكبيرة إلى أعداد صحيحة 8 بت لكل من الأوزان والتنشيطات دون إعادة التدريب.

نظرة عامة

SmoothQuant هي تقنية تجعل من الممكن ضغط نماذج اللغة الكبيرة إلى أعداد صحيحة 8 بت لكل من الأوزان والتنشيطات دون إعادة التدريب. وهذا مهم لأن عمليات التنشيط في النماذج الكبيرة تحتوي على قيم متطرفة تدمر عادةً الرياضيات منخفضة الدقة، ويقوم SmoothQuant بترويضها.

يعد SmoothQuant وActivation Quantization بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

عندما تقوم بتقليص نموذج من أعداد صحيحة ذات 16 بت إلى أعداد صحيحة ذات 8 بت، يتم ضغط الأوزان بسهولة ولكن عمليات التنشيط تمثل مشكلة: بعض القنوات تحمل قيمًا أكبر من 10 إلى 100 مرة من البقية، وإجبارها على شبكة أعداد صحيحة خشنة يدمر الدقة. SmoothQuant، قدمه شياو وآخرون. في عام 2022، لاحظ أن الأوزان سلسة وسهلة القياس بينما تكون عمليات التنشيط شائكة. لذا فهو ينقل الصعوبة رياضيًا: فهو يقسم قنوات التنشيط على مقياس لكل قناة ويضرب الأوزان المقابلة بنفس المقياس. يتم إلغاء العمليتين، مما يترك مخرجات النموذج دون تغيير، ولكن الآن يقع كلا الموتدين في نطاقات ودية. والنتيجة هي استنتاج W8A8 (أوزان وتنشيطات 8 بت) مع فقدان دقة يقترب من الصفر وتسريع بمعدل 2x تقريبًا وتوفير في الذاكرة.

البصيرة الفنية

الحيلة الأساسية هي عامل تجانس لكل قناة يتم حسابه كـ s = max(|X|)^alpha / max(|W|)^(1-alpha). يتم قياس التنشيط بمقدار 1/s والأوزان بمقدار s، لذلك يتم الحفاظ على منتج المصفوفة XW. نظرًا لأن القياس يتم استيعابه دون اتصال بالإنترنت في أوزان الطبقة السابقة أو في عملية مدمجة، فإنه يضيف تكلفة وقت تشغيل صفر. يتحكم معامل ألفا الفائق (غالبًا 0.5) في مقدار العبء الخارجي الذي ينتقل من التنشيط إلى الأوزان.

إتقان SmoothQuant وتنشيط الكمي

SmoothQuant هي تقنية تجعل من الممكن ضغط نماذج اللغة الكبيرة إلى أعداد صحيحة 8 بت لكل من الأوزان والتنشيطات دون إعادة التدريب. وهذا مهم لأن عمليات التنشيط في النماذج الكبيرة تحتوي على قيم متطرفة تدمر عادةً الرياضيات منخفضة الدقة، ويقوم SmoothQuant بترويضها. يعد SmoothQuant وActivation Quantization بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع SmoothQuant وActivation Quantization كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم SmoothQuant وActivation Quantization على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل SmoothQuant وتنشيط الكمي

أثبتت SmoothQuant أن القيم المتطرفة للتنشيط قابلة للترحيل وليست حتمية، وهذه الفكرة تدعم الآن خدمة الإنتاج INT8 وFP8. توقع أن يتم دمج التجانس مع المخططات الدقيقة مثل التكميم لكل مجموعة، والقياس المتعلم، وأبحاث التنشيط 4 بت (على سبيل المثال، الأساليب الخارجية). مع نضوج أجهزة FP8 (Hopper، Blackwell)، سيستمر دمج موازنة أسلوب التجانس في خطوط أنابيب المترجم ومحرك الاستدلال بحيث يظل التكميم مجانيًا تقريبًا.

التنفيذ في العالم الحقيقي

تقديم LLM بمعلمة 70B في W8A8 على عدد أقل من وحدات معالجة الرسومات عن طريق خفض تكلفة الذاكرة ومضاعفة المصفوفة إلى النصف

تمكين استنتاج INT8 على نوى موتر NVIDIA Hopper/Blackwell التي تعمل أصلاً على تسريع العمليات الرياضية ذات الأعداد الصحيحة 8 بت

نشر نماذج الدردشة على نقاط نهاية سحابية محدودة التكلفة حيث تؤدي مضاعفة الإنتاجية إلى خفض فاتورة كل رمز بشكل مباشر

ضغط محولات التشفير للكلام أو الترجمة على الجهاز حيث تعمل نواة 8 بت بشكل أسرع وأكثر برودة

أنماط التنفيذ

SmoothQuant وتفعيل الكمي في الممارسة العملية

تقديم LLM بمعلمة 70B في W8A8 على عدد أقل من وحدات معالجة الرسومات عن طريق خفض تكلفة الذاكرة ومضاعفة المصفوفة إلى النصف.

تقديم LLM بمعلمة 70B في W8A8 على عدد أقل من وحدات معالجة الرسومات عن طريق خفض تكلفة الذاكرة وتكلفة مضاعفة المصفوفة إلى النصف، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

SmoothQuant وتفعيل الكمي في الممارسة العملية

تمكين استنتاج INT8 على نوى موتر NVIDIA Hopper/Blackwell التي تعمل أصلاً على تسريع العمليات الرياضية ذات الأعداد الصحيحة 8 بت.

تمكين استدلال INT8 على نوى موتر NVIDIA Hopper/Blackwell التي تعمل أصلاً على تسريع الرياضيات ذات الأعداد الصحيحة 8 بت، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

SmoothQuant وتفعيل الكمي في الممارسة العملية

نشر نماذج الدردشة على نقاط نهاية سحابية محدودة التكلفة حيث تؤدي مضاعفة الإنتاجية إلى خفض فاتورة كل رمز بشكل مباشر.

نشر نماذج الدردشة على نقاط نهاية سحابية محدودة التكلفة حيث تؤدي مضاعفة الإنتاجية بشكل مباشر إلى خفض فاتورة كل رمز مميز، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

SmoothQuant وتفعيل الكمي في الممارسة العملية

ضغط محولات التشفير للكلام أو الترجمة على الجهاز حيث تعمل النواة ذات 8 بت بشكل أسرع وأكثر برودة.

ضغط محولات التشفير للكلام أو الترجمة على الجهاز حيث تعمل نواة 8 بت بشكل أسرع وأكثر برودة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف