الدليل الفني

GPTQ وAWQ التكميم بعد التدريب

GPTQ وAWQ هما طريقتان رائدتان لتقليص نماذج اللغة المدربة بالفعل إلى دقة 4 بت بحيث تعمل على أجهزة أصغر وأرخص.

نظرة عامة

GPTQ وAWQ هما طريقتان رائدتان لتقليص نماذج اللغة المدربة بالفعل إلى دقة 4 بت بحيث تعمل على أجهزة أصغر وأرخص. وهذا هو السبب وراء إمكانية تشغيل نموذج قادر على وحدة معالجة رسومات استهلاكية واحدة بدلاً من حامل مركز البيانات.

يعد تقدير ما بعد التدريب لـ GPTQ وAWQ بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

يقوم تكميم ما بعد التدريب (PTQ) بضغط النموذج النهائي دون إعادة تدريبه، ورسم أوزان عالية الدقة تصل إلى 4 بتات لربع الذاكرة تقريبًا. التحدي هو القيام بذلك دون تدمير الدقة. يقوم GPTQ (تحسين OBQ) بقياس الأوزان طبقة تلو الأخرى، باستخدام معلومات من الدرجة الثانية من مجموعة بيانات معايرة صغيرة لضبط الأوزان المتبقية والتعويض عن كل خطأ في التقريب. يأخذ AWQ (تكميم الوزن المدرك للتنشيط) زاوية مختلفة: فهو يلاحظ أن جزءًا صغيرًا من قنوات الوزن لها أهمية غير متناسبة، ويتم تحديدها من خلال النظر في أحجام التنشيط، وتحمي تلك القنوات البارزة عن طريق توسيع نطاقها بدلاً من تكميمها بقوة. يتيح كلاهما تشغيل نماذج مثل Llama بنظام 4 بت، وقد جعلتها أدوات مثل vLLM وllama.cpp وAutoGPTQ سائدة للاستدلال المحلي والفعال من حيث التكلفة.

البصيرة الفنية

يستخدم GPTQ تقريبًا لـ Hessian (انحناء الخسارة) لتحديد كيفية دفع أحد الأوزان لتقريب الوزن الآخر، مما يقلل من الخطأ الذي تم تقديمه. يتخطى AWQ معايير Hessians بالكامل: فهو يحسب عامل القياس لكل قناة بحيث تحافظ قنوات الوزن المهمة على دقتها الفعالة، ثم تقوم بالتكميم بشكل موحد. يحافظ كلاهما على عمليات التنشيط بدقة أعلى ويضغطان الأوزان فقط، نظرًا لأن الأوزان تهيمن على الذاكرة بينما يميل تكميم التنشيط إلى الإضرار بالدقة بشكل أكبر.

إتقان GPTQ وAWQ التكميم بعد التدريب

GPTQ وAWQ هما طريقتان رائدتان لتقليص نماذج اللغة المدربة بالفعل إلى دقة 4 بت بحيث تعمل على أجهزة أصغر وأرخص. وهذا هو السبب وراء إمكانية تشغيل نموذج قادر على وحدة معالجة رسومات استهلاكية واحدة بدلاً من حامل مركز البيانات. يعد تقدير ما بعد التدريب لـ GPTQ وAWQ بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع GPTQ وAWQ كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم GPTQ وAWQ Post-Training Quantization على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل GPTQ وAWQ التكميم بعد التدريب

يدفع التكميم أقل من 4 بتات نحو أنظمة 3 بت و2 بت ومختلطة الدقة، وغالبًا ما يتم دمجها مع التناثر. توقع اقترانًا أوثق مع محركات الخدمة، بحيث يعمل التكميم وضغط ذاكرة التخزين المؤقت KV وفك التشفير التخميني معًا. لقد أصبح دعم الأجهزة للتنسيقات منخفضة البت مثل NVFP4 وMXFP4 في طور النضج، وستقوم الأدوات الآلية بشكل متزايد باختيار عروض البت لكل طبقة. الهدف العام هو استخدام 4 بتات (وأقل) دون فقدان البيانات تقريبًا كإعداد افتراضي، مما يجعل النماذج القوية رخيصة الثمن للخدمة في كل مكان.

التنفيذ في العالم الحقيقي

تشغيل نموذج Llama ذو 70 مليار معلمة على وحدة معالجة رسومات استهلاكية واحدة سعة 24 جيجابايت باستخدام أوزان GPTQ ذات 4 بت.

يتم تقديم النماذج الكمية AWQ بإنتاجية عالية في vLLM لواجهات برمجة تطبيقات الإنتاج الفعالة من حيث التكلفة.

llama.cpp يستخدم أوزان GGUF الكمية لتشغيل نماذج اللغة محليًا على وحدة المعالجة المركزية للكمبيوتر المحمول.

تتيح مكتبات AutoGPTQ وAutoAWQ الخاصة بـ Hugging Face للمطورين تحديد حجم النموذج الذي تم تنزيله في بضعة أسطر من التعليمات البرمجية.

أنماط التنفيذ

GPTQ وAWQ التكميم بعد التدريب في الممارسة العملية

تشغيل نموذج Llama ذو 70 مليار معلمة على وحدة معالجة رسومات استهلاكية واحدة سعة 24 جيجابايت باستخدام أوزان GPTQ ذات 4 بت.

تشغيل نموذج Llama ذو 70 مليار معلمة على وحدة معالجة رسومات استهلاكية واحدة بسعة 24 جيجابايت باستخدام أوزان GPTQ ذات 4 بت. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

GPTQ وAWQ التكميم بعد التدريب في الممارسة العملية

يتم تقديم النماذج الكمية AWQ بإنتاجية عالية في vLLM لواجهات برمجة تطبيقات الإنتاج الفعالة من حيث التكلفة.

يتم تقديم نماذج AWQ الكمية بإنتاجية عالية في vLLM لواجهات برمجة التطبيقات (APIs) للإنتاج الفعال من حيث التكلفة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

GPTQ وAWQ التكميم بعد التدريب في الممارسة العملية

llama.cpp يستخدم أوزان GGUF الكمية لتشغيل نماذج اللغة محليًا على وحدة المعالجة المركزية للكمبيوتر المحمول.

llama.cpp باستخدام أوزان GGUF الكمية لتشغيل نماذج اللغة محليًا على جهاز كمبيوتر محمول، عادةً ما تحصل فرق وحدة المعالجة المركزية (CPU) على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

GPTQ وAWQ التكميم بعد التدريب في الممارسة العملية

تتيح مكتبات AutoGPTQ وAutoAWQ الخاصة بـ Hugging Face للمطورين تحديد حجم النموذج الذي تم تنزيله في بضعة أسطر من التعليمات البرمجية.

تسمح مكتبات AutoGPTQ وAutoAWQ الخاصة بـ Hugging Face للمطورين بتقدير حجم النموذج الذي تم تنزيله في بضعة أسطر من التعليمات البرمجية. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف