نظرة عامة
يعمل التكميم على تقليص نموذج الذكاء الاصطناعي عن طريق تخزين أرقامه بدقة أقل، لذلك يمكن أحيانًا تشغيل النموذج الذي يحتاج إلى وحدة معالجة رسومات لمركز البيانات على جهاز كمبيوتر محمول أو هاتف. إنها الحيلة الرئيسية التي تجعل نماذج اللغات الكبيرة رخيصة الثمن وسريعة بما يكفي لنشرها على نطاق واسع.
يعد التكميم جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشاءه وتصنيفه وتحويله على نطاق واسع.
الغوص العميق
الشبكة العصبية هي في الغالب كومة عملاقة من الأرقام تسمى الأوزان، والتي يتم تخزينها عادة كقيم فاصلة عائمة 16 أو 32 بت. يقوم التكميم بإعادة تخزين تلك الأوزان باستخدام عدد أقل من البتات، عادة 8 بت (INT8) أو حتى أعداد صحيحة 4 بت. يؤدي الانتقال من 16 بت إلى 4 بت إلى خفض الذاكرة بمقدار أربعة أضعاف تقريبًا، لذا فإن النموذج الذي يحتوي على 70 مليار معلمة والذي يحتاج إلى حوالي 140 جيجابايت عند 16 بت يمكن أن يتناسب مع حوالي 35 جيجابايت عند 4 بت. تتحرك الأرقام الأصغر أيضًا عبر الذاكرة بشكل أسرع، مما يؤدي عادةً إلى تسريع عملية الإنشاء. المهم هو الدقة: يؤدي ضغط نطاق واسع من القيم إلى مستويات قليلة إلى حدوث خطأ في التقريب. تقلل الأساليب الجيدة من هذه الخسارة عن طريق اختيار عوامل القياس بعناية وحماية الأوزان الأكثر حساسية، وبالتالي يتصرف النموذج بشكل متماثل تقريبًا أثناء استخدام جزء صغير من الموارد.
البصيرة الفنية
تحصل كل مجموعة من الأوزان على عامل مقياس يقوم بتعيين القيم الحقيقية على مجموعة صغيرة من الأعداد الصحيحة؛ الضرب بالمقياس يعيد بناء الرقم الأصلي تقريبًا. تقوم أساليب التكميم بعد التدريب، مثل GPTQ وAWQ، بتحليل مجموعة بيانات معايرة صغيرة لتحديد الأوزان الأكثر أهمية وتعيين المقاييس لتقليل خطأ الإخراج، بدلاً من تقريب كل شيء بشكل أعمى. غالبًا ما يتم الاحتفاظ بعمليات التنشيط بدقة أعلى لأنها تختلف بشكل أكبر في وقت التشغيل. والنتيجة هي نموذج يقوم بتخزين أعداد صحيحة ذات 4 بتات ولكنه يحسب النتائج قريبة جدًا من الإصدار الكامل الدقة.
إتقان التكميم
يعمل التكميم على تقليص نموذج الذكاء الاصطناعي عن طريق تخزين أرقامه بدقة أقل، لذلك يمكن أحيانًا تشغيل النموذج الذي يحتاج إلى وحدة معالجة رسومات لمركز البيانات على جهاز كمبيوتر محمول أو هاتف. إنها الحيلة الرئيسية التي تجعل نماذج اللغات الكبيرة رخيصة الثمن وسريعة بما يكفي لنشرها على نطاق واسع. يعد التكميم جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشاءه وتصنيفه وتحويله على نطاق واسع. لبناء فهم عميق، يجب التعامل مع التكميم كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تستخدم الفرق القوية حلقات التصميم الكمي، والاسترجاع، والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
تشغيل نموذج دردشة مثل Llama محليًا على وحدة معالجة الرسومات للمستهلك باستخدام ملفات GGUF أو GPTQ ذات 4 بت بدلاً من الحاجة إلى بطاقات مركز بيانات متعددة.
المساعدون الموجودون على الجهاز على الهواتف، حيث تسمح طرز 8 بت أو 4 بت بتشغيل ميزات الكلام والنص دون اتصال بالشبكة.
خفض تكاليف الاستدلال السحابي لروبوت دعم العملاء من خلال تقديم نموذج INT8، وتناسب المزيد من الطلبات على كل وحدة معالجة رسومات.
الأجهزة المتطورة مثل الكاميرات الذكية أو مستشعرات إنترنت الأشياء التي تعمل على تشغيل نماذج لغة رؤية مدمجة ومكممة ضمن حدود ذاكرة ضيقة.
أنماط التنفيذ
الكمي في الممارسة العملية
تشغيل نموذج دردشة مثل Llama محليًا على وحدة معالجة الرسومات للمستهلك باستخدام ملفات GGUF أو GPTQ ذات 4 بت بدلاً من الحاجة إلى بطاقات مركز بيانات متعددة.
تشغيل نموذج دردشة مثل Llama محليًا على وحدة معالجة الرسومات للمستهلك باستخدام ملفات GGUF أو GPTQ ذات 4 بت بدلاً من الحاجة إلى بطاقات مركز بيانات متعددة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الكمي في الممارسة العملية
المساعدون الموجودون على الجهاز على الهواتف، حيث تسمح طرز 8 بت أو 4 بت بتشغيل ميزات الكلام والنص دون اتصال بالشبكة.
المساعدون الموجودون على الجهاز على الهواتف، حيث تسمح نماذج 8 بت أو 4 بت بتشغيل ميزات الكلام والنص دون اتصال بالشبكة، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء مع مرور الوقت.
الكمي في الممارسة العملية
خفض تكاليف الاستدلال السحابي لروبوت دعم العملاء من خلال تقديم نموذج INT8، وتناسب المزيد من الطلبات على كل وحدة معالجة رسومات.
خفض تكاليف الاستدلال السحابي لروبوت دعم العملاء من خلال تقديم نموذج INT8، وتلبية المزيد من الطلبات على كل فريق GPU عادة ما تحصل على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الكمي في الممارسة العملية
الأجهزة المتطورة مثل الكاميرات الذكية أو مستشعرات إنترنت الأشياء التي تعمل على تشغيل نماذج لغة رؤية مدمجة ومكممة ضمن حدود ذاكرة ضيقة.
الأجهزة المتطورة مثل الكاميرات الذكية أو أجهزة استشعار إنترنت الأشياء التي تقوم بتشغيل نماذج لغة رؤية مدمجة ومكممة ضمن حدود ذاكرة ضيقة، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.
يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.
قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.
خارطة طريق التنفيذ
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.