الدليل الفني

تقطير المعرفة

يقوم تقطير المعرفة بتدريب نموذج "الطالب" الصغير على تقليد نموذج "المعلم" الكبير والدقيق.

نظرة عامة

يقوم تقطير المعرفة بتدريب نموذج "الطالب" الصغير على تقليد نموذج "المعلم" الكبير والدقيق. إنه أمر مهم لأنه يقلص النماذج القوية بحيث يتم تشغيلها بسعر رخيص على الهواتف والخوادم مع الحفاظ على قدر كبير من الدقة.

يعد تقطير المعرفة بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

النماذج الكبيرة دقيقة ولكنها بطيئة ومكلفة في النشر. يقوم تقطير المعرفة بنقل قدراتهم إلى نموذج مدمج من خلال جعل الطالب يتعلم من مخرجات المعلم وليس فقط من الملصقات الصلبة. الفكرة الأساسية التي توصل إليها هينتون وزملاؤه هي أن التوزيع الاحتمالي الكامل للمعلم يحمل "معرفة مظلمة": فحتى عندما يتنبأ بكلمة "كلب"، فإن الاحتمالات النسبية لكلمة "ذئب" مقابل "سيارة" تكشف كيف يرى المعلم أوجه التشابه. يؤدي تخفيف هذه الاحتمالات بدرجة الحرارة إلى كشف هذا الهيكل، ويتم تدريب الطالب على مطابقته، غالبًا جنبًا إلى جنب مع التسميات الحقيقية. والنتيجة هي نموذج أصغر وأسرع يعمم بشكل أفضل من النموذج الذي تم تدريبه على الملصقات وحدها. DistilBERT و TinyBERT هما نموذجان معروفان للغة المقطرة.

البصيرة الفنية

تجمع الخسارة الكلاسيكية بين مصطلح التقطير (اختلاف KL بين الاحتمالات المخففة للطالب والمعلم) مع إنتروبيا متقاطعة قياسية على التسميات الحقيقية. يستخدم التليين درجة حرارة T في softmax: تعمل T الأعلى على تسطيح التوزيع بحيث تصبح أوجه التشابه الصغيرة بين الفئات إشارات قابلة للتعلم؛ عادة ما يتم قياس تدرج التقطير بواسطة T-squared. تتجاوز المتغيرات المخرجات: يطابق التقطير المبني على الميزات الطبقات المخفية المتوسطة، ويطابق التقطير المبني على العلاقات العلاقات بين الأمثلة.

إتقان تقطير المعرفة

يقوم تقطير المعرفة بتدريب نموذج "الطالب" الصغير على تقليد نموذج "المعلم" الكبير والدقيق. إنه أمر مهم لأنه يقلص النماذج القوية بحيث يتم تشغيلها بسعر رخيص على الهواتف والخوادم مع الحفاظ على قدر كبير من الدقة. يعد تقطير المعرفة بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، يجب التعامل مع تقطير المعرفة كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرجوة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم Knowledge Distillation على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل تقطير المعرفة

أصبح التقطير الآن خطوة قياسية في شحن النماذج الفعالة وهو أمر أساسي لموجة اليوم من النماذج المفتوحة الصغيرة والقادرة. الاتجاه سريع النمو هو التقطير على مستوى التسلسل من نماذج اللغة الكبيرة، حيث يولد النموذج القوي بيانات التدريب أو آثار الاستدلال (بما في ذلك سلسلة الفكر) لتعليم الطلاب الصغار، مما يؤدي إلى طمس الخط بالبيانات الاصطناعية. توقع اقترانًا أكثر صرامة مع القياس الكمي والتهذيب، والمزيد من النشر على الجهاز، والنقاش المستمر حول الترخيص والجودة عند الاستخلاص من نماذج الملكية التي تصبح مخرجاتها إشارة تدريب للمنافس.

التنفيذ في العالم الحقيقي

يقوم DistilBERT بضغط BERT إلى معلمات أقل بنسبة 40% تقريبًا مع الاحتفاظ بمعظم فهمه للغة من أجل استنتاج أسرع.

تقليص نموذج الرؤية الكبير بحيث يمكن تشغيل مصنف الصور في الوقت الفعلي على تطبيق كاميرا الهاتف الذكي.

استخلاص المنطق التسلسلي الفكري للنموذج الكبير إلى نموذج أصغر لجعله يجيب على أسئلة الرياضيات أو البرمجة بتكلفة أقل.

ضغط مجموعة من النماذج في طالب واحد بحيث تنخفض تكاليف خدمة الإنتاج وزمن الوصول دون فقدان الكثير من الدقة.

أنماط التنفيذ

تقطير المعرفة في الممارسة العملية

يقوم DistilBERT بضغط BERT إلى معلمات أقل بنسبة 40% تقريبًا مع الاحتفاظ بمعظم فهمه للغة من أجل استنتاج أسرع.

يقوم DistilBERT بضغط BERT إلى معلمات أقل بنسبة 40% تقريبًا مع الاحتفاظ بمعظم فهم اللغة لاستدلال أسرع. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تقطير المعرفة في الممارسة العملية

تقليص نموذج الرؤية الكبير بحيث يمكن تشغيل مصنف الصور في الوقت الفعلي على تطبيق كاميرا الهاتف الذكي.

تقليص نموذج رؤية كبير بحيث يمكن تشغيل مصنف الصور في الوقت الفعلي على تطبيق كاميرا الهاتف الذكي. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تقطير المعرفة في الممارسة العملية

استخلاص المنطق التسلسلي الفكري للنموذج الكبير إلى نموذج أصغر لجعله يجيب على أسئلة الرياضيات أو البرمجة بتكلفة أقل.

استخلاص تفكير سلسلة الأفكار الخاصة بالنموذج الكبير في نموذج أصغر لجعله يجيب على أسئلة الرياضيات أو البرمجة بتكلفة أقل عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

تقطير المعرفة في الممارسة العملية

ضغط مجموعة من النماذج في طالب واحد بحيث تنخفض تكاليف خدمة الإنتاج وزمن الوصول دون فقدان الكثير من الدقة.

ضغط مجموعة من النماذج في طالب واحد بحيث تنخفض تكاليف خدمة الإنتاج ووقت الاستجابة دون فقدان الكثير من الدقة، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف