الدليل الفني

SwiGLU والتنشيط المسور

SwiGLU هي وظيفة تنشيط مسورة تعمل على مضاعفة إسقاط خطي واحد للمدخل من خلال إسقاط ثانٍ منشط بواسطة Swish، وتعمل كبوابة قابلة للتعلم وتعتمد على البيانات داخل طبقات تغذية المحولات.

نظرة عامة

SwiGLU هي وظيفة تنشيط مسورة تعمل على مضاعفة إسقاط خطي واحد للمدخل من خلال إسقاط ثانٍ منشط بواسطة Swish، وتعمل كبوابة قابلة للتعلم وتعتمد على البيانات داخل طبقات تغذية المحولات. إنه يعمل باستمرار على تحسين جودة نموذج اللغة، ولهذا السبب يستخدمه كل ماجستير إدارة الأعمال الحديث تقريبًا.

SwiGLU وGated Activations عبارة عن لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

كتلة التغذية الأمامية للمحول القياسية عبارة عن طبقتين خطيتين مع ReLU أو GELU بينهما. الوحدات الخطية المسورة، التي اقترحها دوفين وآخرون. في عام 2016، قسّم الإسقاط الأول إلى نصفين واستخدم النصف لبوابة الآخر عبر الضرب حسب العناصر. تستخدم SwiGLU، التي شاعها Noam Shazeer في عام 2020، وظيفة Swish (SiLU) لتلك البوابة: الإخراج = (Swish(xW) * (xV)) W2، بثلاث مصفوفات وزن بدلاً من مصفوفتين. تتيح البوابة للشبكة تمرير المعلومات أو منعها بشكل انتقائي لكل بُعد. نظرًا لأن إضافة المصفوفة الثالثة يؤدي إلى زيادة المعلمات، فإن عمليات التنفيذ تعمل على تقليص البعد المخفي إلى الثلثين تقريبًا بحيث يظل إجمالي الحوسبة مشابهًا لـ GELU MLP. أظهرت تجارب شازير مكاسب حيرة قابلة للقياس، وتبنتها كل من LLaMA وPaLM وMistral.

البصيرة الفنية

Swish هي x * sigmoid(beta*x)، وهي دالة سلسة وغير رتيبة، على عكس ReLU، تسمح بمرور القيم السالبة الصغيرة. في SwiGLU، ينتج فرع "البوابة" Swish(xW) قيمًا قريبة من 0 أو 1 تضاعف عنصر xV لفرع "القيمة"، لذلك يتم تعديل مساهمة كل وحدة مخفية بواسطة إشارة متعلمة تعتمد على الإدخال. مصفوفة الوزن الثالثة هي التكلفة؛ تحافظ خدعة الحجم المخفي للثلثين على مطابقة ميزانية FLOP لطبقة تغذية الفانيليا.

إتقان SwiGLU والتنشيط المسور

SwiGLU هي وظيفة تنشيط مسورة تعمل على مضاعفة إسقاط خطي واحد للمدخل من خلال إسقاط ثانٍ منشط بواسطة Swish، وتعمل كبوابة قابلة للتعلم وتعتمد على البيانات داخل طبقات تغذية المحولات. إنه يعمل باستمرار على تحسين جودة نموذج اللغة، ولهذا السبب يستخدمه كل ماجستير إدارة الأعمال الحديث تقريبًا. SwiGLU وGated Activations عبارة عن لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع SwiGLU وGated Activations كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم SwiGLU وGated Activations على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل SwiGLU والتنشيط المسور

تم ترسيخ SwiGLU باعتباره MLP الافتراضي في LLMs ذات الوزن المفتوح ومن غير المرجح أن يتم إزاحته قريبًا. تتضمن الاتجاهات النشطة متغيرات GeGLU وReGLU، ونواة GPU المدمجة التي تحسب كلا الإسقاطات في مسار واحد، والجمع بين MLPs المسورة مع خليط من الخبراء بحيث يكون كل خبير في حد ذاته كتلة SwiGLU. ويدرس الباحثون أيضًا السبب الذي يجعل البوابات تساعد على تحسين الأداء، بهدف تصميم بوابات أرخص.

التنفيذ في العالم الحقيقي

تستبدل LLaMA وPaLM وMistral طبقة التغذية الأمامية لـ GELU بـ SwiGLU لتقليل الارتباك عند حساب متساوٍ

يتم تحجيم البعد المخفي إلى حوالي الثلثين (8/3 د) بحيث لا تؤدي مصفوفة البوابات الإضافية إلى تضخيم FLOPs

تستخدم نماذج خليط الخبراء مثل Mixtral كتل SwiGLU كشبكة تغذية للأمام لكل خبير

تستعير محولات الرؤية والمحولات متعددة الوسائط بوابة GeGLU/SwiGLU لتحسين طبقاتها الفرعية MLP

أنماط التنفيذ

SwiGLU والتنشيط المسور في الممارسة العملية

تستبدل LLaMA وPaLM وMistral طبقة التغذية الأمامية لـ GELU بـ SwiGLU لتقليل الارتباك عند الحوسبة المتساوية.

تستبدل LLaMA وPaLM وMistral طبقة التغذية الأمامية GELU بـ SwiGLU لتقليل الارتباك عند الحوسبة المتساوية. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

SwiGLU والتنشيط المسور في الممارسة العملية

يتم تحجيم البعد المخفي إلى حوالي الثلثين (8/3 د) بحيث لا تؤدي مصفوفة البوابات الإضافية إلى تضخيم FLOPs.

يتم قياس البعد المخفي إلى حوالي الثلثين (8/3 د) بحيث لا تؤدي مصفوفة البوابات الإضافية إلى تضخيم FLOPs. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

SwiGLU والتنشيط المسور في الممارسة العملية

تستخدم نماذج خليط الخبراء مثل Mixtral كتل SwiGLU كشبكة تغذية للأمام لكل خبير.

نماذج خليط من الخبراء مثل Mixtral تستخدم كتل SwiGLU كشبكة تغذية للأمام، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

SwiGLU والتنشيط المسور في الممارسة العملية

تستعير محولات الرؤية والمحولات متعددة الوسائط بوابة GeGLU/SwiGLU لتحسين طبقاتها الفرعية MLP.

تستعير محولات الرؤية والمحولات متعددة الوسائط بوابة GeGLU/SwiGLU لتحسين طبقات MLP الفرعية الخاصة بها. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف