نظرة عامة
مزيج الخبراء (MoE) هو تصميم نموذجي يقسم الشبكة إلى العديد من الشبكات الفرعية المتخصصة وينشط عدد قليل منها فقط لكل مدخل. فهو يتيح للنماذج الاحتفاظ بمعرفة هائلة مع الحفاظ على كل تنبؤ سريع ورخيص.
يعد Mixture of Experts بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.
الغوص العميق
يقوم المحول القياسي بتشغيل كل المدخلات من خلال نفس الطبقات الكثيفة، لذا فإن جعل النموذج أكثر ذكاءً يعني عادةً جعل كل عملية حسابية أكثر تكلفة. مزيج من الخبراء يكسر هذا الرابط. فهو يستبدل طبقة التغذية الأمامية الكبيرة بالعديد من شبكات "الخبراء" الأصغر حجمًا بالإضافة إلى "جهاز توجيه" صغير يقرر أي الخبراء يتعامل مع كل رمز مميز. عادةً ما يتم إطلاق أفضل 1 أو 2 من الخبراء فقط، لذلك يمكن أن يحتوي النموذج على مئات المليارات من المعلمات الإجمالية ولكنه ينشط فقط جزءًا صغيرًا لكل رمز مميز. وهذا هو السبب وراء وصول نماذج مثل Mixtral 8x7B والهندسة المعمارية المشهورة وراء GPT-4 إلى جودة عالية دون تكلفة استدلال عالية نسبيًا. وتتمثل المقايضة في التعقيد: يجب أن يظل جميع الخبراء متناسبين مع الذاكرة، ويمكن لجهاز التوجيه أن يخطئ في توجيه بعض الخبراء أو يثقل كاهلهم، لذا يتطلب التدريب توازنًا دقيقًا.
البصيرة الفنية
قلب وزارة التعليم هو شبكة البوابات، وهي طبقة متعلمة صغيرة تسجل كل خبير للحصول على رمز مميز وارد وتوجه الرمز المميز إلى أعلى الدرجات (غالبًا k = 1 أو 2). لمنع جهاز التوجيه من إرسال كل شيء إلى عدد قليل من الخبراء المفضلين، يضيف التدريب "خسارة موازنة التحميل" الإضافية التي تعاقب الاستخدام غير المتكافئ. نظرًا لأن k الخبراء فقط هم الذين يعملون لكل رمز مميز، فإن الحوسبة (FLOPs) تظل ثابتة تقريبًا حتى عند إضافة المزيد من الخبراء، وبالتالي يتم قياس إجمالي المعلمات وتكلفة كل رمز بشكل مستقل.
إتقان مزيج من الخبراء
مزيج الخبراء (MoE) هو تصميم نموذجي يقسم الشبكة إلى العديد من الشبكات الفرعية المتخصصة وينشط عدد قليل منها فقط لكل مدخل. فهو يتيح للنماذج الاحتفاظ بمعرفة هائلة مع الحفاظ على كل تنبؤ سريع ورخيص. يعد Mixture of Experts بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع مزيج الخبراء كنموذج تشغيلي، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وافصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم Mixture of Experts على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
يستخدم Mixtral 8x7B 8 خبراء وينشط 2 لكل رمز مميز، مما يوفر إجمالي 47 مليار معلمة تقريبًا ولكن فقط ~ 13 مليار نشط لكل رمز مميز لاستدلال أسرع وأرخص.
يقوم كل من DeepSeek وQwen بشحن نماذج لغة MoE الكبيرة التي تتطابق مع النماذج الكثيفة وفقًا للمعايير أثناء التشغيل باستخدام حوسبة أقل لكل رمز مميز.
يستخدم موفرو Cloud LLM وزارة التربية والتعليم بحيث يمكن لنموذج واحد ضخم أن يخدم العديد من المستخدمين بتكلفة معقولة، حيث أن كل طلب لا يضيء سوى عدد قليل من الخبراء.
تم توسيع نطاق Switch Transformer السابق لـ Google إلى أكثر من تريليون معلمة باستخدام التوجيه من أعلى 1 لإبقاء حوسبة التدريب قابلة للإدارة.
أنماط التنفيذ
مزيج من الخبراء في الممارسة العملية
يستخدم Mixtral 8x7B 8 خبراء وينشط 2 لكل رمز مميز، مما يوفر إجمالي 47 مليار معلمة تقريبًا ولكن فقط ~ 13 مليار نشط لكل رمز مميز لاستدلال أسرع وأرخص.
يستخدم Mixtral 8x7B 8 خبراء وينشط 2 لكل رمز مميز، مما يوفر ما يقرب من 47 مليار معلمة إجمالية ولكن فقط حوالي 13 مليار نشط لكل رمز لاستدلال أسرع وأرخص. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
مزيج من الخبراء في الممارسة العملية
يقوم كل من DeepSeek وQwen بشحن نماذج لغة MoE الكبيرة التي تتطابق مع النماذج الكثيفة وفقًا للمعايير أثناء التشغيل باستخدام حوسبة أقل لكل رمز مميز.
يقوم كل من DeepSeek وQwen بشحن نماذج لغة MoE الكبيرة التي تتطابق مع النماذج الكثيفة في المعايير أثناء التشغيل باستخدام حوسبة أقل لكل رمز مميز. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
مزيج من الخبراء في الممارسة العملية
يستخدم موفرو Cloud LLM وزارة التربية والتعليم بحيث يمكن لنموذج واحد ضخم أن يخدم العديد من المستخدمين بتكلفة معقولة، حيث أن كل طلب لا يضيء سوى عدد قليل من الخبراء.
يستخدم موفرو Cloud LLM MoE بحيث يمكن لنموذج واحد ضخم أن يخدم العديد من المستخدمين بتكلفة معقولة، نظرًا لأن كل طلب لا يضيء سوى عدد قليل من الخبراء. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
مزيج من الخبراء في الممارسة العملية
تم توسيع نطاق Switch Transformer السابق لـ Google إلى أكثر من تريليون معلمة باستخدام التوجيه من أعلى 1 لإبقاء حوسبة التدريب قابلة للإدارة.
تم تغيير حجم Switch Transformer السابق لـ Google إلى أكثر من تريليون معلمة باستخدام التوجيه من أعلى 1 للحفاظ على إمكانية إدارة حوسبة التدريب. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.
غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.
يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.
خارطة طريق التنفيذ
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
المعيار في ظل ظروف التحميل والبيانات الواقعية.
المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.