نظرة عامة
مزيج الوكلاء (MoA) عبارة عن تقنية تقوم فيها عدة نماذج لغوية بصياغة الإجابات ثم يقوم نموذج التجميع بدمج أفضل أفكارهم في استجابة واحدة محسنة. إنه يتيح لفريق من النماذج المفتوحة منافسة نموذج واحد من الدرجة الأولى أو التغلب عليه.
يُعد تجميع مزيج الوكلاء جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائهما وتصنيفهما وتحويلهما على نطاق واسع.
الغوص العميق
تم تقديم Mixture of-Agents في ورقة بحثية صدرت عام 2024 من موقع Together AI، حيث يقوم بتنظيم العديد من شهادات LLM في طبقات. في الطبقة الأولى، يجيب كل نموذج من نماذج "المقترح" بشكل مستقل على الموجه. يتم بعد ذلك تجميع مخرجاتهم وتسليمها إلى الطبقة التالية، حيث تستجيب النماذج مرة أخرى، مشروطة الآن بجميع المسودات السابقة. وبعد جولة واحدة أو أكثر من هذه الجولات، يقوم نموذج "المجمع" النهائي بتجميع كل شيء في إجابة واحدة. الفكرة الأساسية، التي يسميها المؤلفون "تعاونية طلاب ماجستير الإدارة"، هي أن النماذج تنتج استجابات أفضل عندما تظهر إجابات أقرانها، حتى تلك غير الكاملة. في معيار AlpacaEval 2.0، يقال إن مذكرة التفاهم المبنية بالكامل من نماذج مفتوحة المصدر تجاوزت نتيجة GPT-4 Omni، مما يدل على أن التجميع الدقيق للنماذج المتنوعة والأرخص يمكن أن يتغلب على نظام حدودي واحد.
البصيرة الفنية
يختلف MoA عن التصويت بالأغلبية البسيطة: فبدلاً من اختيار إجابة واحدة، يقرأ المجمّع جميع ردود المرشحين كسياق ويولد توليفة جديدة، ويمزج بين نقاط القوة وتصفية الأخطاء. يساعد التنوع بين مقدمي العروض، لذا فإن المزج بين العائلات النموذجية المختلفة يعد أمرًا ذا قيمة. يتكون الهيكل من طبقات، مثل شبكة عميقة حيث تكون "الخلايا العصبية" في كل طبقة عبارة عن مكالمات LLM كاملة. والمقايضة هي زمن الوصول والتكلفة: فكل طبقة تضاعف عدد مكالمات الاستدلال، لذلك تنفق وزارة الزراعة المزيد من الحوسبة لتحسين الجودة.
إتقان تجميع خليط الوكلاء
مزيج الوكلاء (MoA) عبارة عن تقنية تقوم فيها عدة نماذج لغوية بصياغة الإجابات ثم يقوم نموذج التجميع بدمج أفضل أفكارهم في استجابة واحدة محسنة. إنه يتيح لفريق من النماذج المفتوحة منافسة نموذج واحد من الدرجة الأولى أو التغلب عليه. يُعد تجميع مزيج الوكلاء جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائهما وتصنيفهما وتحويلهما على نطاق واسع. لبناء فهم عميق، يجب التعامل مع تجميع خليط الوكلاء كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم تصميم Mixture-of-Agents Aggregation على المطالبة بحلقات الاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
الجمع بين ثلاثة نماذج مختلفة للدردشة المفتوحة كمقترحين، ثم استخدام مجمع قوي لإنتاج رد واحد مصقول لدعم العملاء.
تعزيز درجات متابعة التعليمات وفقًا لمعايير نمط AlpacaEval باستخدام النماذج مفتوحة المصدر فقط.
دمج اقتراحات التعليمات البرمجية المتنوعة من عدة نماذج في تنفيذ وظيفة واحدة أكثر قوة.
تشغيل خط أنابيب ذو أوزان مفتوحة يقترب من الجودة الحدودية لنشر حساس للخصوصية حيث لا يمكن للبيانات مغادرة خوادم الشركة.
أنماط التنفيذ
تجميع خليط الوكلاء في الممارسة العملية
الجمع بين ثلاثة نماذج مختلفة للدردشة المفتوحة كمقترحين، ثم استخدام مجمع قوي لإنتاج رد واحد مصقول لدعم العملاء.
الجمع بين ثلاثة نماذج مختلفة للدردشة المفتوحة كمقترحين، ثم استخدام مجمع قوي لإنتاج رد واحد مصقول لدعم العملاء، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تجميع خليط الوكلاء في الممارسة العملية
تعزيز درجات متابعة التعليمات وفقًا لمعايير نمط AlpacaEval باستخدام النماذج مفتوحة المصدر فقط.
تعزيز درجات متابعة التعليمات على معايير نمط AlpacaEval باستخدام النماذج مفتوحة المصدر فقط. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تجميع خليط الوكلاء في الممارسة العملية
دمج اقتراحات التعليمات البرمجية المتنوعة من عدة نماذج في تنفيذ وظيفة واحدة أكثر قوة.
دمج اقتراحات التعليمات البرمجية المتنوعة من عدة نماذج في تنفيذ وظيفة واحدة أكثر قوة، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تجميع خليط الوكلاء في الممارسة العملية
تشغيل خط أنابيب ذو أوزان مفتوحة يقترب من الجودة الحدودية لنشر حساس للخصوصية حيث لا يمكن للبيانات مغادرة خوادم الشركة.
تشغيل خط أنابيب ذو أوزان مفتوحة يقترب من الجودة الحدودية للنشر الحساس للخصوصية حيث لا يمكن للبيانات مغادرة خوادم الشركة، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.
يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.
قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.
خارطة طريق التنفيذ
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.