دليل اللغة AI

اهتمام متعدد الاستعلام

يعد الانتباه متعدد الاستعلامات (MQA) بمثابة تطور موفر للذاكرة في انتباه المحول الذي يشترك في مجموعة واحدة من المفاتيح والقيم عبر جميع رؤوس الانتباه.

نظرة عامة

يعد الانتباه متعدد الاستعلامات (MQA) بمثابة تطور موفر للذاكرة في انتباه المحول الذي يشترك في مجموعة واحدة من المفاتيح والقيم عبر جميع رؤوس الانتباه. فهو يعمل على تسريع عملية إنشاء النص بشكل كبير عن طريق تقليص الذاكرة التي يجب على النموذج تبديلها.

يعد Multi-Query Attention جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع.

الغوص العميق

يمنح الاهتمام القياسي متعدد الرؤوس كل رأس استعلامه الخاص ومفتاحه وإسقاطات القيمة. أثناء الإنشاء، يجب تخزين المفاتيح والقيم لجميع الرموز المميزة السابقة مؤقتًا وإعادة تحميلها في كل خطوة - تصبح ذاكرة التخزين المؤقت KV هذه هي عنق الزجاجة الرئيسي، نظرًا لأن قراءتها من الذاكرة أبطأ من العمليات الحسابية نفسها. يحتفظ برنامج Multi-Query Attention، الذي اقترحه Noam Shazeer في عام 2019، بإسقاطات استعلام منفصلة لكل رأس ولكنه يطوي المفاتيح والقيم في رأس واحد مشترك. يؤدي هذا إلى تقليص ذاكرة التخزين المؤقت KV بعامل يساوي عدد الرؤوس، وأحيانًا أصغر بمقدار 8x إلى 64x. والنتيجة هي فك تشفير انحداري أسرع بكثير وبصمة ذاكرة أخف، مع انخفاض بسيط في الجودة. الحل الوسط، وهو "انتباه الاستعلام المجمع"، يوازن بين المفاضلة.

البصيرة الفنية

في MQA، لا تزال أوزان الاستعلام تنتج متجهات استعلام منفصلة H، ولكن يتم مشاركة إسقاط رئيسي واحد وإسقاط قيمة واحدة عبر جميع الرؤوس. يحسب كل رأس الانتباه باستخدام الاستعلام الخاص به مقابل نفس المفاتيح والقيم. نظرًا لأن موترات K وV المخزنة مؤقتًا لم تعد تتكيف مع عدد الرؤوس، فإن عرض النطاق الترددي للذاكرة أثناء فك التشفير ينخفض ​​بشكل حاد - وعرض النطاق الترددي، وليس الحساب، هو ما يولد سرعة البوابات في المسرعات الحديثة.

إتقان الاهتمام بالاستعلام المتعدد

يعد الانتباه متعدد الاستعلامات (MQA) بمثابة تطور موفر للذاكرة في انتباه المحول الذي يشترك في مجموعة واحدة من المفاتيح والقيم عبر جميع رؤوس الانتباه. فهو يعمل على تسريع عملية إنشاء النص بشكل كبير عن طريق تقليص الذاكرة التي يجب على النموذج تبديلها. يعد Multi-Query Attention جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع. لبناء فهم عميق، تعامل مع Multi-Query Attention كنموذج تشغيل، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تستخدم الفرق القوية تصميم الاستعلامات المتعددة للمطالبات والاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل الاهتمام بالاستعلام المتعدد

أثبتت MQA أنه يمكنك تقليم رؤوس المفاتيح/القيم الزائدة عن الحاجة دون ضرر يذكر، وهذه الرؤية تشكل الآن تقريبًا كل LLM سريع الاستدلال. لقد تقارب هذا المجال إلى حد كبير مع اهتمام الاستعلامات المجمعة (GQA)، المستخدم في Llama 2/3 وغيرها الكثير، والذي يستخدم عددًا قليلاً من مجموعات KV بدلاً من مجموعة واحدة لاستعادة الجودة مع الحفاظ على معظم التسريع. يمزج العمل المستقبلي هذه الأفكار مع ضغط ذاكرة التخزين المؤقت KV والتكميم والاهتمام المتعدد الكامن لدفع سياقات أطول وخدمة أرخص.

التنفيذ في العالم الحقيقي

تسريع إنشاء رمز مميز في مساعدي الدردشة حيث تعمل ذاكرة التخزين المؤقت KV، وليس الحوسبة الأولية، على الحد من الإنتاجية.

Google's PaLM، والذي يستخدم الانتباه متعدد الاستعلامات لتمكين الاستدلال الفعال على نطاق واسع.

خدمة العديد من المستخدمين المتزامنين على وحدة معالجة رسومات واحدة عن طريق تقليص ذاكرة التخزين المؤقت KV لكل طلب.

انتباه الاستعلام المجمع في Llama 2 70B وLlama 3، وهو سليل مباشر يوازن بين سرعة MQA وجودة الاهتمام الكامل.

أنماط التنفيذ

الاهتمام بالاستعلام المتعدد في الممارسة العملية

تسريع إنشاء رمز مميز في مساعدي الدردشة حيث تعمل ذاكرة التخزين المؤقت KV، وليس الحوسبة الأولية، على الحد من الإنتاجية.

تسريع إنشاء رمز مميز في مساعدي الدردشة حيث تحدد ذاكرة التخزين المؤقت KV، وليس الحوسبة الأولية، الإنتاجية. تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الاهتمام بالاستعلام المتعدد في الممارسة العملية

Google's PaLM، والذي يستخدم الانتباه متعدد الاستعلامات لتمكين الاستدلال الفعال على نطاق واسع.

Google's PaLM، الذي استخدم الاهتمام متعدد الاستعلامات لتمكين الاستدلال الفعال على نطاق واسع، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الاهتمام بالاستعلام المتعدد في الممارسة العملية

خدمة العديد من المستخدمين المتزامنين على وحدة معالجة رسومات واحدة عن طريق تقليص ذاكرة التخزين المؤقت KV لكل طلب.

خدمة العديد من المستخدمين المتزامنين على وحدة معالجة رسومات واحدة عن طريق تقليص ذاكرة التخزين المؤقت KV لكل طلب، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الاهتمام بالاستعلام المتعدد في الممارسة العملية

انتباه الاستعلام المجمع في Llama 2 70B وLlama 3، وهو سليل مباشر يوازن بين سرعة MQA وجودة الاهتمام الكامل.

الاهتمام بالاستعلام المجمع في Llama 2 70B وLlama 3، وهو سليل مباشر يوازن بين سرعة MQA وجودة الاهتمام الكامل. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

المخاطر والدرابزين

!

يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.

!

يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.

!

قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.

خارطة طريق التنفيذ

1

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف