نظرة عامة
يعد انتباه الاستعلام المجمع (GQA) طريقة لتقليص الذاكرة المطلوبة أثناء إنشاء النص عن طريق السماح لعدة رؤوس استعلام بمشاركة نفس المفتاح ورؤوس القيمة. فهو يجعل النماذج الكبيرة أسرع بكثير في الخدمة دون فقدان الجودة تقريبًا.
يعد "انتباه الاستعلام المجمع" جزءًا من مكدس لغة الذكاء الاصطناعي المستخدم لقراءة النص والكلام وإنشاءه وتصنيفه وتحويله على نطاق واسع.
الغوص العميق
في طبقة الاهتمام القياسية متعددة الرؤوس، يكون لكل رأس استعلاماته ومفاتيحه وقيمه الخاصة. أثناء الإنشاء، يتم تخزين المفاتيح والقيم الخاصة بجميع الرموز المميزة السابقة مؤقتًا ("ذاكرة التخزين المؤقت KV") بحيث لا يقوم النموذج بإعادة حسابها. مع العديد من الرؤوس والسياقات الطويلة، تصبح ذاكرة التخزين المؤقت هذه هائلة وتهيمن على عرض النطاق الترددي للذاكرة في وقت الاستدلال. يقوم GQA، الذي قدمه باحثو Google في عام 2023، بتجميع رؤوس الاستعلام ويمنح كل مجموعة مجموعة واحدة مشتركة من رؤوس المفاتيح والقيمة. إذا كان لديك 32 رأس استعلام ولكن 8 مجموعات KV فقط، فإن ذاكرة التخزين المؤقت KV تتقلص بمقدار أربعة أضعاف تقريبًا. يقع هذا بين الاهتمام الكامل متعدد الرؤوس (كل رأس منفصل) والاهتمام متعدد الاستعلامات (KV واحد مشترك لجميع الرؤوس)، مما يلتقط معظم سرعة MQA مع الحفاظ على الجودة قريبة من الاهتمام الكامل. Llama 2 70B والعديد من النماذج اللاحقة تبنته.
البصيرة الفنية
تعتمد جودة الانتباه بشكل كبير على وجود العديد من اتجاهات الاستعلام المميزة، ولكنها تسمح بمشاركة المفاتيح والقيم. تستغل GQA عدم التماثل هذا: فهي تحتفظ بجميع رؤوس الاستعلام ولكنها تكرر كل رأس KV مشترك عبر الاستعلامات في مجموعتها. تأتي المدخرات في الاستدلال، حيث تكون ذاكرة التخزين المؤقت KV هي المستهلك الرئيسي لعرض النطاق الترددي للذاكرة؛ عدد أقل من رؤوس KV يعني بيانات أقل للقراءة لكل رمز مميز تم إنشاؤه. غالبًا ما يتم "تدريب" النماذج لفترة وجيزة لتحويل نقطة تفتيش متعددة الرؤوس إلى نقطة تفتيش GQA.
إتقان الاهتمام بالاستعلام المجمع
يعد انتباه الاستعلام المجمع (GQA) طريقة لتقليص الذاكرة المطلوبة أثناء إنشاء النص عن طريق السماح لعدة رؤوس استعلام بمشاركة نفس المفتاح ورؤوس القيمة. فهو يجعل النماذج الكبيرة أسرع بكثير في الخدمة دون فقدان الجودة تقريبًا. يعد "انتباه الاستعلام المجمع" جزءًا من مكدس لغة الذكاء الاصطناعي المستخدم لقراءة النص والكلام وإنشاءه وتصنيفه وتحويله على نطاق واسع. لبناء فهم عميق، تعامل مع "انتباه الاستعلام المجمع" كنموذج تشغيل، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تستخدم الفرق القوية تصميم الاستعلام المجمع للمطالبات والاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
Llama 2 70B وLlama 3 يستخدمان GQA لخدمة سياقات طويلة باستخدام ذاكرة تخزين مؤقت أصغر حجمًا KV
تقليل ذاكرة وحدة معالجة الرسومات بحيث يتناسب نموذج الدردشة الكبير مع مسرعات أقل أو أرخص
تسريع إنشاء رمز مميز في واجهات برمجة تطبيقات الإنتاج حيث يكون عرض النطاق الترددي لذاكرة التخزين المؤقت KV هو عنق الزجاجة
تمكين أحجام دفعات أكبر لخدمة العديد من المستخدمين في وقت واحد دون استنفاد الذاكرة
أنماط التنفيذ
الاهتمام بالاستعلام المجمع في الممارسة العملية
Llama 2 70B وLlama 3 يستخدمان GQA لخدمة سياقات طويلة باستخدام ذاكرة تخزين مؤقت أصغر حجمًا لـ KV.
Llama 2 70B وLlama 3 يستخدمان GQA لخدمة سياقات طويلة باستخدام ذاكرة تخزين مؤقت أصغر حجمًا لـ KV عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الاهتمام بالاستعلام المجمع في الممارسة العملية
تقليل ذاكرة وحدة معالجة الرسومات بحيث يتناسب نموذج الدردشة الكبير مع مسرعات أقل أو أرخص.
تقليل ذاكرة وحدة معالجة الرسومات بحيث يتناسب نموذج الدردشة الكبير مع مسرعات أقل أو أرخص عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الاهتمام بالاستعلام المجمع في الممارسة العملية
تسريع إنشاء رمز مميز في واجهات برمجة تطبيقات الإنتاج حيث يكون عرض النطاق الترددي لذاكرة التخزين المؤقت KV هو عنق الزجاجة.
تسريع إنشاء رمز مميز في واجهات برمجة تطبيقات الإنتاج حيث يكون عرض النطاق الترددي لذاكرة التخزين المؤقت KV هو عنق الزجاجة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الاهتمام بالاستعلام المجمع في الممارسة العملية
تمكين أحجام دفعات أكبر لخدمة العديد من المستخدمين في وقت واحد دون استنفاد الذاكرة.
تمكين أحجام دفعات أكبر لخدمة العديد من المستخدمين في وقت واحد دون استنفاد الذاكرة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.
يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.
قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.
خارطة طريق التنفيذ
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.