نظرة عامة
PagedAttention عبارة عن تقنية لإدارة الذاكرة تقوم بتخزين ذاكرة التخزين المؤقت للانتباه لنموذج اللغة في كتل صغيرة قابلة لإعادة الاستخدام بدلاً من قطعة واحدة كبيرة متجاورة. إنه يعمل على تشغيل vLLM، وهو محرك تقديم مفتوح المصدر يعزز بشكل كبير عدد الطلبات التي يمكن لوحدة معالجة الرسومات الواحدة التعامل معها.
يعد PagedAttention وvLLM بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.
الغوص العميق
عندما يقوم نموذج لغة بإنشاء نص، فإنه يحتفظ بـ "ذاكرة تخزين مؤقت KV" (متجهات المفاتيح والقيمة) لكل رمز مميز يراه حتى يتمكن الرمز المميز التالي من حضور السياق الكامل. تقليديًا، يحجز كل طلب لوحًا واحدًا كبيرًا متجاورًا من ذاكرة وحدة معالجة الرسومات (GPU) بحجم مناسب لأقصى طول ممكن، مما يؤدي إلى إهدار كميات هائلة عندما تكون التسلسلات أقصر أو متنوعة في الطول. يستعير PagedAttention، الذي تم تقديمه في ورقة vLLM لعام 2023 من جامعة كاليفورنيا في بيركلي، فكرة ترحيل صفحات الذاكرة الافتراضية من أنظمة التشغيل: فهو يقسم ذاكرة التخزين المؤقت KV إلى كتل ذات حجم ثابت يمكن أن تعيش في أي مكان في الذاكرة ويتم تخصيصها عند الطلب. يقوم جدول البحث بتعيين مواضع الرموز المنطقية للكتل الفعلية. يؤدي هذا إلى القضاء على تجزئة الذاكرة تقريبًا ويتيح مشاركة الكتل، على سبيل المثال عبر مخرجات متعددة من نفس الموجه.
البصيرة الفنية
يتم تقسيم ذاكرة التخزين المؤقت KV إلى صفحات ذات حجم ثابت، تحتوي كل منها على المفاتيح والقيم لعدد محدد من الرموز المميزة. يقوم جدول الكتل لكل تسلسل بتعيين المواضع المنطقية لمواقع الصفحات الفعلية، لذلك لا يلزم أن تكون ذاكرة التخزين المؤقت للتسلسل متجاورة. نظرًا لأن البادئات المتطابقة (موجه النظام المشترك، أو فروع بحث الحزمة) يمكن أن تشير إلى نفس الصفحات الفعلية عبر النسخ عند الكتابة، تتم إعادة استخدام الذاكرة بدلاً من تكرارها، مما يؤدي إلى خفض النفايات من أكثر من 60% إلى نسبة قليلة.
إتقان PagedAttention وvLLM
PagedAttention عبارة عن تقنية لإدارة الذاكرة تقوم بتخزين ذاكرة التخزين المؤقت للانتباه لنموذج اللغة في كتل صغيرة قابلة لإعادة الاستخدام بدلاً من قطعة واحدة كبيرة متجاورة. إنه يعمل على تشغيل vLLM، وهو محرك تقديم مفتوح المصدر يعزز بشكل كبير عدد الطلبات التي يمكن لوحدة معالجة الرسومات الواحدة التعامل معها. يعد PagedAttention وvLLM بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع PagedAttention وvLLM كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم PagedAttention وvLLM على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
استضافة واجهة برمجة تطبيقات LLM مفتوحة المصدر حيث يخدم vLLM العديد من مستخدمي الدردشة المتزامنين من وحدة معالجة رسومات واحدة بإنتاجية عالية
مشاركة موجه نظام طويل عبر آلاف الطلبات عبر التخزين المؤقت للبادئة بحيث تتم معالجتها مرة واحدة، وليس بشكل متكرر
تشغيل بحث الشعاع أو عمليات إكمال العينات المتعددة التي تشترك في كتل KV للموجه المشترك عبر النسخ عند الكتابة
قطع نفايات ذاكرة وحدة معالجة الرسومات (GPU) الناتجة عن التجزئة حتى يتمكن المزود من حزم المزيد من الجلسات المتزامنة على نفس الجهاز
أنماط التنفيذ
PagedAttention وvLLM في الممارسة العملية
استضافة واجهة برمجة تطبيقات LLM مفتوحة المصدر حيث يخدم vLLM العديد من مستخدمي الدردشة المتزامنين من وحدة معالجة رسومات واحدة بإنتاجية عالية.
استضافة واجهة برمجة تطبيقات LLM مفتوحة المصدر حيث يخدم vLLM العديد من مستخدمي الدردشة المتزامنين من وحدة معالجة رسومات واحدة ذات إنتاجية عالية. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
PagedAttention وvLLM في الممارسة العملية
مشاركة موجه نظام طويل عبر آلاف الطلبات عبر التخزين المؤقت للبادئة بحيث تتم معالجتها مرة واحدة، وليس بشكل متكرر.
مشاركة مطالبة نظام طويلة عبر آلاف الطلبات عبر التخزين المؤقت للبادئة بحيث تتم معالجتها مرة واحدة، وليس بشكل متكرر، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
PagedAttention وvLLM في الممارسة العملية
تشغيل بحث الشعاع أو عمليات إكمال العينات المتعددة التي تشترك في كتل KV للموجه المشترك عبر النسخ عند الكتابة.
تشغيل بحث الشعاع أو عمليات إكمال العينات المتعددة التي تشترك في كتل KV للموجه المشترك عبر النسخ عند الكتابة، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
PagedAttention وvLLM في الممارسة العملية
قطع نفايات ذاكرة وحدة معالجة الرسومات (GPU) الناتجة عن التجزئة حتى يتمكن المزود من حزم المزيد من الجلسات المتزامنة على نفس الجهاز.
قطع هدر ذاكرة وحدة معالجة الرسومات من التجزئة حتى يتمكن المزود من حزم المزيد من الجلسات المتزامنة على نفس الأجهزة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.
غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.
يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.
خارطة طريق التنفيذ
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
المعيار في ظل ظروف التحميل والبيانات الواقعية.
المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.