نظرة عامة
التجميع المستمر هو أسلوب تقديم يضيف الطلبات ويزيلها من رمز مميز دفعة واحدة قيد التشغيل، بدلاً من انتظار انتهاء دفعة ثابتة كاملة. إنه يبقي وحدة معالجة الرسومات مشغولة باستمرار ويزيد بشكل كبير من عدد المستخدمين الذين يمكن لنموذج الذكاء الاصطناعي خدمتهم في وقت واحد.
يعد التجميع المستمر بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.
الغوص العميق
تكون وحدات معالجة الرسومات هي الأسرع عندما تقوم بمعالجة العديد من الطلبات معًا دفعة واحدة. النهج الساذج، التجميع الثابت، يجمع مجموعة ثابتة من الطلبات، ويشغلها جميعًا حتى الاكتمال، ثم يبدأ الدفعة التالية. المشكلة: تختلف مخرجات نموذج اللغة بشكل كبير في الطول، لذا تنتهي الطلبات القصيرة مبكرًا وتظل فتحاتها في وضع الخمول بينما تنتظر الدفعة أطولها، مما يؤدي إلى إهدار دورات GPU وتأخير الوافدين الجدد. يعمل التجميع المستمر (يُسمى أيضًا التجميع على متن الطائرة أو على مستوى التكرار، والذي اشتهر بواسطة ورقة Orca ويستخدم في vLLM، وTensorRT-LLM، وTGI) بدقة خطوة واحدة لفك التشفير. بعد إنشاء كل رمز مميز، تخرج التسلسلات النهائية من الدفعة ويتم إدراج الطلبات التي وصلت حديثًا على الفور. يؤدي هذا إلى إبقاء الدفعة ممتلئة ووحدة معالجة الرسومات مشبعة، وغالبًا ما يؤدي ذلك إلى زيادة الإنتاجية عدة مرات مع زمن وصول أقل للمستخدمين المنتظرين.
البصيرة الفنية
التحول الرئيسي هو من تجميع الطلبات بأكملها إلى تجميع التكرارات الفردية. في كل خطوة فك تشفير، يقوم المجدول ببناء المجموعة النشطة: فهو يقوم بتشغيل تمريرة أمامية واحدة عبر جميع التسلسلات أثناء الرحلة، ويصدر رمزًا مميزًا واحدًا لكل منها، ويطرد أي رمز يصل إلى رمز نهاية التسلسل أو حد الطول، ويعترف بالطلبات الموضوعة في قائمة الانتظار لملء الفتحات المحررة. إن إقران هذا مع ذاكرة KV المرنة الخاصة بـ PagedAttention يجعل إدراج وإزالة التسلسلات في منتصف الرحلة رخيصًا، نظرًا لأن ذاكرة التخزين المؤقت لكل تسلسل تعيش في كتل مستقلة.
إتقان الخلط المستمر
التجميع المستمر هو أسلوب تقديم يضيف الطلبات ويزيلها من رمز مميز دفعة واحدة قيد التشغيل، بدلاً من انتظار انتهاء دفعة ثابتة كاملة. إنه يبقي وحدة معالجة الرسومات مشغولة باستمرار ويزيد بشكل كبير من عدد المستخدمين الذين يمكن لنموذج الذكاء الاصطناعي خدمتهم في وقت واحد. يعد التجميع المستمر بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، يجب التعامل مع التجميع المستمر كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم التجميع المستمر على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
واجهة برمجة تطبيقات للدردشة تقبل رسائل المستخدم التي وصلت حديثًا إلى الدفعة الجاري تشغيلها على الفور بدلاً من وضعها في قائمة الانتظار للدفعة التالية
طرد إجابة قصيرة مكتملة في منتصف الدفعة وإعادة ملء الفتحة الخاصة بها حتى لا تتوقف وحدة معالجة الرسومات أبدًا عن الانتظار لجيل طويل
الجمع بين الدفع المستمر مع PagedAttention الخاص بـ vLLM لإدراج وإزالة التسلسلات بسعر رخيص في كل خطوة من خطوات فك التشفير
خدمة إكمال التعليمات البرمجية التي تحافظ على الرموز المميزة العالية في الثانية في ظل حركة مرور متقطعة ومتغيرة الطول عن طريق الحفاظ على الدفعة ممتلئة
أنماط التنفيذ
الضرب المستمر في الممارسة العملية
واجهة برمجة تطبيقات للدردشة تقبل رسائل المستخدم التي وصلت حديثًا إلى الدفعة الجاري تشغيلها على الفور بدلاً من وضعها في قائمة الانتظار للدفعة التالية.
واجهة برمجة تطبيقات للدردشة تقبل رسائل المستخدم التي وصلت حديثًا إلى الدفعة قيد التشغيل فورًا بدلاً من وضعها في قائمة الانتظار للدفعة التالية. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الضرب المستمر في الممارسة العملية
طرد إجابة قصيرة مكتملة في منتصف الدفعة وإعادة ملء الفتحة الخاصة بها حتى لا تتوقف وحدة معالجة الرسومات أبدًا عن الانتظار لجيل طويل.
طرد إجابة قصيرة مكتملة في منتصف الدفعة وإعادة ملء الفتحة الخاصة بها حتى لا تتوقف وحدة معالجة الرسومات أبدًا عن الانتظار لجيل طويل. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الضرب المستمر في الممارسة العملية
الجمع بين الدفع المستمر مع PagedAttention الخاص بـ vLLM لإدراج وإزالة التسلسلات بسعر رخيص في كل خطوة من خطوات فك التشفير.
الجمع بين الدفع المستمر مع PagedAttention الخاص بـ vLLM لإدراج التسلسلات وإزالتها بسعر رخيص في كل خطوة فك تشفير، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الضرب المستمر في الممارسة العملية
خدمة إكمال التعليمات البرمجية التي تحافظ على الرموز المميزة العالية في الثانية في ظل حركة مرور متقطعة ومتغيرة الطول عن طريق الحفاظ على الدفعة ممتلئة.
خدمة إكمال التعليمات البرمجية التي تحافظ على الرموز المميزة العالية في الثانية في ظل حركة مرور متقطعة ومتغيرة الطول عن طريق الحفاظ على الدفعة ممتلئة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.
المخاطر والدرابزين
يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.
غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.
يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.
خارطة طريق التنفيذ
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
المعيار في ظل ظروف التحميل والبيانات الواقعية.
المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.