الدليل الفني

خدمة التعبئة المسبقة وفك التشفير المفصلة

بنية خدمة تقسم استدلال نموذج اللغة الكبير إلى مرحلتين منفصلتين - التعبئة المسبقة وفك التشفير - وتشغيلها على مجموعات مختلفة من وحدات معالجة الرسومات.

نظرة عامة

بنية خدمة تقسم استدلال نموذج اللغة الكبير إلى مرحلتين منفصلتين - التعبئة المسبقة وفك التشفير - وتشغيلها على مجموعات مختلفة من وحدات معالجة الرسومات. وهذا أمر مهم لأن هاتين المرحلتين لديهما شهية متعارضة للأجهزة، وإجبارهما على نفس الأجهزة يؤدي إلى إهدار القدرة ويضر بزمن الوصول.

تعد خدمة التعبئة المسبقة وفك التشفير المفصلة بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

عندما يجيب LLM، فإنه يعمل على مرحلتين. يقرأ الملء المسبق الموجه بالكامل مرة واحدة وينشئ ذاكرة التخزين المؤقت لقيمة المفتاح (KV)؛ هذا عبارة عن انفجار كبير ومتوازي ومرتبط بالحوسبة يشبع وحدات الرياضيات الخاصة بوحدة معالجة الرسومات. يقوم فك التشفير بعد ذلك بإنشاء الرموز المميزة واحدًا تلو الآخر، حيث تقرأ كل خطوة ذاكرة التخزين المؤقت KV بالكامل - وهو تدفق مرتبط بعرض النطاق الترددي للذاكرة، وحساب خفيف. عند التشغيل معًا، تؤدي عملية التعبئة المسبقة الطويلة إلى إيقاف فك تشفير الجميع (حظر رأس الخط)، ويؤدي تجميع الاثنين إلى حدوث تداخل. يؤدي التصنيف إلى التعبئة المسبقة لأحد تجمعات وحدات معالجة الرسومات (GPU) وفك التشفير في تجمع آخر، ونقل ذاكرة التخزين المؤقت KV بينهما عبر اتصالات بينية سريعة مثل NVLink أو InfiniBand. يتم ضبط كل مجموعة وتوسيع نطاقها بشكل مستقل، مما يؤدي إلى تحسين الإنتاجية الجيدة، وتنعيم زمن الاستجابة، والسماح للمشغلين بتحقيق أهداف ضيقة للوقت حتى الرمز الأول والوقت لكل رمز مميز في وقت واحد.

البصيرة الفنية

وتختلف المرحلتان في عنق الزجاجة. تقوم عملية التعبئة المسبقة بمعالجة جميع الرموز المميزة بالتوازي، لذلك يتم قياس FLOPs الخاصة بها بطول سريع وتبلغ الحد الأقصى لنوى الموتر. فك التشفير هو انحدار تلقائي: يحتاج كل رمز مميز جديد إلى تمرير أمامي واحد يعيد قراءة ذاكرة التخزين المؤقت الكاملة لـ KV من HBM، لذلك يتم التحكم في الإنتاجية من خلال عرض النطاق الترددي للذاكرة، وليس الحساب. يستغل التصنيف ذلك عن طريق تحديد الحجم، والتجميع، وحتى اختيار توازي مختلف لكل تجمع، ثم شحن ذاكرة التخزين المؤقت KV من عمال التعبئة المسبقة لفك تشفير العمال.

إتقان خدمة التعبئة المسبقة وفك التشفير المفصلة

بنية خدمة تقسم استدلال نموذج اللغة الكبير إلى مرحلتين منفصلتين - التعبئة المسبقة وفك التشفير - وتشغيلها على مجموعات مختلفة من وحدات معالجة الرسومات. وهذا مهم لأن هاتين المرحلتين لديهما شهية متعارضة للأجهزة، وإجبارهما على نفس الأجهزة يؤدي إلى إهدار القدرة ويضر بزمن الوصول. تعد خدمة التعبئة المسبقة وفك التشفير المفصلة بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع خدمة التعبئة المسبقة وفك التشفير المفصلة كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم خدمة التعبئة المسبقة وفك التشفير المفصلة على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل خدمة التعبئة المسبقة وفك التشفير المفصلة

توقع أن يصبح التصنيف افتراضيًا في مجموعات الإنتاج. قامت أنظمة مثل DistServe، وSplitwise، وMooncake بنشرها، كما يقوم vLLM وNVIDIA Dynamo الآن بشحن أوضاع مصنفة. تعمل الأبحاث على تحسينات نقل ذاكرة التخزين المؤقت KV، وتجميع ذاكرة التخزين المؤقت وإعادة استخدامها عبر الطلبات، وإعادة التوازن الديناميكي لنسب التعبئة المسبقة/فك التشفير في ظل حركة المرور المتغيرة، والتكامل الأكثر إحكامًا مع التخزين المؤقت للبادئة والتعبئة المسبقة المقسمة. مع نمو نوافذ السياق إلى ملايين الرموز المميزة، يصبح فصل هذه المراحل ضروريًا بشكل متزايد لتقديم خدمة فعالة من حيث التكلفة ومنخفضة زمن الاستجابة.

التنفيذ في العالم الحقيقي

يقوم مساعد الدردشة بتوجيه مطالبات المستندات الطويلة إلى مجموعة تعبئة مسبقة كثيفة الحوسبة، ثم يقوم بتدفق الردود من مجموعة فك ترميز مُحسّنة للذاكرة للحفاظ على سلاسة زمن استجابة الكتابة.

يتيح NVIDIA Dynamo وvLLM للمشغلين نشر مجموعات عاملة منفصلة للتعبئة المسبقة وفك التشفير، بحيث لا يؤدي تدفق المطالبات الطويلة إلى تجميد الأجيال المستمرة.

يقوم Mooncake (الذي يستخدمه Kimi من Moonshot AI) بتفكيك التعبئة المسبقة وفك التشفير وإضافة مجموعة KV-cache موزعة لتقليل عمليات إعادة الحساب السريعة الزائدة عن الحاجة على نطاق واسع.

تُخصص خدمة إكمال التعليمات البرمجية مجموعة تعبئة مسبقة صغيرة للمطالبات القصيرة ومجموعة كبيرة لفك التشفير، نظرًا لأن معظم التكلفة تأتي من دفق العديد من الرموز المميزة للمخرجات.

أنماط التنفيذ

خدمة التعبئة المسبقة وفك التشفير المفصلة في الممارسة العملية

يقوم مساعد الدردشة بتوجيه مطالبات المستندات الطويلة إلى مجموعة تعبئة مسبقة كثيفة الحوسبة، ثم يقوم بتدفق الردود من مجموعة فك ترميز مُحسّنة للذاكرة للحفاظ على سلاسة زمن استجابة الكتابة.

يقوم مساعد الدردشة بتوجيه المستندات الطويلة إلى مجموعة تعبئة مسبقة كثيفة الحوسبة، ثم يقوم بتدفق الردود من مجموعة فك ترميز محسنة للذاكرة للحفاظ على زمن استجابة الكتابة بسلاسة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

خدمة التعبئة المسبقة وفك التشفير المفصلة في الممارسة العملية

يتيح NVIDIA Dynamo وvLLM للمشغلين نشر مجموعات عاملة منفصلة للتعبئة المسبقة وفك التشفير، بحيث لا يؤدي تدفق المطالبات الطويلة إلى تجميد الأجيال المستمرة.

يتيح NVIDIA Dynamo وvLLM للمشغلين نشر مجموعات عاملة منفصلة للتعبئة المسبقة وفك التشفير، بحيث لا تؤدي مجموعة من المطالبات الطويلة إلى تجميد الأجيال المستمرة. وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

خدمة التعبئة المسبقة وفك التشفير المفصلة في الممارسة العملية

يقوم Mooncake (الذي يستخدمه Kimi من Moonshot AI) بتفكيك التعبئة المسبقة وفك التشفير وإضافة مجموعة KV-cache موزعة لتقليل عمليات إعادة الحساب السريعة الزائدة عن الحاجة على نطاق واسع.

يقوم Mooncake (الذي يستخدمه Kimi من Moonshot AI) بتفكيك التعبئة المسبقة وفك التشفير وإضافة مجموعة KV-cache موزعة لخفض عمليات إعادة الحساب السريعة الزائدة عن الحاجة على نطاق واسع. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الخطأ بمرور الوقت.

خدمة التعبئة المسبقة وفك التشفير المفصلة في الممارسة العملية

تُخصص خدمة إكمال التعليمات البرمجية مجموعة تعبئة مسبقة صغيرة للمطالبات القصيرة ومجموعة كبيرة لفك التشفير، نظرًا لأن معظم التكلفة تأتي من دفق العديد من الرموز المميزة للمخرجات.

تخصص خدمة إكمال التعليمات البرمجية مجموعة تعبئة مسبقة صغيرة للمطالبات القصيرة ومجموعة كبيرة لفك التشفير، نظرًا لأن معظم التكلفة تأتي من تدفق العديد من الرموز المميزة للمخرجات، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف