نظرة عامة
تقوم ذاكرة التخزين المؤقت KV بتخزين متجهات المفتاح والقيمة التي قام المحول بحسابها بالفعل للرموز المميزة السابقة، لذلك لا يتعين عليه إعادة حسابها لكل كلمة جديدة يقوم بإنشائها. هذا هو السبب الأكبر الذي يجعل إنشاء النص سريعًا - والشيء الرئيسي الذي يستهلك ذاكرة وحدة معالجة الرسومات الخاصة بك أثناء المحادثات الطويلة.
تعد KV Cache جزءًا من مكدس لغة الذكاء الاصطناعي المستخدم لقراءة النص والكلام وإنشاءه وتصنيفه وتحويله على نطاق واسع.
الغوص العميق
تقوم المحولات بإنشاء رمز نصي واحد في كل مرة، وتحتاج كل طبقة انتباه لرمز مميز جديد إلى المقارنة مع كل رمز مميز سابق. تعمل آلية الانتباه على تحويل كل رمز مميز إلى استعلام ومفتاح ومتجه قيمة. بدون التخزين المؤقت، فإن إنشاء الرمز المميز رقم 1000 يعني إعادة حساب المفاتيح والقيم لجميع الرموز المميزة الـ 999 السابقة في كل خطوة - وهو عمل تربيعي ومهدر. تقوم ذاكرة التخزين المؤقت KV بحفظ متجهات المفاتيح والقيم هذه بعد حسابها لأول مرة وإعادة استخدامها، لذا فإن كل خطوة جديدة تحسب فقط المتجهات لأحدث رمز مميز وتهتم بذاكرة التخزين المؤقت المخزنة. يؤدي هذا إلى تقليص تكلفة كل رمز مميز من التوسع بطول التسلسل إلى ثابت تقريبًا. المقايضة هي الذاكرة: تنمو ذاكرة التخزين المؤقت خطيًا مع طول السياق، وعدد الطبقات، ورؤوس الانتباه، وغالبًا ما تصبح مستهلك الذاكرة المهيمن في خدمة السياق الطويل.
البصيرة الفنية
أثناء مرحلة "التعبئة المسبقة"، يقوم النموذج بمعالجة الموجه بالكامل ويملأ ذاكرة التخزين المؤقت؛ أثناء "فك التشفير"، يتم إلحاق K/V لرمز مميز واحد في كل خطوة وإعادة الحضور. يتم قياس حجم ذاكرة التخزين المؤقت على شكل 2 (K وV) × طبقات × رؤوس × رأس_ديم × طول_تسلسل × دفعة، بالدقة المختارة. لترويض ذلك، تستخدم النماذج الحديثة استعلامًا مجمعًا أو استعلامًا متعددًا لمشاركة المفاتيح/القيم عبر الرؤوس، وتستخدم أنظمة الخدمة مثل vLLM PagedAttention لتخصيص ذاكرة التخزين المؤقت في كتل غير متجاورة، مما يقلل التجزئة والنفايات.
إتقان ذاكرة التخزين المؤقت KV
تقوم ذاكرة التخزين المؤقت KV بتخزين متجهات المفتاح والقيمة التي قام المحول بحسابها بالفعل للرموز المميزة السابقة، لذلك لا يتعين عليه إعادة حسابها لكل كلمة جديدة يقوم بإنشائها. هذا هو السبب الأكبر الذي يجعل إنشاء النص سريعًا - والشيء الرئيسي الذي يستهلك ذاكرة وحدة معالجة الرسومات الخاصة بك أثناء المحادثات الطويلة. تعد KV Cache جزءًا من مكدس لغة الذكاء الاصطناعي المستخدم لقراءة النص والكلام وإنشاءه وتصنيفه وتحويله على نطاق واسع. لبناء فهم عميق، تعامل مع KV Cache كنموذج تشغيل، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وافصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تستخدم الفرق القوية تصميم KV Cache للمطالبة والاسترجاع والمراجعة كنظام اتصال متكامل. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
تسريع ردود chatbot عن طريق إعادة استخدام المفاتيح/القيم المخزنة مؤقتًا من سجل المحادثة بدلاً من إعادة معالجتها في كل دورة.
يقوم التخزين المؤقت للبادئة بمشاركة ذاكرة التخزين المؤقت لمطالبة نظام طويلة عبر العديد من المستخدمين، مما يقلل التكلفة ووقت الاستجابة.
يقوم PagedAttention الخاص بـ vLLM بإدارة ذاكرة التخزين المؤقت KV في كتل لخدمة العديد من الطلبات المتزامنة على وحدة معالجة رسومات واحدة بكفاءة.
تحديد حجم ذاكرة التخزين المؤقت KV لتقليل الدقة لتناسب السياقات الأطول في ذاكرة GPU المحدودة.
أنماط التنفيذ
ذاكرة التخزين المؤقت KV في الممارسة العملية
تسريع ردود chatbot عن طريق إعادة استخدام المفاتيح/القيم المخزنة مؤقتًا من سجل المحادثة بدلاً من إعادة معالجتها في كل دورة.
تسريع ردود chatbot من خلال إعادة استخدام المفاتيح/القيم المخزنة مؤقتًا من سجل المحادثة بدلاً من إعادة معالجتها في كل دورة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
ذاكرة التخزين المؤقت KV في الممارسة العملية
يقوم التخزين المؤقت للبادئة بمشاركة ذاكرة التخزين المؤقت لمطالبة نظام طويلة عبر العديد من المستخدمين، مما يقلل التكلفة ووقت الاستجابة.
التخزين المؤقت للبادئة الذي يشارك ذاكرة التخزين المؤقت لموجه نظام طويل عبر العديد من المستخدمين، مما يقلل التكلفة وزمن الاستجابة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
ذاكرة التخزين المؤقت KV في الممارسة العملية
يقوم PagedAttention الخاص بـ vLLM بإدارة ذاكرة التخزين المؤقت KV في كتل لخدمة العديد من الطلبات المتزامنة على وحدة معالجة رسومات واحدة بكفاءة.
يقوم PagedAttention الخاص بـ vLLM بإدارة ذاكرة التخزين المؤقت لـ KV في كتل لخدمة العديد من الطلبات المتزامنة على وحدة معالجة رسومات واحدة بكفاءة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
ذاكرة التخزين المؤقت KV في الممارسة العملية
تحديد حجم ذاكرة التخزين المؤقت KV لتقليل الدقة لتناسب السياقات الأطول في ذاكرة GPU المحدودة.
تحديد كمية ذاكرة التخزين المؤقت KV لتقليل الدقة لتناسب السياقات الأطول في ذاكرة وحدة معالجة الرسومات المحدودة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.
يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.
قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.
خارطة طريق التنفيذ
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.