نظرة عامة
يستخدم فك التشفير التخميني نموذج "مسودة" صغير وسريع لتخمين العديد من الرموز المميزة القادمة التي يتحقق منها النموذج الكبير بعد ذلك في مسار واحد. إنه يسرع عملية إنشاء النص 2-3x دون أي تغيير في الإخراج.
تعد نماذج مسودة فك التشفير التأملية جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة وإنشاء وتصنيف وتحويل النص والكلام على نطاق واسع.
الغوص العميق
تولد نماذج اللغات الكبيرة نصًا مميزًا واحدًا في كل مرة، وتتطلب كل خطوة تمريرًا أماميًا كاملاً عبر مليارات المعلمات - بطيئة ومرتبطة بالذاكرة. يهاجم فك التشفير التأملي هذا عن طريق إقران النموذج "الهدف" الكبير بنموذج "المسودة" الرخيص. تقترح مسودة النموذج بسرعة مجموعة من 4 إلى 8 رموز مرشحة، على سبيل المثال. يقوم النموذج الكبير بعد ذلك بمعالجة كل هذه العناصر في تمريرة أمامية متوازية واحدة والتحقق من كل واحدة منها. يتم قبول الرموز المميزة التي تطابق ما كان سينتجه النموذج الكبير؛ يتم تصحيح عدم التطابق الأول وتجاهل الباقي. نظرًا لأن التحقق من عدة رموز مميزة في وقت واحد يكلف تقريبًا نفس تكلفة إنشاء رمز واحد، فإن عمليات التشغيل المقبولة تكون مجانية تقريبًا. والأهم من ذلك، أن خطوة أخذ عينات الرفض تضمن أن يكون التوزيع النهائي مطابقًا لتشغيل النموذج الكبير وحده - أي السرعة دون فقدان الجودة.
البصيرة الفنية
الحيلة الأساسية هي اختبار أخذ عينات الرفض المعدل. بالنسبة لكل رمز مميز تمت صياغته، تتم مقارنة احتمالية النموذج المستهدف مع احتمالية مسودة النموذج. إذا كان الهدف يعين احتمالًا مساويًا أو أعلى، فسيتم قبول الرمز المميز؛ وإلا يتم قبوله باحتمال يساوي النسبة، وعند الرفض يتم أخذ عينة من الرمز المميز المصحح من التوزيع المتبقي المعدل. هذه الرياضيات تجعل المخرجات مكافئة لأخذ العينات مباشرة من النموذج الكبير.
إتقان نماذج مسودة فك التشفير التأملية
يستخدم فك التشفير التخميني نموذج "مسودة" صغير وسريع لتخمين العديد من الرموز المميزة القادمة التي يتحقق منها النموذج الكبير بعد ذلك في مسار واحد. إنه يسرع عملية إنشاء النص 2-3x دون أي تغيير في الإخراج. تعد نماذج مسودة فك التشفير التأملية جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة وإنشاء وتصنيف وتحويل النص والكلام على نطاق واسع. لبناء فهم عميق، تعامل مع نماذج مسودة فك التشفير التأملية كنموذج تشغيل، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تستخدم الفرق القوية نماذج مسودة فك التشفير التخمينية للمطالبات، والاسترجاع، وحلقات المراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
يستخدم Anthropic وOpenAI وGoogle فك التشفير التخميني لخفض زمن الاستجابة وتكلفة العرض على مساعدي الدردشة الذين يخدمون ملايين المستخدمين.
vLLM وNVIDIA TensorRT-LLM يقدمان فك تشفير تخميني مدمج حتى يتمكن المضيفون الذاتيون من تسريع عمليات نشر Llama أو Mistral.
إقران نموذج مسودة 7B مع هدف 70B (على سبيل المثال، عائلة Llama-3) لمضاعفة الرموز المميزة تقريبًا في الثانية على وحدة معالجة رسومات واحدة.
تستخدم أدوات إكمال التعليمات البرمجية نموذج مسودة صغير لاقتراح نموذج معياري يتحقق منه النموذج الأكبر، مما يجعل الاقتراحات سريعة في المحرر.
أنماط التنفيذ
نماذج فك التشفير التأملية في الممارسة العملية
يستخدم Anthropic وOpenAI وGoogle فك التشفير التخميني لخفض زمن الاستجابة وتكلفة العرض على مساعدي الدردشة الذين يخدمون ملايين المستخدمين.
تستخدم Anthropic وOpenAI وGoogle فك التشفير التخميني لخفض زمن الاستجابة وتكلفة العرض على مساعدي الدردشة الذين يخدمون ملايين المستخدمين. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
نماذج فك التشفير التأملية في الممارسة العملية
vLLM وNVIDIA TensorRT-LLM يقدمان فك تشفير تخميني مدمج حتى يتمكن المضيفون الذاتيون من تسريع عمليات نشر Llama أو Mistral.
vLLM وNVIDIA TensorRT-LLM يقدمان فك تشفير تخميني مدمج حتى يتمكن المضيفون الذاتيون من تسريع عمليات نشر Llama أو Mistral. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
نماذج فك التشفير التأملية في الممارسة العملية
إقران نموذج مسودة 7B مع هدف 70B (على سبيل المثال، عائلة Llama-3) لمضاعفة الرموز المميزة تقريبًا في الثانية على وحدة معالجة رسومات واحدة.
إقران نموذج مسودة 7B مع هدف 70B (على سبيل المثال، عائلة Llama-3) لمضاعفة الرموز المميزة في الثانية تقريبًا على وحدة معالجة رسومات واحدة، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
نماذج فك التشفير التأملية في الممارسة العملية
تستخدم أدوات إكمال التعليمات البرمجية نموذج مسودة صغير لاقتراح نموذج معياري يتحقق منه النموذج الأكبر، مما يجعل الاقتراحات سريعة في المحرر.
تستخدم أدوات إكمال التعليمات البرمجية نموذج مسودة صغير لاقتراح نموذج معياري يتحقق منه النموذج الأكبر، مع إبقاء الاقتراحات سريعة في المحرر. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.
يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.
قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.
خارطة طريق التنفيذ
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.