نظرة عامة
YaRN (امتداد RoPE آخر) هي تقنية تعمل على توسيع نافذة السياق القابلة للاستخدام للمحول إلى ما هو أبعد بكثير مما تم تدريبه عليه، مع الحد الأدنى من الضبط الدقيق. إنه أمر مهم لأنه يتيح للنماذج الحالية التعامل مع مستندات أطول بكثير دون إعادة التدريب من البداية.
يعد YaRN context Window Scaling جزءًا من مكدس لغة الذكاء الاصطناعي المستخدم لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع.
الغوص العميق
تقوم معظم برامج LLM الحديثة بتشفير مواضع الكلمات باستخدام Rotary Position Embeddings (RoPE)، والتي تعمل بشكل جيد فقط حتى الطول الذي شاهده النموذج أثناء التدريب. قم بالتغذية بتسلسل أطول وسيتدهور النموذج بشكل سيئ. تحل YaRN هذه المشكلة عن طريق إعادة قياس ترددات دوران RoPE بطريقة تراعي التردد: تُترك أبعاد التردد العالي (التي تلتقط العلاقات المحلية والقريبة) دون تغيير في الغالب، في حين يتم استيفاء أبعاد التردد المنخفض (التي تلتقط موضعًا بعيد المدى). كما أنه يضيف تعديلًا لدرجة الحرارة إلى الاهتمام للحفاظ على حسن التصرف على المدى الطويل. النتيجة، الموضحة في نماذج LLaMA، توسع السياق من 4K إلى 64K-128K من الرموز المميزة باستخدام حوالي 0.1% فقط من بيانات التدريب الأصلية وبضع مئات من خطوات الضبط الدقيق.
البصيرة الفنية
يقوم RoPE بتدوير الاستعلام والمتجهات الرئيسية بزاوية تتناسب مع الموضع والتردد لكل بُعد. يؤدي الاستيفاء الخطي الساذج (استيفاء الموضع) إلى سحق جميع الترددات بالتساوي، مما يضر بالتفاصيل المحلية. بدلًا من ذلك، يطبق YaRN تقنية NTK-by-parts: فهو يقوم باستيفاء أبعاد التردد المنخفض (الطول الموجي الطويل) فقط، ويترك الأبعاد ذات التردد العالي بمفردها، وينتقل بينها. يعوض مقياس درجة حرارة الانتباه تغير الإنتروبيا، مما يحافظ على الدقة عند الأطوال الممتدة.
إتقان تحجيم نافذة سياق YaRN
YaRN (امتداد RoPE آخر) هي تقنية تعمل على توسيع نافذة السياق القابلة للاستخدام للمحول إلى ما هو أبعد بكثير مما تم تدريبه عليه، مع الحد الأدنى من الضبط الدقيق. إنه أمر مهم لأنه يتيح للنماذج الحالية التعامل مع مستندات أطول بكثير دون إعادة التدريب من البداية. يعد YaRN context Window Scaling جزءًا من مكدس لغة الذكاء الاصطناعي المستخدم لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع. لبناء فهم عميق، تعامل مع YaRN context Window Scaling كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تقوم الفرق القوية التي تستخدم YaRN context Window Scaling بتصميم حلقات المطالبة والاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
توسيع نموذج LLaMA مفتوح من 4K إلى 128K من الرموز المميزة حتى يتمكن من استيعاب قاعدة تعليمات برمجية كاملة أو عقد طويل في تمريرة واحدة
السماح لبرنامج الدردشة الآلية بالاحتفاظ بسجلات محادثة طويلة جدًا دون اقتطاع المنعطفات السابقة
تلخيص المستندات بطول الكتاب أو النصوص متعددة الساعات التي تتجاوز النافذة الأصلية للنموذج الأساسي
التكيف بتكلفة منخفضة مع نموذج تم تدريبه مسبقًا لمهام استرجاع السياق الطويل باستخدام عملية ضبط دقيقة صغيرة فقط
أنماط التنفيذ
تحجيم نافذة سياق YaRN في الممارسة العملية
توسيع نموذج LLaMA مفتوح من 4K إلى 128K من الرموز المميزة حتى يتمكن من استيعاب قاعدة تعليمات برمجية كاملة أو عقد طويل في تمريرة واحدة.
توسيع نموذج LLaMA مفتوح من 4K إلى 128K من الرموز المميزة حتى يتمكن من استيعاب قاعدة تعليمات برمجية كاملة أو عقد طويل في مرور واحد. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تحجيم نافذة سياق YaRN في الممارسة العملية
السماح لبرنامج الدردشة الآلية بالاحتفاظ بسجلات محادثة طويلة جدًا دون اقتطاع المنعطفات السابقة.
السماح لروبوت الدردشة بالاحتفاظ بسجلات محادثة طويلة جدًا دون اقتطاع المنعطفات السابقة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تحجيم نافذة سياق YaRN في الممارسة العملية
تلخيص المستندات بطول الكتاب أو النصوص متعددة الساعات التي تتجاوز النافذة الأصلية للنموذج الأساسي.
تلخيص المستندات الطويلة أو النصوص متعددة الساعات التي تتجاوز النافذة الأصلية للنموذج الأساسي، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تحجيم نافذة سياق YaRN في الممارسة العملية
تكييف نموذج مُدرب مسبقًا بتكلفة زهيدة لمهام استرجاع السياق الطويل باستخدام عملية ضبط دقيقة صغيرة فقط.
تكييف نموذج مُدرب مسبقًا بتكلفة زهيدة لمهام استرجاع السياق الطويل باستخدام عملية ضبط دقيقة صغيرة فقط. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.
يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.
قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.
خارطة طريق التنفيذ
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.