نظرة عامة
YaRN (امتداد RoPE آخر) هو أسلوب فعال لتمديد نافذة السياق القابلة للاستخدام للنموذج إلى ما هو أبعد مما تم تدريبه عليه. إنه يعيد قياس تضمينات الموضع الدوار بذكاء بحيث يمكن للنموذج الذي تم تدريبه على رموز 4K، على سبيل المثال، التعامل مع 32K أو أكثر بأقل قدر من الضبط الدقيق.
YaRN وContext Length Extension عبارة عن لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.
الغوص العميق
تقوم معظم برامج LLM الحديثة بتشفير مواضع الرموز المميزة باستخدام RoPE (Rotary Position Embeddings)، والتي تقوم بتدوير الاستعلام والمتجهات الرئيسية حسب الزوايا المرتبطة بالموضع. عندما تقوم بتغذية تسلسلات أطول من مدة التدريب، تدخل هذه الدورات في نطاقات غير مرئية وينهار النموذج. تعمل YaRN، التي تم تقديمها في عام 2023 بواسطة Bowen Peng والمتعاونين معه، على إصلاح هذه المشكلة من خلال الاستيفاء المدرك لـ NTK المطبق لكل تردد: فهو يترك أبعاد التردد العالي (التي تلتقط العلاقات المحلية قصيرة المدى) دون تغيير في الغالب أثناء استيفاء أبعاد التردد المنخفض (التي تتتبع الموضع بعيد المدى). تضيف YaRN أيضًا تعديلًا لدرجة الحرارة إلى الانتباه لمواجهة تغيرات الإنتروبيا التي تأتي من سياقات أطول. والنتيجة هي أداء قوي طويل السياق بعد الضبط الدقيق لجزء صغير فقط من البيانات والخطوات التي تتطلبها الأساليب الساذجة.
البصيرة الفنية
يقوم RoPE بتعيين تردد دوران لكل بُعد من أبعاد التضمين. يضغط الاستيفاء الخطي الساذج جميع الترددات بالتساوي، مما يضر بأبعاد التردد العالي التي تشفر التفاصيل المحلية الدقيقة. تستخدم YaRN وظيفة منحدر لاستكمال أبعاد التردد المنخفض (الطول الموجي الطويل) فقط مع الحفاظ على أبعاد التردد العالي، بالإضافة إلى مقياس درجة حرارة الانتباه 1/sqrt(t) الذي يحافظ على استقرار حدة softmax مع نمو طول التسلسل. يعمل نهج NTK-by-parts هذا على توسيع السياق مع تدهور أقل بكثير.
إتقان الغزل وتمديد طول السياق
YaRN (امتداد RoPE آخر) هو أسلوب فعال لتمديد نافذة السياق القابلة للاستخدام للنموذج إلى ما هو أبعد مما تم تدريبه عليه. إنه يعيد قياس تضمينات الموضع الدوار بذكاء بحيث يمكن للنموذج الذي تم تدريبه على رموز 4K، على سبيل المثال، التعامل مع 32K أو أكثر بأقل قدر من الضبط الدقيق. YaRN وContext Length Extension عبارة عن لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع YaRN وContext Length Extension كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم YaRN وContext Length Extension على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
توسيع نموذج سياق 4K مفتوح إلى 32K أو 128K للإجابة على أسئلة المستندات الطويلة مع ضبط دقيق موجز
تمكين أنظمة الاسترجاع المعززة من استيعاب العديد من المقاطع المتسلسلة دون اقتطاع
تشغيل مساعدي التعليمات البرمجية الذين يحتاجون إلى ملف مستودع كبير كامل أو ملفات متعددة في موجه واحد
تكييف نموذج أساسي للمحادثات الطويلة متعددة المنعطفات التي تتراكم سجلات الدردشة الكبيرة
أنماط التنفيذ
YaRN وامتداد طول السياق في الممارسة العملية
توسيع نموذج سياق 4K مفتوح إلى 32K أو 128K للإجابة على أسئلة المستندات الطويلة مع ضبط دقيق موجز.
توسيع نموذج سياق 4K مفتوح إلى 32K أو 128K للإجابة على أسئلة المستندات الطويلة من خلال الضبط الدقيق الموجز، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
YaRN وامتداد طول السياق في الممارسة العملية
تمكين أنظمة الاسترجاع المعززة من استيعاب العديد من المقاطع المتسلسلة دون اقتطاع.
تمكين أنظمة الاسترجاع المعززة لاستيعاب العديد من المقاطع المتسلسلة دون اقتطاع عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
YaRN وامتداد طول السياق في الممارسة العملية
تشغيل مساعدي التعليمات البرمجية الذين يحتاجون إلى ملف مستودع كبير كامل أو ملفات متعددة في موجه واحد.
تشغيل مساعدي التعليمات البرمجية الذين يحتاجون إلى ملف مستودع كبير كامل أو ملفات متعددة في موجه واحد عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
YaRN وامتداد طول السياق في الممارسة العملية
تكييف نموذج أساسي للمحادثات الطويلة متعددة المنعطفات التي تتراكم سجلات الدردشة الكبيرة.
تكييف نموذج أساسي للمحادثات الطويلة متعددة المنعطفات التي تتراكم محفوظات الدردشة الكبيرة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.
غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.
يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.
خارطة طريق التنفيذ
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
المعيار في ظل ظروف التحميل والبيانات الواقعية.
المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.