ٹیکنیکل گائیڈ

YaRN اور سیاق و سباق کی لمبائی کی توسیع

YaRN (ابھی تک ایک اور RoPE ایکسٹینشن) ماڈل کی قابل استعمال سیاق و سباق کی کھڑکی کو اس سے کہیں زیادہ پھیلانے کی ایک موثر تکنیک ہے جس پر اسے تربیت دی گئی تھی۔

جائزہ

YaRN (ابھی تک ایک اور RoPE ایکسٹینشن) ماڈل کی قابل استعمال سیاق و سباق کی کھڑکی کو اس سے کہیں زیادہ پھیلانے کی ایک موثر تکنیک ہے جس پر اسے تربیت دی گئی تھی۔ یہ چالاکی کے ساتھ روٹری پوزیشن ایمبیڈنگز کو دوبارہ اسکیل کرتا ہے تاکہ ایک ماڈل جس پر تربیت یافتہ ہو، کہہ لیں، 4K ٹوکن کم سے کم فائن ٹیوننگ کے ساتھ 32K یا اس سے زیادہ کو سنبھال سکتا ہے۔

YaRN اور سیاق و سباق کی لمبائی کی توسیع ایک تکنیکی عمارت کا بلاک ہے جو ماڈل کے معیار، بنیادی ڈھانچے کی لاگت، تاخیر اور پیمانے پر قابل اعتماد کو متاثر کرتا ہے۔

گہرا غوطہ

زیادہ تر جدید LLMs ٹوکن پوزیشنز کو RoPE (روٹری پوزیشن ایمبیڈنگز) کے ساتھ انکوڈ کرتے ہیں، جو پوزیشن سے منسلک زاویوں سے سوال اور کلیدی ویکٹر کو گھماتے ہیں۔ جب آپ ٹریننگ کی لمبائی سے زیادہ لمبے سلسلے کو فیڈ کرتے ہیں، تو یہ گردشیں ان دیکھی حدود میں داخل ہوتی ہیں اور ماڈل ٹوٹ جاتا ہے۔ YaRN، جو 2023 میں Bowen Peng اور معاونین کے ذریعے متعارف کرایا گیا تھا، اسے NTK- آگاہ انٹرپولیشن فی فریکوئنسی لاگو کرتے ہوئے ٹھیک کرتا ہے: یہ اعلی تعدد کے طول و عرض (جو مقامی، مختصر فاصلے کے رشتوں کو پکڑتا ہے) کو زیادہ تر اچھوتا چھوڑ دیتا ہے جب کہ کم تعدد کے طول و عرض (جو طویل فاصلے کی پوزیشن کو ٹریک کرتا ہے)۔ YaRN طویل سیاق و سباق سے آنے والی اینٹروپی تبدیلیوں کا مقابلہ کرنے کے لیے توجہ کے لیے درجہ حرارت کی ایڈجسٹمنٹ بھی شامل کرتا ہے۔ نتیجہ اعداد و شمار کے صرف ایک چھوٹے سے حصے پر فائن ٹیوننگ کے بعد مضبوط سیاق و سباق کی کارکردگی ہے اور ایسے اقدامات جن کی سادہ لوحی کی ضرورت ہوتی ہے۔

تکنیکی بصیرت

RoPE ہر سرایت کرنے والے جہت کو گردش کی فریکوئنسی تفویض کرتا ہے۔ سادہ لکیری انٹرپولیشن تمام فریکوئنسیوں کو یکساں طور پر کمپریس کرتا ہے، جس سے اعلی تعدد کے طول و عرض کو نقصان پہنچتا ہے جو مقامی تفصیلات کو انکوڈ کرتے ہیں۔ YaRN ایک ریمپ فنکشن کا استعمال کرتا ہے تاکہ صرف کم فریکوئنسی (لمبی طول موج) کے طول و عرض کو انٹرپولیٹ کیا جا سکے جبکہ اعلی تعدد والے کو محفوظ رکھتے ہوئے، نیز 1/sqrt(t) توجہ کا درجہ حرارت پیمانہ جو ترتیب کی لمبائی کے بڑھنے کے ساتھ ساتھ softmax نفاست کو مستحکم رکھتا ہے۔ یہ NTK بہ حصوں کا نقطہ نظر بہت کم تنزلی کے ساتھ سیاق و سباق کو بڑھاتا ہے۔

YaRN اور سیاق و سباق کی لمبائی کی توسیع میں مہارت حاصل کرنا

YaRN (ابھی تک ایک اور RoPE ایکسٹینشن) ماڈل کی قابل استعمال سیاق و سباق کی کھڑکی کو اس سے کہیں زیادہ پھیلانے کی ایک موثر تکنیک ہے جس پر اسے تربیت دی گئی تھی۔ یہ چالاکی کے ساتھ روٹری پوزیشن ایمبیڈنگز کو دوبارہ اسکیل کرتا ہے تاکہ ایک ماڈل جس پر تربیت یافتہ ہو، کہہ لیں، 4K ٹوکن کم سے کم فائن ٹیوننگ کے ساتھ 32K یا اس سے زیادہ کو سنبھال سکتا ہے۔ YaRN اور سیاق و سباق کی لمبائی کی توسیع ایک تکنیکی عمارت کا بلاک ہے جو ماڈل کے معیار، بنیادی ڈھانچے کی لاگت، تاخیر اور پیمانے پر قابل اعتماد کو متاثر کرتا ہے۔ گہری تفہیم پیدا کرنے کے لیے، YaRN اور Context Length Extension کو ایک آپریٹنگ ماڈل کے طور پر سمجھیں، نہ کہ ایک خصوصیت: مطلوبہ نتائج کی وضاحت کریں، مفروضوں کو واضح کریں، اور الگ کریں کہ سسٹم قابل اعتماد طریقے سے کیا کر سکتا ہے اس سے جو ابھی تک ماہرانہ فیصلے کی ضرورت ہے۔

عملی طور پر، YaRN اور Context Length Extension کا استعمال کرنے والی مضبوط ٹیمیں فن تعمیر، ڈیٹا، اور بنیادی ڈھانچے کے انتخاب کو قابل اعتماد اور لاگت کے خلاف بہتر بناتی ہیں۔ وہ واضح کامیابی کے معیار کی دستاویز کرتے ہیں، حقیقت پسندانہ ڈیٹا اور ورک فلو کے خلاف جانچ کرتے ہیں، اور ایک بار کی بینچ مارک جیت کے بجائے مشاہدہ شدہ ناکامی کے نمونوں کی بنیاد پر اعادہ کرتے ہیں۔ یہ وہ جگہ ہے جہاں نظریاتی تفہیم مصنوعات، پالیسی اور آپریشنز میں پائیدار صلاحیت میں بدل جاتی ہے۔

فن تعمیر کے فیصلے سالوں تک کارکردگی اور آپریٹنگ لاگت کو آگے بڑھاتے ہیں۔ ایک ہی وقت میں، ایک بینچ مارک کو بہتر بنانا نظام کی وسیع تر کمزوریوں کو چھپا سکتا ہے۔ سب سے زیادہ لچکدار طریقہ یہ ہے کہ تجرباتی رفتار کو حکمرانی کے نظم و ضبط کے ساتھ ملایا جائے: پائلٹ چلائیں، شواہد حاصل کریں، فیصلے کے نوشتہ جات شائع کریں، اور ماڈل رویے، صارف کی توقعات، اور ریگولیٹری تقاضوں کے ارتقا کے ساتھ ساتھ حفاظتی اقدامات کو مسلسل اپ ڈیٹ کریں۔

اسٹریٹجک اثر

فن تعمیر کے فیصلے سالوں تک کارکردگی اور آپریٹنگ لاگت کو آگے بڑھاتے ہیں۔

فن تعمیر کے فیصلے سالوں تک کارکردگی اور آپریٹنگ لاگت کو آگے بڑھاتے ہیں۔ اعلیٰ معیار کی تعیناتیوں میں، اس کا ترجمہ قابل پیمائش آپریٹنگ قواعد، ملکیت کی حدود، اور بار بار نظرثانی کی رسومات میں کیا جاتا ہے تاکہ ٹیمیں ابہام کو بڑھانے کے بجائے اعتماد کو بڑھا سکیں۔

تکنیکی تعلیم ٹیموں کو صحیح اسٹیک منتخب کرنے میں مدد کرتی ہے، نہ صرف جدید ترین۔

تکنیکی تعلیم ٹیموں کو صحیح اسٹیک منتخب کرنے میں مدد کرتی ہے، نہ صرف جدید ترین۔ اعلیٰ معیار کی تعیناتیوں میں، اس کا ترجمہ قابل پیمائش آپریٹنگ قواعد، ملکیت کی حدود، اور بار بار نظرثانی کی رسومات میں کیا جاتا ہے تاکہ ٹیمیں ابہام کو بڑھانے کے بجائے اعتماد کو بڑھا سکیں۔

انجینئرنگ کے بہتر انتخاب پیداوار میں قابل اعتماد واقعات کو کم کرتے ہیں۔

انجینئرنگ کے بہتر انتخاب پیداوار میں قابل اعتماد واقعات کو کم کرتے ہیں۔ اعلیٰ معیار کی تعیناتیوں میں، اس کا ترجمہ قابل پیمائش آپریٹنگ قواعد، ملکیت کی حدود، اور بار بار نظرثانی کی رسومات میں کیا جاتا ہے تاکہ ٹیمیں ابہام کو بڑھانے کے بجائے اعتماد کو بڑھا سکیں۔

YaRN کا مستقبل اور سیاق و سباق کی لمبائی کی توسیع

سیاق و سباق کی توسیع اب معیاری مشق ہے: کھلے ماڈلز معمول کے مطابق 128K ٹوکن یا اس سے زیادہ تک پہنچنے والے YaRN کے توسیعی ورژن بھیجتے ہیں۔ تحقیق ان طریقوں کی طرف بڑھ رہی ہے جو سیاق و سباق کو صفر یا قریب صفر ٹھیک ٹیوننگ کے ساتھ بڑھاتے ہیں، توجہ کے نمونوں کی چالوں کے ساتھ RoPE ریسکیلنگ کو جوڑتے ہیں، اور صرف سروں کے بجائے پوری ونڈو میں معیار کو برقرار رکھتے ہیں۔ پہلے سے تربیت میں ان تکنیکوں کے سخت انضمام کی توقع کریں تاکہ لمبا سیاق و سباق ریٹروفٹ کی بجائے مقامی ہو۔

حقیقی دنیا کا نفاذ

مختصر فائن ٹیوننگ کے ساتھ طویل دستاویز کے سوالوں کے جوابات کے لیے کھلے 4K سیاق و سباق کے ماڈل کو 32K یا 128K تک بڑھانا

بازیافت کے بڑھے ہوئے نظام کو چالو کرنا تاکہ بغیر کسی کٹے ہوئے متعدد مربوط حصئوں کو شامل کیا جا سکے۔

پاورنگ کوڈ اسسٹنٹ جن کو ایک پرامپٹ میں ایک پوری بڑی ریپوزٹری فائل یا متعدد فائلوں کی ضرورت ہوتی ہے۔

طویل کثیر موڑ گفتگو کے لیے ایک بنیادی ماڈل کو اپنانا جو بڑی چیٹ ہسٹری جمع کرتی ہے۔

نفاذ کے پیٹرنز

عملی طور پر YaRN اور سیاق و سباق کی لمبائی کی توسیع

مختصر فائن ٹیوننگ کے ساتھ طویل دستاویز کے سوالوں کے جوابات کے لیے کھلے 4K سیاق و سباق کے ماڈل کو 32K یا 128K تک بڑھانا۔

مختصر فائن ٹیوننگ کے ساتھ طویل دستاویز کے سوالوں کے جوابات کے لیے کھلے 4K سیاق و سباق کے ماڈل کو 32K یا 128K تک بڑھانا ٹیمیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ سامنے کے معیار کی حد کو متعین کرتی ہیں، کنارے کے معاملات کے لیے انسانی اضافے کا راستہ رکھتی ہیں، اور وقت کے ساتھ ساتھ پیداواری فوائد اور غلطی کے اخراجات دونوں کو ٹریک کرتی ہیں۔

عملی طور پر YaRN اور سیاق و سباق کی لمبائی کی توسیع

بازیافت کے بڑھے ہوئے نظاموں کو قابل بناتا ہے کہ وہ بہت سے مربوط حصئوں کو تراشے بغیر داخل کر سکے۔

بازیافت کے بڑھے ہوئے نظاموں کو بغیر کسی کٹے ہوئے بہت سے مربوط حصئوں کو شامل کرنے کے لیے فعال کرنا ٹیمیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ کوالٹی تھریش ہولڈ کو سامنے رکھتے ہیں، کنارے کے معاملات کے لیے انسانی اضافے کا راستہ رکھتے ہیں، اور وقت کے ساتھ ساتھ پیداواری فوائد اور غلطی کے اخراجات دونوں کو ٹریک کرتے ہیں۔

عملی طور پر YaRN اور سیاق و سباق کی لمبائی کی توسیع

پاورنگ کوڈ اسسٹنٹ جن کو ایک پرامپٹ میں ایک پوری بڑی ریپوزٹری فائل یا متعدد فائلوں کی ضرورت ہوتی ہے۔

پاورنگ کوڈ اسسٹنٹ جن کو ایک پرامپٹ میں ایک پوری بڑی ریپوزٹری فائل یا ایک سے زیادہ فائلوں کی ضرورت ہوتی ہے ٹیمیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ سامنے کی کوالٹی تھریشولڈ کی وضاحت کرتی ہیں، ایج کیسز کے لیے انسانی اضافہ کا راستہ رکھتی ہیں، اور وقت کے ساتھ ساتھ پیداواری فوائد اور غلطی کے اخراجات دونوں کو ٹریک کرتی ہیں۔

عملی طور پر YaRN اور سیاق و سباق کی لمبائی کی توسیع

طویل کثیر موڑ گفتگو کے لیے ایک بنیادی ماڈل کو اپنانا جو بڑی چیٹ ہسٹری جمع کرتی ہے۔

طویل کثیر موڑ والی گفتگو کے لیے ایک بنیادی ماڈل کو اپنانا جو بڑی چیٹ ہسٹری جمع کرتی ہے ٹیمیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ کوالٹی تھریش ہولڈ کو سامنے رکھتے ہیں، کنارے کے معاملات کے لیے انسانی ترقی کا راستہ رکھتے ہیں، اور وقت کے ساتھ ساتھ پیداواری فوائد اور غلطی کے اخراجات دونوں کو ٹریک کرتے ہیں۔

خطرات اور گارڈریلز

!

ایک بینچ مارک کو بہتر بنانا نظام کی وسیع تر کمزوریوں کو چھپا سکتا ہے۔

!

بنیادی ڈھانچے اور دیکھ بھال کے اخراجات کو اکثر کم سمجھا جاتا ہے۔

!

سیکورٹی اور مشاہداتی فرق بڑھ سکتا ہے کیونکہ نظام زیادہ پیچیدہ ہو جاتا ہے۔

نفاذ کا روڈ میپ

1

نفاذ سے پہلے تاخیر، معیار اور لاگت کے اہداف کی وضاحت کریں۔

نفاذ سے پہلے تاخیر، معیار اور لاگت کے اہداف کی وضاحت کریں۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔

2

حقیقت پسندانہ بوجھ اور ڈیٹا کی شرائط کے تحت بینچ مارک۔

حقیقت پسندانہ بوجھ اور ڈیٹا کی شرائط کے تحت بینچ مارک۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔

3

غلطیوں، بڑھے ہوئے، اور صارف کے اثرات کے لیے آلے کی نگرانی۔

غلطیوں، بڑھے ہوئے، اور صارف کے اثرات کے لیے آلے کی نگرانی۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔

4

اسکیلنگ سے پہلے رول بیک اور واقعہ کے ردعمل کے راستے تیار کریں۔

اسکیلنگ سے پہلے رول بیک اور واقعہ کے ردعمل کے راستے تیار کریں۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔

دریافت کرتے رہیں