ٹیکنیکل گائیڈ

پیجڈ توجہ اور وی ایل ایل ایم

PagedAttention میموری کے انتظام کی ایک تکنیک ہے جو زبان کے ماڈل کی توجہ کیش کو ایک بڑے ملحقہ حصے کی بجائے چھوٹے دوبارہ قابل استعمال بلاکس میں محفوظ کرتی ہے۔

جائزہ

PagedAttention میموری کے انتظام کی ایک تکنیک ہے جو زبان کے ماڈل کی توجہ کیش کو ایک بڑے ملحقہ حصے کی بجائے چھوٹے دوبارہ قابل استعمال بلاکس میں محفوظ کرتی ہے۔ یہ vLLM کو طاقت دیتا ہے، ایک اوپن سورس سرونگ انجن جو ڈرامائی طور پر بڑھاتا ہے کہ ایک GPU کتنی درخواستوں کو سنبھال سکتا ہے۔

PagedAttention اور vLLM ایک تکنیکی بلڈنگ بلاک ہے جو ماڈل کے معیار، بنیادی ڈھانچے کی لاگت، تاخیر، اور قابل اعتماد پیمانے پر اثر انداز ہوتا ہے۔

گہرا غوطہ

جب ایک زبان کا ماڈل متن تیار کرتا ہے، تو یہ اپنے دیکھے ہوئے ہر ٹوکن کے لیے ایک 'KV کیش' (کلیدی اور قدر ویکٹر) رکھتا ہے تاکہ اگلا ٹوکن مکمل سیاق و سباق کو دیکھ سکے۔ روایتی طور پر ہر درخواست میں اس کی زیادہ سے زیادہ ممکنہ لمبائی کے لیے GPU میموری کا ایک بڑا متصل سلیب محفوظ کیا جاتا ہے، جب ترتیب چھوٹے یا لمبائی میں مختلف ہوتی ہے تو بڑی مقدار میں ضائع ہوتا ہے۔ PagedAttention، UC Berkeley کے 2023 vLLM پیپر میں متعارف کرایا گیا، آپریٹنگ سسٹمز سے ورچوئل میموری پیجنگ کا آئیڈیا لیتا ہے: یہ KV کیشے کو فکسڈ سائز بلاکس میں تقسیم کرتا ہے جو میموری میں کہیں بھی رہ سکتے ہیں اور ڈیمانڈ پر مختص کیے جا سکتے ہیں۔ ایک تلاش کی میز منطقی ٹوکن پوزیشنوں کو جسمانی بلاکس پر نقشہ بناتی ہے۔ یہ میموری کے ٹکڑے ہونے کو تقریباً ختم کرتا ہے اور بلاکس کو شیئر کرنے دیتا ہے، مثال کے طور پر ایک ہی پرامپٹ سے متعدد آؤٹ پٹس میں۔

تکنیکی بصیرت

KV کیشے کو مقررہ سائز کے صفحات میں تقسیم کیا جاتا ہے، ہر ایک میں ٹوکنز کی ایک مقررہ تعداد کے لیے کلیدیں اور قدریں ہوتی ہیں۔ فی سیکوینس بلاک ٹیبل منطقی پوزیشنز کو فزیکل پیج کے مقامات پر نقشہ بناتا ہے، اس لیے ایک سیکوینس کی کیش کو متصل ہونے کی ضرورت نہیں ہے۔ چونکہ یکساں سابقہ ​​(ایک مشترکہ سسٹم پرامپٹ، یا بیم سرچ برانچز) کاپی آن رائٹ کے ذریعے ایک ہی فزیکل پیجز کی طرف اشارہ کر سکتے ہیں، اس لیے میموری کو ڈپلیکیٹ کی بجائے دوبارہ استعمال کیا جاتا ہے، فضلے کو 60% سے کچھ فیصد تک کم کرتے ہیں۔

PagedAttention اور vLLM میں مہارت حاصل کرنا

PagedAttention میموری کے انتظام کی ایک تکنیک ہے جو زبان کے ماڈل کی توجہ کیش کو ایک بڑے ملحقہ حصے کی بجائے چھوٹے دوبارہ قابل استعمال بلاکس میں محفوظ کرتی ہے۔ یہ vLLM کو طاقت دیتا ہے، ایک اوپن سورس سرونگ انجن جو ڈرامائی طور پر بڑھاتا ہے کہ ایک GPU کتنی درخواستوں کو سنبھال سکتا ہے۔ PagedAttention اور vLLM ایک تکنیکی بلڈنگ بلاک ہے جو ماڈل کے معیار، بنیادی ڈھانچے کی لاگت، تاخیر، اور قابل اعتماد پیمانے پر اثر انداز ہوتا ہے۔ گہری تفہیم پیدا کرنے کے لیے، PagedAttention اور vLLM کو ایک آپریٹنگ ماڈل کے طور پر پیش کریں، نہ کہ ایک خصوصیت: مطلوبہ نتائج کی وضاحت کریں، مفروضوں کو واضح کریں، اور اس سے الگ کریں کہ سسٹم قابل اعتماد طریقے سے کیا کر سکتا ہے جس کے لیے ابھی بھی ماہرانہ فیصلے کی ضرورت ہے۔

عملی طور پر، PagedAttention اور vLLM کا استعمال کرنے والی مضبوط ٹیمیں قابل اعتماد اور لاگت کے خلاف فن تعمیر، ڈیٹا اور بنیادی ڈھانچے کے انتخاب کو بہتر بناتی ہیں۔ وہ واضح کامیابی کے معیار کی دستاویز کرتے ہیں، حقیقت پسندانہ ڈیٹا اور ورک فلو کے خلاف جانچ کرتے ہیں، اور ایک بار کی بینچ مارک جیت کے بجائے مشاہدہ شدہ ناکامی کے نمونوں کی بنیاد پر اعادہ کرتے ہیں۔ یہ وہ جگہ ہے جہاں نظریاتی تفہیم مصنوعات، پالیسی اور آپریشنز میں پائیدار صلاحیت میں بدل جاتی ہے۔

فن تعمیر کے فیصلے سالوں تک کارکردگی اور آپریٹنگ لاگت کو آگے بڑھاتے ہیں۔ ایک ہی وقت میں، ایک بینچ مارک کو بہتر بنانا نظام کی وسیع تر کمزوریوں کو چھپا سکتا ہے۔ سب سے زیادہ لچکدار طریقہ یہ ہے کہ تجرباتی رفتار کو حکمرانی کے نظم و ضبط کے ساتھ ملایا جائے: پائلٹ چلائیں، شواہد حاصل کریں، فیصلے کے نوشتہ جات شائع کریں، اور ماڈل رویے، صارف کی توقعات، اور ریگولیٹری تقاضوں کے ارتقا کے ساتھ ساتھ حفاظتی اقدامات کو مسلسل اپ ڈیٹ کریں۔

اسٹریٹجک اثر

فن تعمیر کے فیصلے سالوں تک کارکردگی اور آپریٹنگ لاگت کو آگے بڑھاتے ہیں۔

فن تعمیر کے فیصلے سالوں تک کارکردگی اور آپریٹنگ لاگت کو آگے بڑھاتے ہیں۔ اعلیٰ معیار کی تعیناتیوں میں، اس کا ترجمہ قابل پیمائش آپریٹنگ قواعد، ملکیت کی حدود، اور بار بار نظرثانی کی رسومات میں کیا جاتا ہے تاکہ ٹیمیں ابہام کو بڑھانے کے بجائے اعتماد کو بڑھا سکیں۔

تکنیکی تعلیم ٹیموں کو صحیح اسٹیک منتخب کرنے میں مدد کرتی ہے، نہ صرف جدید ترین۔

تکنیکی تعلیم ٹیموں کو صحیح اسٹیک منتخب کرنے میں مدد کرتی ہے، نہ صرف جدید ترین۔ اعلیٰ معیار کی تعیناتیوں میں، اس کا ترجمہ قابل پیمائش آپریٹنگ قواعد، ملکیت کی حدود، اور بار بار نظرثانی کی رسومات میں کیا جاتا ہے تاکہ ٹیمیں ابہام کو بڑھانے کے بجائے اعتماد کو بڑھا سکیں۔

انجینئرنگ کے بہتر انتخاب پیداوار میں قابل اعتماد واقعات کو کم کرتے ہیں۔

انجینئرنگ کے بہتر انتخاب پیداوار میں قابل اعتماد واقعات کو کم کرتے ہیں۔ اعلیٰ معیار کی تعیناتیوں میں، اس کا ترجمہ قابل پیمائش آپریٹنگ قواعد، ملکیت کی حدود، اور بار بار نظرثانی کی رسومات میں کیا جاتا ہے تاکہ ٹیمیں ابہام کو بڑھانے کے بجائے اعتماد کو بڑھا سکیں۔

PagedAttention اور vLLM کا مستقبل

vLLM پہلے سے طے شدہ اوپن سورس انفرنس بیک بون بن گیا ہے، اور PagedAttention کے آئیڈیاز اب سب سے زیادہ سرونگ اسٹیک پر ظاہر ہوتے ہیں۔ گہرے پریفکس کیشنگ کی توقع کریں (صارفین میں کیشڈ سسٹم پرامپٹس کو دوبارہ استعمال کرنا)، الگ الگ مشینوں پر الگ الگ پری فل اور ڈی کوڈ، بہتر بے دخلی کی پالیسیاں، اور کوانٹائزیشن اور قیاس آرائی پر مبنی ضابطہ کشائی کے ساتھ سخت انضمام کی توقع کریں۔ جیسے جیسے سیاق و سباق کی ونڈوز لاکھوں ٹوکنز میں بڑھ رہی ہے، موثر پیجڈ KV مینجمنٹ سستی خدمت کو برقرار رکھنے کے لیے اور زیادہ مرکزی بن جاتی ہے۔

حقیقی دنیا کا نفاذ

ایک اوپن سورس LLM API کی میزبانی کرنا جہاں vLLM ایک GPU سے بہت سے ہم آہنگ چیٹ صارفین کو اعلی تھرو پٹ پر پیش کرتا ہے۔

پریفکس کیشنگ کے ذریعے ہزاروں درخواستوں میں ایک طویل سسٹم پرامپٹ کا اشتراک کرنا تاکہ اس پر ایک بار کارروائی ہو، بار بار نہیں۔

رننگ بیم کی تلاش یا ایک سے زیادہ نمونے کی تکمیلیں جو کاپی آن رائٹ کے ذریعے عام پرامپٹ کے لیے KV بلاکس کا اشتراک کرتی ہیں۔

GPU میموری کے فضلے کو ٹکڑے کرنے سے کاٹنا تاکہ ایک فراہم کنندہ ایک ہی ہارڈ ویئر پر بیک وقت زیادہ سیشن پیک کر سکے۔

نفاذ کے پیٹرنز

PagedAttention اور vLLM عملی طور پر

ایک اوپن سورس LLM API کی میزبانی کرنا جہاں vLLM ایک GPU سے بہت سے ہم آہنگ چیٹ صارفین کو اعلی تھرو پٹ پر پیش کرتا ہے۔

ایک اوپن سورس LLM API کی میزبانی کرنا جہاں vLLM ایک GPU سے بہت سے کنکرنٹ چیٹ صارفین کو اعلی تھرو پٹ پر پیش کرتا ہے ٹیمیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ سامنے کے معیار کی حد کی وضاحت کرتی ہیں، کنارے کے معاملات کے لیے انسانی ترقی کا راستہ رکھتی ہیں، اور وقت کے ساتھ ساتھ پیداواری فوائد اور غلطی کے اخراجات دونوں کو ٹریک کرتی ہیں۔

PagedAttention اور vLLM عملی طور پر

پریفکس کیشنگ کے ذریعے ہزاروں درخواستوں میں ایک طویل سسٹم پرامپٹ کا اشتراک کرنا تاکہ اس پر ایک بار کارروائی ہو، بار بار نہیں۔

پریفکس کیشنگ کے ذریعے ہزاروں درخواستوں پر ایک طویل سسٹم پرامپٹ کا اشتراک کرنا تاکہ اس پر ایک بار کارروائی کی جائے، بار بار نہیں، ٹیمیں عام طور پر بہتر نتائج حاصل کرتی ہیں جب وہ کوالٹی تھریش ہولڈز کو سامنے رکھتے ہیں، ایج کیسز کے لیے انسانی اضافے کا راستہ رکھتے ہیں، اور وقت کے ساتھ ساتھ پیداواری فوائد اور غلطی کے اخراجات دونوں کو ٹریک کرتے ہیں۔

PagedAttention اور vLLM عملی طور پر

رننگ بیم کی تلاش یا ایک سے زیادہ نمونے کی تکمیلیں جو کاپی آن رائٹ کے ذریعے عام پرامپٹ کے لیے KV بلاکس کا اشتراک کرتی ہیں۔

رننگ بیم کی تلاش یا ایک سے زیادہ نمونے کی تکمیلیں جو کاپی آن رائٹ ٹیموں کے ذریعے عام پرامپٹ کے لیے KV بلاکس کا اشتراک کرتی ہیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ سامنے کی کوالٹی تھریشولڈز کا تعین کرتی ہیں، کنارے کے معاملات کے لیے انسانی اضافے کا راستہ رکھتی ہیں، اور وقت کے ساتھ ساتھ پیداواری فوائد اور غلطی کے اخراجات دونوں کو ٹریک کرتی ہیں۔

PagedAttention اور vLLM عملی طور پر

GPU میموری کے فضلے کو فریگمنٹیشن سے کاٹنا تاکہ ایک فراہم کنندہ ایک ہی ہارڈ ویئر پر بیک وقت مزید سیشن پیک کر سکے۔

GPU میموری کے فضلے کو ٹکڑے ٹکڑے کرنے سے کاٹنا تاکہ ایک فراہم کنندہ ایک ہی ہارڈویئر پر زیادہ بیک وقت سیشن پیک کر سکے ٹیمیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ کوالٹی تھریش ہولڈ کو سامنے رکھتے ہیں، ایج کیسز کے لیے انسانی اضافے کا راستہ رکھتے ہیں، اور وقت کے ساتھ ساتھ پیداواری فوائد اور غلطی کے اخراجات دونوں کو ٹریک کرتے ہیں۔

خطرات اور گارڈریلز

!

ایک بینچ مارک کو بہتر بنانا نظام کی وسیع تر کمزوریوں کو چھپا سکتا ہے۔

!

بنیادی ڈھانچے اور دیکھ بھال کے اخراجات کو اکثر کم سمجھا جاتا ہے۔

!

سیکورٹی اور مشاہداتی فرق بڑھ سکتا ہے کیونکہ نظام زیادہ پیچیدہ ہو جاتا ہے۔

نفاذ کا روڈ میپ

1

نفاذ سے پہلے تاخیر، معیار اور لاگت کے اہداف کی وضاحت کریں۔

نفاذ سے پہلے تاخیر، معیار اور لاگت کے اہداف کی وضاحت کریں۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔

2

حقیقت پسندانہ بوجھ اور ڈیٹا کی شرائط کے تحت بینچ مارک۔

حقیقت پسندانہ بوجھ اور ڈیٹا کی شرائط کے تحت بینچ مارک۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔

3

غلطیوں، بڑھے ہوئے، اور صارف کے اثرات کے لیے آلے کی نگرانی۔

غلطیوں، بڑھے ہوئے، اور صارف کے اثرات کے لیے آلے کی نگرانی۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔

4

اسکیلنگ سے پہلے رول بیک اور واقعہ کے ردعمل کے راستے تیار کریں۔

اسکیلنگ سے پہلے رول بیک اور واقعہ کے ردعمل کے راستے تیار کریں۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔

دریافت کرتے رہیں