جائزہ
ایک پیش کرنے والا فن تعمیر جو بڑے لینگویج ماڈل کو دو الگ الگ مراحل میں تقسیم کرتا ہے — پری فل اور ڈی کوڈ — اور انہیں GPUs کے مختلف پولز پر چلاتا ہے۔ یہ اہمیت رکھتا ہے کیونکہ ان دو مرحلوں میں ہارڈ ویئر کی بھوک مخالف ہوتی ہے، اور انہیں ایک ہی مشین پر مجبور کرنے سے صلاحیت ضائع ہوتی ہے اور تاخیر کو نقصان پہنچتا ہے۔
ڈس ایگریگیٹڈ پری فل اور ڈی کوڈ سرونگ ایک تکنیکی بلڈنگ بلاک ہے جو ماڈل کے معیار، بنیادی ڈھانچے کی لاگت، تاخیر اور پیمانے پر قابل اعتماد کو متاثر کرتا ہے۔
گہرا غوطہ
جب LLM جواب دیتا ہے، تو یہ دو مراحل میں کام کرتا ہے۔ پری فل ایک ساتھ پورے پرامپٹ کو پڑھتا ہے اور کلیدی قدر (KV) کیشے بناتا ہے۔ یہ ایک بڑا، متوازی، کمپیوٹ باؤنڈ برسٹ ہے جو GPU کی ریاضی کی اکائیوں کو سیر کرتا ہے۔ ڈی کوڈ پھر ایک وقت میں ایک ایک ٹوکن تیار کرتا ہے، ہر قدم پورے KV کیشے کو پڑھتا ہے—ایک میموری-بینڈوڈتھ-باؤنڈ، ہلکے سے حساب کتاب۔ ایک ساتھ چلائیں، ایک لمبا پری فل ہر ایک کے ڈی کوڈ (ہیڈ آف لائن بلاکنگ) کو روکتا ہے، اور دونوں کو بیچنے سے مداخلت پیدا ہوتی ہے۔ تفریق ایک GPU پول پر پہلے سے بھرتی ہے اور دوسرے پر ڈی کوڈ کرتی ہے، ان کے درمیان KV کیشے کو NVLink یا InfiniBand جیسے تیز انٹرکنیکٹس پر منتقل کرتی ہے۔ ہر پول کو آزادانہ طور پر ٹیون کیا جاتا ہے اور اسکیل کیا جاتا ہے، گڈ پٹ کو بہتر بناتا ہے، ٹیل لیٹینسی کو ہموار کرتا ہے، اور آپریٹرز کو ٹائم ٹو فرسٹ ٹوکن اور ٹائم فی آؤٹ پٹ ٹوکن اہداف کو بیک وقت نشانہ بنانے دیتا ہے۔
تکنیکی بصیرت
دونوں مراحل ان کی رکاوٹ میں مختلف ہیں۔ پری فل تمام پرامپٹ ٹوکنز کو متوازی طور پر پروسیس کرتا ہے، اس لیے اس کے FLOPs پرامپٹ لمبائی کے ساتھ اسکیل کرتے ہیں اور یہ ٹینسر کور کو زیادہ سے زیادہ کرتا ہے۔ ڈی کوڈ خود بخود ہے: ہر نئے ٹوکن کو ایک فارورڈ پاس کی ضرورت ہوتی ہے جو HBM سے مکمل KV کیشے کو دوبارہ پڑھتا ہے، لہذا تھرو پٹ کو میموری بینڈوڈتھ کے ذریعے گیٹ کیا جاتا ہے، نہ کہ کمپیوٹ۔ تفریق ہر پول کے لیے سائز، بیچنگ، اور یہاں تک کہ مختلف ہم آہنگی کا انتخاب کر کے اس کا فائدہ اٹھاتی ہے، پھر KV کیشے کو پری فل ورکرز سے ڈی کوڈ کرنے کے لیے بھیجتی ہے۔
الگ الگ پری فل اور ڈی کوڈ سرونگ میں مہارت حاصل کرنا
ایک پیش کرنے والا فن تعمیر جو بڑے لینگویج ماڈل کو دو الگ الگ مراحل میں تقسیم کرتا ہے — پری فل اور ڈی کوڈ — اور انہیں GPUs کے مختلف پولز پر چلاتا ہے۔ یہ اہمیت رکھتا ہے کیونکہ ان دو مرحلوں میں ہارڈ ویئر کی بھوک مخالف ہوتی ہے، اور انہیں ایک ہی مشین پر مجبور کرنے سے صلاحیت ضائع ہوتی ہے اور تاخیر کو نقصان پہنچتا ہے۔ ڈس ایگریگیٹڈ پری فل اور ڈی کوڈ سرونگ ایک تکنیکی بلڈنگ بلاک ہے جو ماڈل کے معیار، بنیادی ڈھانچے کی لاگت، تاخیر اور پیمانے پر قابل اعتماد کو متاثر کرتا ہے۔ گہری تفہیم پیدا کرنے کے لیے، Disaggregated Prefill اور Decode Serving کو ایک آپریٹنگ ماڈل کے طور پر پیش کریں، کوئی ایک خصوصیت نہیں: مطلوبہ نتائج کی وضاحت کریں، مفروضوں کو واضح کریں، اور اس سے الگ کریں کہ سسٹم قابل اعتماد طریقے سے کیا کر سکتا ہے جس کے لیے ابھی بھی ماہرانہ فیصلے کی ضرورت ہے۔
عملی طور پر، Disaggregated Prefill اور Decode Serving کا استعمال کرنے والی مضبوط ٹیمیں قابل اعتماد اور لاگت کے خلاف فن تعمیر، ڈیٹا اور بنیادی ڈھانچے کے انتخاب کو بہتر بناتی ہیں۔ وہ واضح کامیابی کے معیار کی دستاویز کرتے ہیں، حقیقت پسندانہ ڈیٹا اور ورک فلو کے خلاف جانچ کرتے ہیں، اور ایک بار کی بینچ مارک جیت کے بجائے مشاہدہ شدہ ناکامی کے نمونوں کی بنیاد پر اعادہ کرتے ہیں۔ یہ وہ جگہ ہے جہاں نظریاتی تفہیم مصنوعات، پالیسی اور آپریشنز میں پائیدار صلاحیت میں بدل جاتی ہے۔
فن تعمیر کے فیصلے سالوں تک کارکردگی اور آپریٹنگ لاگت کو آگے بڑھاتے ہیں۔ ایک ہی وقت میں، ایک بینچ مارک کو بہتر بنانا نظام کی وسیع تر کمزوریوں کو چھپا سکتا ہے۔ سب سے زیادہ لچکدار طریقہ یہ ہے کہ تجرباتی رفتار کو حکمرانی کے نظم و ضبط کے ساتھ ملایا جائے: پائلٹ چلائیں، شواہد حاصل کریں، فیصلے کے نوشتہ جات شائع کریں، اور ماڈل رویے، صارف کی توقعات، اور ریگولیٹری تقاضوں کے ارتقا کے ساتھ ساتھ حفاظتی اقدامات کو مسلسل اپ ڈیٹ کریں۔
اسٹریٹجک اثر
فن تعمیر کے فیصلے سالوں تک کارکردگی اور آپریٹنگ لاگت کو آگے بڑھاتے ہیں۔
فن تعمیر کے فیصلے سالوں تک کارکردگی اور آپریٹنگ لاگت کو آگے بڑھاتے ہیں۔ اعلیٰ معیار کی تعیناتیوں میں، اس کا ترجمہ قابل پیمائش آپریٹنگ قواعد، ملکیت کی حدود، اور بار بار نظرثانی کی رسومات میں کیا جاتا ہے تاکہ ٹیمیں ابہام کو بڑھانے کے بجائے اعتماد کو بڑھا سکیں۔
تکنیکی تعلیم ٹیموں کو صحیح اسٹیک منتخب کرنے میں مدد کرتی ہے، نہ صرف جدید ترین۔
تکنیکی تعلیم ٹیموں کو صحیح اسٹیک منتخب کرنے میں مدد کرتی ہے، نہ صرف جدید ترین۔ اعلیٰ معیار کی تعیناتیوں میں، اس کا ترجمہ قابل پیمائش آپریٹنگ قواعد، ملکیت کی حدود، اور بار بار نظرثانی کی رسومات میں کیا جاتا ہے تاکہ ٹیمیں ابہام کو بڑھانے کے بجائے اعتماد کو بڑھا سکیں۔
انجینئرنگ کے بہتر انتخاب پیداوار میں قابل اعتماد واقعات کو کم کرتے ہیں۔
انجینئرنگ کے بہتر انتخاب پیداوار میں قابل اعتماد واقعات کو کم کرتے ہیں۔ اعلیٰ معیار کی تعیناتیوں میں، اس کا ترجمہ قابل پیمائش آپریٹنگ قواعد، ملکیت کی حدود، اور بار بار نظرثانی کی رسومات میں کیا جاتا ہے تاکہ ٹیمیں ابہام کو بڑھانے کے بجائے اعتماد کو بڑھا سکیں۔
حقیقی دنیا کا نفاذ
ایک چیٹ اسسٹنٹ لمبی دستاویز کو کمپیوٹ ہیوی پری فل کلسٹر کی طرف اشارہ کرتا ہے، پھر ٹائپنگ لیٹینسی کو ہموار رکھنے کے لیے میموری سے بہتر ڈیکوڈ کلسٹر سے جوابات جاری کرتا ہے۔
NVIDIA Dynamo اور vLLM آپریٹرز کو علیحدہ پری فل اور ڈی کوڈ ورکر گروپس کو تعینات کرنے دیتے ہیں تاکہ طویل پرامپٹس کا پھٹ جاری نسلوں کو منجمد نہ کرے۔
Mooncake (Moonshot AI's Kimi کے ذریعے استعمال کیا جاتا ہے) پری فل اور ڈی کوڈ کو الگ کرتا ہے اور پیمانے پر فالتو فوری دوبارہ گنتی کو کاٹنے کے لیے تقسیم شدہ KV-cache پول کا اضافہ کرتا ہے۔
کوڈ کی تکمیل کی خدمت مختصر پرامپٹس کے لیے ایک چھوٹا پری فل پول اور ایک بڑے ڈی کوڈ پول کے لیے وقف کرتی ہے، کیونکہ زیادہ تر لاگت بہت سے آؤٹ پٹ ٹوکنز کو اسٹریم کرنے سے آتی ہے۔
نفاذ کے پیٹرنز
پریکٹس میں الگ الگ پری فل اور ڈی کوڈ سرونگ
ایک چیٹ اسسٹنٹ لمبی دستاویز کو کمپیوٹ ہیوی پری فل کلسٹر کی طرف اشارہ کرتا ہے، پھر ٹائپنگ لیٹینسی کو ہموار رکھنے کے لیے میموری سے بہتر ڈیکوڈ کلسٹر سے جوابات جاری کرتا ہے۔
ایک چیٹ اسسٹنٹ طویل دستاویز کو کمپیوٹ ہیوی پری فل کلسٹر کی طرف اشارہ کرتا ہے، پھر ٹائپنگ لیٹینسی کو ہموار رکھنے کے لیے میموری سے بہتر ڈیکوڈ کلسٹر سے جوابات کو سٹریم کرتا ہے، ٹیمیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ سامنے کی کوالٹی تھریشولڈز کی وضاحت کرتی ہیں، پیداواری لاگت کے دونوں کیسز کے لیے انسانی اضافہ کا راستہ برقرار رکھتی ہیں، اور وقت سے زیادہ لاگت کا پتہ لگاتی ہیں۔
پریکٹس میں الگ الگ پری فل اور ڈی کوڈ سرونگ
NVIDIA Dynamo اور vLLM آپریٹرز کو علیحدہ پری فل اور ڈی کوڈ ورکر گروپس کو تعینات کرنے دیتے ہیں تاکہ طویل پرامپٹس کا پھٹ جاری نسلوں کو منجمد نہ کرے۔
NVIDIA Dynamo اور vLLM آپریٹرز کو علیحدہ پری فل اور ڈی کوڈ ورکر گروپس کو تعینات کرنے دیتے ہیں تاکہ لمبے لمبے پرامپٹس جاری ہونے والی نسلوں کو منجمد نہ کر سکیں، ٹیمیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ کوالٹی تھریش ہولڈ کو سامنے رکھتے ہیں، ایج کیسز کے لیے انسانی اضافے کا راستہ رکھتے ہیں، اور پیداواری فوائد اور خرابی کے اخراجات دونوں کو ٹریک کرتے ہیں۔
پریکٹس میں الگ الگ پری فل اور ڈی کوڈ سرونگ
Mooncake (Moonshot AI's Kimi کے ذریعے استعمال کیا جاتا ہے) پری فل اور ڈی کوڈ کو الگ کرتا ہے اور پیمانے پر فالتو فوری دوبارہ گنتی کو کاٹنے کے لیے تقسیم شدہ KV-cache پول کا اضافہ کرتا ہے۔
Mooncake (Moonshot AI's Kimi کے ذریعے استعمال کیا جاتا ہے) پری فل اور ڈی کوڈ کو الگ کرتا ہے اور ایک تقسیم شدہ KV-cache پول کا اضافہ کرتا ہے تاکہ پیمانے پر فالتو فوری دوبارہ گنتی کو کم کیا جا سکے، ٹیمیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ کوالٹی تھریش ہولڈ کو سامنے بیان کرتی ہیں، پیداواری صلاحیت کے بڑھتے ہوئے معاملات کے لیے انسانی اضافے کا راستہ برقرار رکھتی ہیں، اور وقت سے زیادہ لاگت کا پتہ لگاتی ہیں۔
پریکٹس میں الگ الگ پری فل اور ڈی کوڈ سرونگ
کوڈ کی تکمیل کی خدمت مختصر پرامپٹس کے لیے ایک چھوٹا پری فل پول اور ایک بڑے ڈی کوڈ پول کے لیے وقف کرتی ہے، کیونکہ زیادہ تر لاگت بہت سے آؤٹ پٹ ٹوکنز کو اسٹریم کرنے سے آتی ہے۔
کوڈ کی تکمیل کی سروس مختصر پرامپٹس کے لیے ایک چھوٹا پری فل پول اور ایک بڑے ڈی کوڈ پول کے لیے وقف کرتی ہے، کیونکہ زیادہ تر لاگت بہت سے آؤٹ پٹ ٹوکنز کو سٹریم کرنے سے آتی ہے، ٹیمیں عام طور پر اس وقت بہتر نتائج حاصل کرتی ہیں جب وہ کوالٹی تھریش ہولڈ کو سامنے بیان کرتی ہیں، ایج کیسز کے لیے انسانی اضافے کا راستہ برقرار رکھتی ہیں، اور وقت کے ساتھ ساتھ پیداواری فوائد اور غلطی کے اخراجات دونوں کو ٹریک کرتی ہیں۔
خطرات اور گارڈریلز
ایک بینچ مارک کو بہتر بنانا نظام کی وسیع تر کمزوریوں کو چھپا سکتا ہے۔
بنیادی ڈھانچے اور دیکھ بھال کے اخراجات کو اکثر کم سمجھا جاتا ہے۔
سیکورٹی اور مشاہداتی فرق بڑھ سکتا ہے کیونکہ نظام زیادہ پیچیدہ ہو جاتا ہے۔
نفاذ کا روڈ میپ
نفاذ سے پہلے تاخیر، معیار اور لاگت کے اہداف کی وضاحت کریں۔
نفاذ سے پہلے تاخیر، معیار اور لاگت کے اہداف کی وضاحت کریں۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔
حقیقت پسندانہ بوجھ اور ڈیٹا کی شرائط کے تحت بینچ مارک۔
حقیقت پسندانہ بوجھ اور ڈیٹا کی شرائط کے تحت بینچ مارک۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔
غلطیوں، بڑھے ہوئے، اور صارف کے اثرات کے لیے آلے کی نگرانی۔
غلطیوں، بڑھے ہوئے، اور صارف کے اثرات کے لیے آلے کی نگرانی۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔
اسکیلنگ سے پہلے رول بیک اور واقعہ کے ردعمل کے راستے تیار کریں۔
اسکیلنگ سے پہلے رول بیک اور واقعہ کے ردعمل کے راستے تیار کریں۔ ہر قدم کو ثبوت کے دروازے کے طور پر دیکھیں: اگر معیار پر پورا نہیں اترتے ہیں، تو رول آؤٹ کو روک دیں، خلا کو بند کریں، اور تب ہی استعمال کو بڑھا دیں۔