ওভারভিউ
একটি পরিবেশনকারী আর্কিটেকচার যা বৃহৎ ভাষা মডেল অনুমানকে দুটি পৃথক পর্যায়ে বিভক্ত করে-প্রিফিল এবং ডিকোড-এবং সেগুলিকে GPU-এর বিভিন্ন পুলে চালায়। এটি গুরুত্বপূর্ণ কারণ এই দুটি পর্যায়ের হার্ডওয়্যারের ক্ষুধা বিপরীত, এবং একই মেশিনে জোর করে তাদের ক্ষমতা নষ্ট করে এবং লেটেন্সি ক্ষতি করে।
ডিস্যাগ্রিগেটেড প্রিফিল এবং ডিকোড সার্ভিং হল একটি প্রযুক্তিগত বিল্ডিং ব্লক যা মডেলের গুণমান, পরিকাঠামোর খরচ, লেটেন্সি এবং স্কেলে নির্ভরযোগ্যতাকে প্রভাবিত করে।
গভীর ডুব
যখন একটি LLM উত্তর দেয়, এটি দুটি পর্যায়ে কাজ করে। প্রিফিল একবারে পুরো প্রম্পটটি পড়ে এবং কী-মান (KV) ক্যাশে তৈরি করে; এটি একটি বড়, সমান্তরাল, কম্পিউট-বাউন্ড বার্স্ট যা GPU-এর গণিত ইউনিটগুলিকে পরিপূর্ণ করে। ডিকোড তারপরে একবারে একটি করে টোকেন তৈরি করে, প্রতিটি ধাপ পুরো কেভি ক্যাশে পড়ে—একটি মেমরি-ব্যান্ডউইথ-বাউন্ড, হালকাভাবে গণনা করা ট্রিকল। একসাথে চালান, একটি দীর্ঘ প্রিফিল প্রত্যেকের ডিকোড (হেড-অফ-লাইন ব্লকিং) স্টল করে এবং দুটি ব্যাচ করা হস্তক্ষেপ তৈরি করে। ডিস্যাগ্রিগেশন একটি জিপিইউ পুলে প্রিফিল রাখে এবং অন্যটিতে ডিকোড করে, এনভিলিঙ্ক বা ইনফিনিব্যান্ডের মতো দ্রুত আন্তঃসংযোগের মাধ্যমে তাদের মধ্যে কেভি ক্যাশে স্থানান্তর করে। প্রতিটি পুল স্বাধীনভাবে টিউন করা হয় এবং স্কেল করা হয়, গুডপুট উন্নত করে, টেইল লেটেন্সি মসৃণ করে এবং অপারেটরদেরকে একই সাথে টাইম-টু-ফার্স্ট-টোকেন এবং সময়-প্রতি-আউটপুট-টোকেন লক্ষ্যে আঘাত করতে দেয়।
প্রযুক্তিগত অন্তর্দৃষ্টি
দুটি পর্যায় তাদের বাধার মধ্যে পৃথক। প্রিফিল সমান্তরালভাবে সমস্ত প্রম্পট টোকেন প্রক্রিয়া করে, তাই এর FLOPs প্রম্পট দৈর্ঘ্যের সাথে স্কেল করে এবং এটি টেনসর কোরগুলিকে সর্বাধিক করে। ডিকোড অটোরিগ্রেসিভ: প্রতিটি নতুন টোকেনের জন্য একটি ফরোয়ার্ড পাস প্রয়োজন যা HBM থেকে সম্পূর্ণ কেভি ক্যাশে পুনরায় পাঠ করে, তাই থ্রুপুট মেমরি ব্যান্ডউইথ দ্বারা গেট করা হয়, গণনা নয়। ডিস্যাগ্রিগেশন প্রতিটি পুলের জন্য সাইজিং, ব্যাচিং এবং এমনকি বিভিন্ন সমান্তরালতা বেছে নেওয়ার মাধ্যমে এটিকে কাজে লাগায়, তারপর প্রিফিল কর্মীদের থেকে কেভি ক্যাশে কর্মীদের ডিকোড করার জন্য পাঠানো হয়।
ডিস্যাগ্রিগেটেড প্রিফিল এবং ডিকোড সার্ভিং মাস্টারিং
একটি পরিবেশনকারী আর্কিটেকচার যা বৃহৎ ভাষা মডেল অনুমানকে দুটি পৃথক পর্যায়ে বিভক্ত করে-প্রিফিল এবং ডিকোড-এবং সেগুলিকে GPU-এর বিভিন্ন পুলে চালায়। এটি গুরুত্বপূর্ণ কারণ এই দুটি পর্যায়ের হার্ডওয়্যারের ক্ষুধা বিপরীত, এবং একই মেশিনে জোর করে তাদের ক্ষমতা নষ্ট করে এবং লেটেন্সি ক্ষতি করে। ডিস্যাগ্রিগেটেড প্রিফিল এবং ডিকোড সার্ভিং হল একটি প্রযুক্তিগত বিল্ডিং ব্লক যা মডেলের গুণমান, পরিকাঠামোর খরচ, লেটেন্সি এবং স্কেলে নির্ভরযোগ্যতাকে প্রভাবিত করে। গভীর বোঝাপড়া তৈরি করতে, ডিস্যাগ্রিগেটেড প্রিফিল এবং ডিকোড সার্ভিংকে একটি অপারেটিং মডেল হিসাবে বিবেচনা করুন, একটি একক বৈশিষ্ট্য নয়: পছন্দসই ফলাফলগুলি সংজ্ঞায়িত করুন, অনুমানগুলি স্পষ্ট করুন এবং সিস্টেমটি নির্ভরযোগ্যভাবে কী করতে পারে তা এখনও বিশেষজ্ঞের রায়ের প্রয়োজন থেকে আলাদা করুন৷
অনুশীলনে, ডিস্যাগ্রিগেটেড প্রিফিল এবং ডিকোড সার্ভিং ব্যবহার করে শক্তিশালী দলগুলি নির্ভরযোগ্যতা এবং খরচের বিপরীতে আর্কিটেকচার, ডেটা এবং অবকাঠামো পছন্দকে অপ্টিমাইজ করে। তারা সুস্পষ্ট সাফল্যের মাপকাঠি নথিভুক্ত করে, বাস্তবসম্মত ডেটা এবং কর্মপ্রবাহের বিরুদ্ধে পরীক্ষা করে এবং এককালীন বেঞ্চমার্ক জয়ের পরিবর্তে পর্যবেক্ষিত ব্যর্থতার ধরণগুলির উপর ভিত্তি করে পুনরাবৃত্তি করে। এখানেই তাত্ত্বিক বোঝাপড়া পণ্য, নীতি এবং অপারেশন জুড়ে টেকসই সক্ষমতায় পরিণত হয়।
আর্কিটেকচারের সিদ্ধান্তগুলি বছরের পর বছর ধরে কর্মক্ষমতা এবং অপারেটিং খরচ চালায়। একই সময়ে, একটি বেঞ্চমার্ক অপ্টিমাইজ করা বৃহত্তর সিস্টেম দুর্বলতা আড়াল করতে পারে। সবচেয়ে স্থিতিস্থাপক পদ্ধতি হল প্রশাসনিক শৃঙ্খলার সাথে পরীক্ষার গতিকে একত্রিত করা: পাইলট চালান, প্রমাণ ক্যাপচার করুন, সিদ্ধান্তের লগ প্রকাশ করুন এবং মডেল আচরণ, ব্যবহারকারীর প্রত্যাশা এবং নিয়ন্ত্রক প্রয়োজনীয়তাগুলি বিকশিত হওয়ার সাথে সাথে অবিচ্ছিন্ন সুরক্ষাগুলি আপডেট করুন।
কৌশলগত প্রভাব
আর্কিটেকচারের সিদ্ধান্তগুলি বছরের পর বছর ধরে কর্মক্ষমতা এবং অপারেটিং খরচ চালায়।
আর্কিটেকচারের সিদ্ধান্তগুলি বছরের পর বছর ধরে কর্মক্ষমতা এবং অপারেটিং খরচ চালায়। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।
কারিগরি শিক্ষা দলগুলোকে সঠিক স্ট্যাক বেছে নিতে সাহায্য করে, শুধু নতুনটি নয়।
কারিগরি শিক্ষা দলগুলোকে সঠিক স্ট্যাক বেছে নিতে সাহায্য করে, শুধু নতুনটি নয়। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।
ভালো ইঞ্জিনিয়ারিং পছন্দ উৎপাদনে নির্ভরযোগ্যতার ঘটনা কমিয়ে দেয়।
ভালো ইঞ্জিনিয়ারিং পছন্দ উৎপাদনে নির্ভরযোগ্যতার ঘটনা কমিয়ে দেয়। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।
বাস্তব-বিশ্ব বাস্তবায়ন
একটি চ্যাট সহকারী দীর্ঘ নথিকে একটি গণনা-ভারী প্রিফিল ক্লাস্টারে প্রম্পট করে, তারপর টাইপিং লেটেন্সি মসৃণ রাখতে একটি মেমরি-অপ্টিমাইজড ডিকোড ক্লাস্টার থেকে উত্তরগুলি স্ট্রিম করে৷
NVIDIA Dynamo এবং vLLM অপারেটরদের আলাদা প্রিফিল এবং ডিকোড কর্মী গোষ্ঠী স্থাপন করতে দেয় যাতে দীর্ঘ প্রম্পটগুলির একটি বিস্ফোরণ চলমান প্রজন্মকে স্থির না করে।
মুনকেক (মুনশট এআই-এর কিমি দ্বারা ব্যবহৃত) প্রিফিল এবং ডিকোড আলাদা করে এবং স্কেলে অপ্রয়োজনীয় প্রম্পট পুনর্গণনা কাটতে একটি বিতরণ করা কেভি-ক্যাশ পুল যোগ করে।
একটি কোড-সম্পূর্ণতা পরিষেবা ছোট প্রম্পটগুলির জন্য একটি ছোট প্রিফিল পুল এবং একটি বড় ডিকোড পুল উত্সর্গ করে, যেহেতু বেশিরভাগ খরচ অনেকগুলি আউটপুট টোকেন স্ট্রিমিং থেকে আসে।
বাস্তবায়ন নিদর্শন
অনুশীলনে ডিস্যাগ্রিগেটেড প্রিফিল এবং ডিকোড পরিবেশন
একটি চ্যাট সহকারী দীর্ঘ নথিকে একটি গণনা-ভারী প্রিফিল ক্লাস্টারে প্রম্পট করে, তারপর টাইপিং লেটেন্সি মসৃণ রাখতে একটি মেমরি-অপ্টিমাইজড ডিকোড ক্লাস্টার থেকে উত্তরগুলি স্ট্রিম করে৷
একটি চ্যাট সহকারী দীর্ঘ দস্তাবেজকে একটি গণনা-ভারী প্রিফিল ক্লাস্টারে প্রম্পট করে, তারপর টাইপিং লেটেন্সি মসৃণ রাখতে একটি মেমরি-অপ্টিমাইজড ডিকোড ক্লাস্টার থেকে উত্তরগুলি স্ট্রীম করে দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, এজ প্রোডাক্টিভিটি কেস এবং ট্র্যাক টাইম লাভ উভয়ের জন্য একটি মানব বৃদ্ধির পথ রাখে।
অনুশীলনে ডিস্যাগ্রিগেটেড প্রিফিল এবং ডিকোড পরিবেশন
NVIDIA Dynamo এবং vLLM অপারেটরদের আলাদা প্রিফিল এবং ডিকোড কর্মী গোষ্ঠী স্থাপন করতে দেয় যাতে দীর্ঘ প্রম্পটগুলির একটি বিস্ফোরণ চলমান প্রজন্মকে স্থির না করে।
NVIDIA Dynamo এবং vLLM অপারেটরদের আলাদা প্রিফিল এবং ডিকোড কর্মী গোষ্ঠীগুলিকে স্থাপন করতে দেয় যাতে দীর্ঘ প্রম্পটগুলি চলমান প্রজন্মকে স্থির করে না দেয় যখন তারা সামনের মানের থ্রেশহোল্ডগুলি সংজ্ঞায়িত করে তখন দলগুলি সাধারণত আরও ভাল ফলাফল পায়, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷
অনুশীলনে ডিস্যাগ্রিগেটেড প্রিফিল এবং ডিকোড পরিবেশন
মুনকেক (মুনশট এআই-এর কিমি দ্বারা ব্যবহৃত) প্রিফিল এবং ডিকোড আলাদা করে এবং স্কেলে অপ্রয়োজনীয় প্রম্পট পুনর্গণনা কাটতে একটি বিতরণ করা কেভি-ক্যাশ পুল যোগ করে।
মুনকেক (মুনশট এআই-এর কিমি দ্বারা ব্যবহৃত) প্রিফিল এবং ডিকোড আলাদা করে এবং স্কেলে অপ্রয়োজনীয় প্রম্পট পুনঃগণনা কাটতে একটি বিতরণ করা কেভি-ক্যাশ পুল যোগ করে দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের উত্পাদনশীলতার ক্ষেত্রে এবং সময় ওভার ট্র্যাক উভয়ের জন্য একটি মানব বৃদ্ধির পথ বজায় রাখে।
অনুশীলনে ডিস্যাগ্রিগেটেড প্রিফিল এবং ডিকোড পরিবেশন
একটি কোড-সম্পূর্ণতা পরিষেবা ছোট প্রম্পটগুলির জন্য একটি ছোট প্রিফিল পুল এবং একটি বড় ডিকোড পুল উত্সর্গ করে, যেহেতু বেশিরভাগ খরচ অনেকগুলি আউটপুট টোকেন স্ট্রিমিং থেকে আসে।
একটি কোড-সম্পূর্ণতা পরিষেবা ছোট প্রম্পটগুলির জন্য একটি ছোট প্রিফিল পুল এবং একটি বড় ডিকোড পুল উত্সর্গ করে, যেহেতু বেশিরভাগ খরচ অনেকগুলি আউটপুট টোকেন স্ট্রিমিং থেকে আসে দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷
ঝুঁকি এবং প্রহরী
একটি বেঞ্চমার্ক অপ্টিমাইজ করা বৃহত্তর সিস্টেম দুর্বলতা আড়াল করতে পারে।
অবকাঠামো এবং রক্ষণাবেক্ষণের খরচ প্রায়ই অবমূল্যায়ন করা হয়।
সিস্টেমগুলি আরও জটিল হওয়ার সাথে সাথে সুরক্ষা এবং পর্যবেক্ষণযোগ্যতার ফাঁক বাড়তে পারে।
বাস্তবায়ন রোডম্যাপ
বাস্তবায়নের আগে বিলম্ব, গুণমান এবং খরচের লক্ষ্য নির্ধারণ করুন।
বাস্তবায়নের আগে বিলম্ব, গুণমান এবং খরচের লক্ষ্য নির্ধারণ করুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।
বাস্তবসম্মত লোড এবং ডেটা অবস্থার অধীনে বেঞ্চমার্ক।
বাস্তবসম্মত লোড এবং ডেটা অবস্থার অধীনে বেঞ্চমার্ক। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।
ত্রুটি, প্রবাহ, এবং ব্যবহারকারীর প্রভাবের জন্য যন্ত্র পর্যবেক্ষণ।
ত্রুটি, প্রবাহ, এবং ব্যবহারকারীর প্রভাবের জন্য যন্ত্র পর্যবেক্ষণ। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।
স্কেল করার আগে রোলব্যাক এবং ঘটনার প্রতিক্রিয়া পাথ প্রস্তুত করুন।
স্কেল করার আগে রোলব্যাক এবং ঘটনার প্রতিক্রিয়া পাথ প্রস্তুত করুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।