ভাষা এআই গাইড

চিনচিলা স্কেলিং আইন

2022 সালে ডিপমাইন্ড থেকে চিনচিলা স্কেলিং আইন দেখায় যে বেশিরভাগ বড় ভাষার মডেলগুলি খারাপভাবে প্রশিক্ষণপ্রাপ্ত ছিল: একটি নির্দিষ্ট গণনা বাজেটের জন্য, আপনার মডেলের আকার এবং প্রশিক্ষণের ডেটা মোটামুটি সমান অনুপাতে স্কেল করা উচিত।

ওভারভিউ

2022 সালে ডিপমাইন্ড থেকে চিনচিলা স্কেলিং আইন দেখায় যে বেশিরভাগ বড় ভাষার মডেলগুলি খারাপভাবে প্রশিক্ষণপ্রাপ্ত ছিল: একটি নির্দিষ্ট গণনা বাজেটের জন্য, আপনার মডেলের আকার এবং প্রশিক্ষণের ডেটা মোটামুটি সমান অনুপাতে স্কেল করা উচিত। এটি গুরুত্বপূর্ণ কারণ এটি 'অনুকূল' মডেলের আকারের অর্থ কী তা পুনরায় সংজ্ঞায়িত করেছে এবং ল্যাবগুলি কীভাবে গণনা ব্যয় করে তা পুনরায় আকার দিয়েছে।

চিনচিলা স্কেলিং আইন হল ভাষা-এআই স্ট্যাকের অংশ যা পাঠ্য ও বক্তৃতা পাঠ, তৈরি, শ্রেণীবিভাগ এবং রূপান্তর করতে ব্যবহৃত হয়।

গভীর ডুব

চিনচিলার আগে, প্রবণতা ছিল তুলনামূলকভাবে পরিমিত পরিমাণ ডেটার উপর প্রশিক্ষণের সময় সবসময় বড় মডেল (যেমন 175B-প্যারামিটার GPT-3) তৈরি করা। ডিপমাইন্ড অনেক আকার এবং ডেটা বাজেট জুড়ে 400 টিরও বেশি মডেলকে প্রশিক্ষিত করেছে, তারপর একটি নির্দিষ্ট গণনা (FLOP) বাজেটের অধীনে প্যারামিটার এবং টোকেনগুলির একটি ফাংশন হিসাবে ক্ষতির পূর্বাভাস দেওয়ার কার্ভগুলি ফিট করেছে৷ তাদের অনুসন্ধান: পরামিতি এবং প্রশিক্ষণ টোকেনগুলিকে একসাথে স্কেল করা উচিত, মোটামুটিভাবে 1-থেকে-1 অনুপাত, প্রতি প্যারামিটারে প্রায় 20 টোকেন প্রশিক্ষণ ডেটা বোঝায়। এটি প্রমাণ করার জন্য, তারা চিনচিলাকে প্রশিক্ষণ দিয়েছে, একটি 70B-প্যারামিটার মডেল 1.4 ট্রিলিয়ন টোকেনে, যা একই গণনা ব্যবহার করা সত্ত্বেও অনেক বড় 280B-প্যারামিটার গোফারকে ছাড়িয়ে গেছে, কারণ এটি অনেক বেশি ডেটাতে প্রশিক্ষিত ছিল।

প্রযুক্তিগত অন্তর্দৃষ্টি

আইনগুলি একটি প্যারামেট্রিক লস ফাংশন L(N, D) ফিট করা থেকে আসে যেখানে N হল প্যারামিটার এবং D হল টোকেন, যার মধ্যে অপরিবর্তনীয়-ক্ষতি, মডেল-আকার এবং ডেটা-আকার শর্তাবলী রয়েছে। একটি কম্পিউট সীমাবদ্ধতার সাপেক্ষে ক্ষতি কম করা (কম্পিউট মোটামুটিভাবে N বার D এর সমানুপাতিক) ফলাফল দেয় যে অনুকূল N এবং D উভয়ই অনুরূপ সূচক সহ গণনার শক্তি হিসাবে বৃদ্ধি পায়, তাই গণনা-অনুকূল অনুপাত প্রতি প্যারামিটারে 20 টোকেনের কাছাকাছি থাকে।

চিনচিলা স্কেলিং আইন আয়ত্ত করা

2022 সালে ডিপমাইন্ড থেকে চিনচিলা স্কেলিং আইন দেখায় যে বেশিরভাগ বড় ভাষার মডেলগুলি খারাপভাবে প্রশিক্ষণপ্রাপ্ত ছিল: একটি নির্দিষ্ট গণনা বাজেটের জন্য, আপনার মডেলের আকার এবং প্রশিক্ষণের ডেটা মোটামুটি সমান অনুপাতে স্কেল করা উচিত। এটি গুরুত্বপূর্ণ কারণ এটি 'অনুকূল' মডেলের আকারের অর্থ কী তা পুনরায় সংজ্ঞায়িত করেছে এবং ল্যাবগুলি কীভাবে গণনা ব্যয় করে তা পুনরায় আকার দিয়েছে। চিনচিলা স্কেলিং আইন হল ভাষা-এআই স্ট্যাকের অংশ যা পাঠ্য ও বক্তৃতা পাঠ, তৈরি, শ্রেণীবিভাগ এবং রূপান্তর করতে ব্যবহৃত হয়। গভীর বোঝাপড়া তৈরি করতে, চিনচিলা স্কেলিং আইনগুলিকে একটি অপারেটিং মডেল হিসাবে বিবেচনা করুন, একটি একক বৈশিষ্ট্য নয়: পছন্দসই ফলাফলগুলি সংজ্ঞায়িত করুন, অনুমানগুলি স্পষ্ট করুন এবং সিস্টেমটি নির্ভরযোগ্যভাবে কী করতে পারে তা এখনও বিশেষজ্ঞের বিচারের প্রয়োজন থেকে আলাদা করুন৷

অনুশীলনে, চিনচিলা স্কেলিং আইন ব্যবহার করে শক্তিশালী দলগুলি একটি সমন্বিত যোগাযোগ ব্যবস্থা হিসাবে লুপগুলিকে প্রম্পট, পুনরুদ্ধার এবং পর্যালোচনা করে। তারা সুস্পষ্ট সাফল্যের মাপকাঠি নথিভুক্ত করে, বাস্তবসম্মত ডেটা এবং কর্মপ্রবাহের বিরুদ্ধে পরীক্ষা করে এবং এককালীন বেঞ্চমার্ক জয়ের পরিবর্তে পর্যবেক্ষিত ব্যর্থতার ধরণগুলির উপর ভিত্তি করে পুনরাবৃত্তি করে। এখানেই তাত্ত্বিক বোঝাপড়া পণ্য, নীতি এবং অপারেশন জুড়ে টেকসই সক্ষমতায় পরিণত হয়।

ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে। একই সময়ে, হ্যালুসিনেটেড ফ্যাক্টগুলি নিঃশব্দে রিপোর্ট, সমর্থন প্রবাহ বা গবেষণা আউটপুট প্রবেশ করতে পারে। সবচেয়ে স্থিতিস্থাপক পদ্ধতি হল প্রশাসনিক শৃঙ্খলার সাথে পরীক্ষার গতিকে একত্রিত করা: পাইলট চালান, প্রমাণ ক্যাপচার করুন, সিদ্ধান্তের লগ প্রকাশ করুন এবং মডেল আচরণ, ব্যবহারকারীর প্রত্যাশা এবং নিয়ন্ত্রক প্রয়োজনীয়তাগুলি বিকশিত হওয়ার সাথে সাথে অবিচ্ছিন্ন সুরক্ষাগুলি আপডেট করুন।

কৌশলগত প্রভাব

ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে।

ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

এটি ভাষা এবং যোগাযোগ শৈলী জুড়ে অ্যাক্সেস প্রসারিত করে।

এটি ভাষা এবং যোগাযোগ শৈলী জুড়ে অ্যাক্সেস প্রসারিত করে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

অটোমেশন পুনরাবৃত্তি পরিচালনা করার সময় দলগুলি বিচারে আরও বেশি সময় ব্যয় করতে পারে।

অটোমেশন পুনরাবৃত্তি পরিচালনা করার সময় দলগুলি বিচারে আরও বেশি সময় ব্যয় করতে পারে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

চিনচিলা স্কেলিং আইনের ভবিষ্যত

চিনচিলা প্যারামিটার গণনা থেকে ক্ষেত্রটিকে অনেক বেশি উচ্চ-মানের ডেটা ফিডিং মডেলগুলিতে স্থানান্তরিত করেছে, এবং আধুনিক মডেলগুলি প্রায়শই অনুমানকে সস্তা করার জন্য 'কম্পিউট-অপ্টিমাল' পয়েন্টকে ভালভাবে প্রশিক্ষণ দেয়। উচ্চ-মানের ওয়েব টেক্সট দুষ্প্রাপ্য হয়ে পড়ায়, স্কেলিং ধরে রাখতে ডেটা কিউরেশন, সিন্থেটিক ডেটা, একাধিক যুগ এবং মাল্টিমোডাল ডেটার দিকে মনোযোগ দেওয়া হচ্ছে। মূল পাঠটি স্থায়ী হয়: ডেটা এবং পরামিতিগুলি অবশ্যই ভারসাম্যপূর্ণ হতে হবে এবং শুধুমাত্র কাঁচা আকার আর লক্ষ্য নয়।

বাস্তব-বিশ্ব বাস্তবায়ন

ডিপমাইন্ডের 70B-প্যারামিটার চিনচিলা অনেক বেশি ডেটার প্রশিক্ষণের মাধ্যমে সমান কম্পিউট ব্যবহার করে বেঞ্চমার্কে 280B গোফারকে পরাজিত করেছে

স্ক্র্যাচ মডেলের পরিকল্পনা করার সময় প্রতি প্যারামিটারে মোটামুটি 20টি প্রশিক্ষণ টোকেন বাজেট করার জন্য দলকে গাইড করা

LLaMA-এর মতো ছোট, ডেটা-সমৃদ্ধ মডেলগুলিকে সমর্থন করা যা অনুমান সময়ে চালানোর জন্য সস্তা

একটি পরিকল্পিত মডেল 'আন্ডারট্রেইনড' কিনা এবং অতিরিক্ত প্যারামিটারের চেয়ে অতিরিক্ত ডেটা থেকে বেশি উপকৃত হবে কিনা তা অনুমান করা

বাস্তবায়ন নিদর্শন

অনুশীলনে চিনচিলা স্কেলিং আইন

ডিপমাইন্ডের 70B-প্যারামিটার চিনচিলা অনেক বেশি ডেটার প্রশিক্ষণের মাধ্যমে সমান কম্পিউট ব্যবহার করে বেঞ্চমার্কে 280B গোফারকে পরাজিত করে।

DeepMind-এর 70B-প্যারামিটার চিনচিলা 280B গোফারকে সমান কম্পিউট ব্যবহার করে বেঞ্চমার্কে পরাজিত করে, অনেক বেশি ডেটার প্রশিক্ষণের মাধ্যমে দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অনুশীলনে চিনচিলা স্কেলিং আইন

স্ক্র্যাচ মডেলের পরিকল্পনা করার সময় প্রতি প্যারামিটারে মোটামুটি 20টি প্রশিক্ষণ টোকেন বাজেট করার জন্য দলগুলিকে গাইড করে৷

স্ক্র্যাচ মডেলের পরিকল্পনা করার সময় প্রতি প্যারামিটারে মোটামুটি 20টি প্রশিক্ষণ টোকেন বাজেট করার জন্য দলগুলিকে গাইড করা দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অনুশীলনে চিনচিলা স্কেলিং আইন

LLaMA-এর মতো ছোট, ডেটা-সমৃদ্ধ মডেলগুলিকে সমর্থন করা যা অনুমান সময়ে চালানোর জন্য সস্তা।

LLaMA-এর মতো ছোট, ডেটা-সমৃদ্ধ মডেলগুলিকে ন্যায়সঙ্গত করে যা অনুমান সময়ে চালানোর জন্য সস্তা, টিমগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অনুশীলনে চিনচিলা স্কেলিং আইন

একটি পরিকল্পিত মডেল 'আন্ডারট্রেইনড' কিনা এবং অতিরিক্ত প্যারামিটারের চেয়ে অতিরিক্ত ডেটা থেকে বেশি উপকৃত হবে কিনা তা অনুমান করা।

একটি পরিকল্পিত মডেল 'আন্ডার ট্রেনিং' করা হয়েছে কিনা এবং অতিরিক্ত প্যারামিটারের চেয়ে অতিরিক্ত ডেটা থেকে আরও বেশি উপকৃত হবে কিনা অনুমান করা দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

ঝুঁকি এবং প্রহরী

!

হ্যালুসিনেটেড ফ্যাক্টগুলি শান্তভাবে রিপোর্ট, সমর্থন প্রবাহ, বা গবেষণা আউটপুট প্রবেশ করতে পারে।

!

প্রম্পট সংবেদনশীলতা অনুরূপ অনুরোধ জুড়ে অসামঞ্জস্যপূর্ণ ফলাফল তৈরি করতে পারে।

!

অ্যাক্সেস কন্ট্রোল দুর্বল হলে সংবেদনশীল পাঠ্য ডেটা উন্মুক্ত হতে পারে।

বাস্তবায়ন রোডম্যাপ

1

রোলআউট করার আগে আউটপুট ফর্ম্যাট, টোন এবং মানের মান নির্ধারণ করুন।

রোলআউট করার আগে আউটপুট ফর্ম্যাট, টোন এবং মানের মান নির্ধারণ করুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

2

যখনই নির্ভুলতা গুরুত্বপূর্ণ তখন বিশ্বস্ত উত্সের সাথে গ্রাউন্ড প্রতিক্রিয়া।

যখনই নির্ভুলতা গুরুত্বপূর্ণ তখন বিশ্বস্ত উত্সের সাথে গ্রাউন্ড প্রতিক্রিয়া। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

3

উচ্চ-স্টেকের আউটপুটগুলির জন্য একটি মানব পর্যালোচনা চেকপয়েন্ট রাখুন।

উচ্চ-স্টেকের আউটপুটগুলির জন্য একটি মানব পর্যালোচনা চেকপয়েন্ট রাখুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

4

ব্যর্থতার নিদর্শনগুলি ট্র্যাক করুন এবং প্রম্পট বা ওয়ার্কফ্লোগুলিকে নিয়মিতভাবে পুনরায় প্রশিক্ষণ দিন।

ব্যর্থতার নিদর্শনগুলি ট্র্যাক করুন এবং প্রম্পট বা ওয়ার্কফ্লোগুলিকে নিয়মিতভাবে পুনরায় প্রশিক্ষণ দিন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

অন্বেষণ চালিয়ে যান