ভাষা এআই গাইড

অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান

অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান (ওআরপিও) হল একটি ফাইন-টিউনিং পদ্ধতি যা একটি একক প্রশিক্ষণ পাসে একটি ভাষা মডেলের ভাল আচরণ এবং মানুষের পছন্দ শেখায়।

ওভারভিউ

অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান (ওআরপিও) হল একটি ফাইন-টিউনিং পদ্ধতি যা একটি একক প্রশিক্ষণ পাসে একটি ভাষা মডেলের ভাল আচরণ এবং মানুষের পছন্দ শেখায়। এটি গুরুত্বপূর্ণ কারণ এটি সাধারণ পৃথক পুরস্কার মডেল এবং রেফারেন্স মডেল এড়িয়ে যায়, সারিবদ্ধকরণকে সস্তা এবং সহজ করে তোলে।

অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান হল ভাষা-এআই স্ট্যাকের অংশ যা পাঠ্য ও বক্তৃতা পাঠ, জেনারেট, শ্রেণীবদ্ধ এবং রূপান্তর করতে ব্যবহৃত হয়।

গভীর ডুব

ORPO, 2024 সালে Hong, Lee, এবং Thorne দ্বারা প্রবর্তিত, তত্ত্বাবধানকৃত ফাইন-টিউনিং এবং পছন্দের প্রান্তিককরণকে এক ধাপে একত্রিত করে। বেশিরভাগ সারিবদ্ধ পাইপলাইনগুলি প্রথমে ভাল উদাহরণগুলিতে SFT করে, তারপরে RLHF বা DPO এর মতো একটি দ্বিতীয় পদ্ধতি চালায় যার জন্য মডেলের একটি হিমায়িত অনুলিপি (একটি রেফারেন্স) এবং সঞ্চিত পছন্দ জোড়া প্রয়োজন৷ ORPO রেফারেন্স মডেলটিকে সম্পূর্ণরূপে সরিয়ে দেয়। এর ক্ষতি স্ট্যান্ডার্ড পরবর্তী-টোকেন উদ্দেশ্যের সাথে একটি পেনাল্টি শব্দ যোগ করে: এটি প্রত্যাখ্যানের মতভেদকে কমিয়ে দেওয়ার সময় নির্বাচিত (পছন্দের) প্রতিক্রিয়ার জন্য মডেল দ্বারা নির্ধারিত প্রতিকূলতা বাড়ায়। কারণ এটি একটি শক্তিশালী লগ-সম্ভাব্যতার ব্যবধানের পরিবর্তে প্রতিকূল অনুপাত ব্যবহার করে, জরিমানাটি মৃদু, তাই মডেলটি সাবলীল প্রজন্মকে বিপর্যয়করভাবে ভুলে না গিয়ে ভাল উত্তরের পক্ষে শেখে।

প্রযুক্তিগত অন্তর্দৃষ্টি

ORPO এর ক্ষতি হল SFT ক্রস-এনট্রপি লস এবং নির্বাচিত এবং প্রত্যাখ্যান করা প্রতিক্রিয়াগুলির মধ্যে লগ অডস অনুপাতের একটি ওজনযুক্ত লগ-সিগময়েড। অডস সমান p/(1-p), তাই অনুপাত তুলনা করে যে মডেলটি খারাপের বিপরীতে ভালো উত্তর খুঁজে পাওয়ার সম্ভাবনা কতটা বেশি। অপরিশোধিত সম্ভাবনার পরিবর্তে প্রতিকূলতা ব্যবহার করা বৈসাদৃশ্যকে মৃদু রাখে, যা প্রত্যাখ্যাত টোকেনগুলির অত্যধিক দমনকে বাধা দেয় যা একটি রেফারেন্সবিহীন মডেলকে অবনমিত করতে পারে।

অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান মাস্টারিং

অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান (ওআরপিও) হল একটি ফাইন-টিউনিং পদ্ধতি যা একটি একক প্রশিক্ষণ পাসে একটি ভাষা মডেলের ভাল আচরণ এবং মানুষের পছন্দ শেখায়। এটি গুরুত্বপূর্ণ কারণ এটি সাধারণ পৃথক পুরস্কার মডেল এবং রেফারেন্স মডেল এড়িয়ে যায়, সারিবদ্ধকরণকে সস্তা এবং সহজ করে তোলে। অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান হল ভাষা-এআই স্ট্যাকের অংশ যা পাঠ্য ও বক্তৃতা পাঠ, জেনারেট, শ্রেণীবদ্ধ এবং রূপান্তর করতে ব্যবহৃত হয়। গভীর বোঝাপড়া তৈরি করতে, অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশনকে একটি অপারেটিং মডেল হিসাবে বিবেচনা করুন, একটি একক বৈশিষ্ট্য নয়: পছন্দসই ফলাফলগুলি সংজ্ঞায়িত করুন, অনুমানগুলি স্পষ্ট করুন এবং সিস্টেমটি নির্ভরযোগ্যভাবে কী করতে পারে তা এখনও বিশেষজ্ঞের রায়ের প্রয়োজন থেকে আলাদা করুন৷

অনুশীলনে, একটি সমন্বিত যোগাযোগ ব্যবস্থা হিসাবে অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান ডিজাইন প্রম্পট, পুনরুদ্ধার এবং পর্যালোচনা লুপ ব্যবহার করে শক্তিশালী দল। তারা সুস্পষ্ট সাফল্যের মাপকাঠি নথিভুক্ত করে, বাস্তবসম্মত ডেটা এবং কর্মপ্রবাহের বিরুদ্ধে পরীক্ষা করে এবং এককালীন বেঞ্চমার্ক জয়ের পরিবর্তে পর্যবেক্ষিত ব্যর্থতার ধরণগুলির উপর ভিত্তি করে পুনরাবৃত্তি করে। এখানেই তাত্ত্বিক বোঝাপড়া পণ্য, নীতি এবং অপারেশন জুড়ে টেকসই সক্ষমতায় পরিণত হয়।

ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে। একই সময়ে, হ্যালুসিনেটেড ফ্যাক্টগুলি নিঃশব্দে রিপোর্ট, সমর্থন প্রবাহ বা গবেষণা আউটপুট প্রবেশ করতে পারে। সবচেয়ে স্থিতিস্থাপক পদ্ধতি হল প্রশাসনিক শৃঙ্খলার সাথে পরীক্ষার গতিকে একত্রিত করা: পাইলট চালান, প্রমাণ ক্যাপচার করুন, সিদ্ধান্তের লগ প্রকাশ করুন এবং মডেল আচরণ, ব্যবহারকারীর প্রত্যাশা এবং নিয়ন্ত্রক প্রয়োজনীয়তাগুলি বিকশিত হওয়ার সাথে সাথে অবিচ্ছিন্ন সুরক্ষাগুলি আপডেট করুন।

কৌশলগত প্রভাব

ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে।

ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

এটি ভাষা এবং যোগাযোগ শৈলী জুড়ে অ্যাক্সেস প্রসারিত করে।

এটি ভাষা এবং যোগাযোগ শৈলী জুড়ে অ্যাক্সেস প্রসারিত করে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

অটোমেশন পুনরাবৃত্তি পরিচালনা করার সময় দলগুলি বিচারে আরও বেশি সময় ব্যয় করতে পারে।

অটোমেশন পুনরাবৃত্তি পরিচালনা করার সময় দলগুলি বিচারে আরও বেশি সময় ব্যয় করতে পারে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

দ্য ফিউচার অফ অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান

ORPO ট্র্যাকশন অর্জন করছে কারণ এটি রেফারেন্স মডেলটি বাদ দিয়ে মেমরি এবং গণনা কমিয়ে দেয়, যা সীমিত হার্ডওয়্যারে টিম ফাইন-টিউনিংয়ের জন্য আকর্ষণীয়। এটি ওপেন-সোর্স রেসিপিগুলিতে এবং Hugging Face TRL-এর মতো লাইব্রেরিতে একটি ডিফল্ট বিকল্প হিসাবে আরও প্রায়ই প্রদর্শিত হবে বলে আশা করুন৷ ভবিষ্যত কাজ সম্ভবত ল্যাম্বডা ওয়েটিংকে স্বয়ংক্রিয়ভাবে টিউন করবে, অন্যান্য রেফারেন্স-মুক্ত উদ্দেশ্যগুলির সাথে ORPO মিশ্রিত করবে এবং এটিকে মাল্টিমডাল এবং খুব বড় মডেলগুলিতে প্রসারিত করবে যেখানে দুটি কপি মেমরিতে রাখা ব্যয়বহুল।

বাস্তব-বিশ্ব বাস্তবায়ন

দ্বিতীয় রেফারেন্স কপি লোড না করে পছন্দের জোড়ায় একটি ওপেন-সোর্স 7B চ্যাট মডেল ফাইন-টিউনিং করা, GPU মেমরিকে অর্ধেক করা

একটি স্টার্টআপ একটি গ্রাহক-সহায়তা সহকারীকে সারিবদ্ধ করে যা SFT-পরে-DPO-এর পরিবর্তে একটি প্রশিক্ষণে নম্র, নীতির ভিত্তিতে উত্তর পছন্দ করে

কম কম্পিউটের সাথে তুলনীয় সারিবদ্ধতা দেখানোর জন্য গবেষকরা একই ডেটাসেটে ডিপিওর সাথে ORPO তুলনা করছেন

একটি বিশেষায়িত ডোমেনে একটি বেস মডেলকে মানিয়ে নেওয়া (যেমন, আইনি খসড়া) যেখানে ভাল এবং খারাপ উদাহরণ জোড়া পাওয়া যায় কিন্তু পুরস্কার-মডেল বাজেট নয়

বাস্তবায়ন নিদর্শন

অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান

দ্বিতীয় রেফারেন্স কপি লোড না করে পছন্দের জোড়ায় একটি ওপেন-সোর্স 7B চ্যাট মডেল ফাইন-টিউনিং, GPU মেমরি অর্ধেক।

দ্বিতীয় রেফারেন্স কপি লোড না করে পছন্দের জোড়ায় একটি ওপেন-সোর্স 7B চ্যাট মডেলকে ফাইন-টিউনিং করা, GPU মেমরির অর্ধেক করা দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান

একটি স্টার্টআপ একটি গ্রাহক-সহায়তা সহকারীকে সারিবদ্ধ করে যা SFT-পরে-DPO-এর পরিবর্তে একটি প্রশিক্ষণে নম্র, নীতির ভিত্তিতে উত্তর পছন্দ করে।

একটি স্টার্টআপ গ্রাহক-সহায়তা সহকারীকে সারিবদ্ধ করে একটি প্রশিক্ষণে SFT-এর পরিবর্তে একটি প্রশিক্ষণে নীতিগত উত্তরগুলিকে অগ্রাধিকার দেয়-তখন-DPO টিমগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান

কম কম্পিউটের সাথে তুলনামূলক সারিবদ্ধতা দেখানোর জন্য গবেষকরা একই ডেটাসেটে DPO-এর সাথে ORPO তুলনা করছেন।

গবেষকরা একই ডেটাসেটে ORPO-এর সাথে DPO-এর তুলনা করে নিম্ন কম্পিউটের সাথে তুলনামূলক সারিবদ্ধতা দেখানোর জন্য দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে।

অডস রেশিও প্রেফারেন্স অপ্টিমাইজেশান

একটি বিশেষায়িত ডোমেনে একটি বেস মডেল মানিয়ে নেওয়া (যেমন, আইনি খসড়া) যেখানে ভাল এবং খারাপ উদাহরণ জোড়া পাওয়া যায় কিন্তু পুরস্কার-মডেল বাজেট নয়।

একটি বিশেষায়িত ডোমেনে একটি বেস মডেলকে মানিয়ে নেওয়া (যেমন, আইনি খসড়া) যেখানে ভাল এবং খারাপ উদাহরণ জোড়া পাওয়া যায় কিন্তু পুরষ্কার-মডেল বাজেট নয় দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

ঝুঁকি এবং প্রহরী

!

হ্যালুসিনেটেড ফ্যাক্টগুলি শান্তভাবে রিপোর্ট, সমর্থন প্রবাহ, বা গবেষণা আউটপুট প্রবেশ করতে পারে।

!

প্রম্পট সংবেদনশীলতা অনুরূপ অনুরোধ জুড়ে অসামঞ্জস্যপূর্ণ ফলাফল তৈরি করতে পারে।

!

অ্যাক্সেস কন্ট্রোল দুর্বল হলে সংবেদনশীল পাঠ্য ডেটা উন্মুক্ত হতে পারে।

বাস্তবায়ন রোডম্যাপ

1

রোলআউট করার আগে আউটপুট ফর্ম্যাট, টোন এবং মানের মান নির্ধারণ করুন।

রোলআউট করার আগে আউটপুট ফর্ম্যাট, টোন এবং মানের মান নির্ধারণ করুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

2

যখনই নির্ভুলতা গুরুত্বপূর্ণ তখন বিশ্বস্ত উত্সের সাথে গ্রাউন্ড প্রতিক্রিয়া।

যখনই নির্ভুলতা গুরুত্বপূর্ণ তখন বিশ্বস্ত উত্সের সাথে গ্রাউন্ড প্রতিক্রিয়া। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

3

উচ্চ-স্টেকের আউটপুটগুলির জন্য একটি মানব পর্যালোচনা চেকপয়েন্ট রাখুন।

উচ্চ-স্টেকের আউটপুটগুলির জন্য একটি মানব পর্যালোচনা চেকপয়েন্ট রাখুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

4

ব্যর্থতার নিদর্শনগুলি ট্র্যাক করুন এবং প্রম্পট বা ওয়ার্কফ্লোগুলিকে নিয়মিতভাবে পুনরায় প্রশিক্ষণ দিন।

ব্যর্থতার নিদর্শনগুলি ট্র্যাক করুন এবং প্রম্পট বা ওয়ার্কফ্লোগুলিকে নিয়মিতভাবে পুনরায় প্রশিক্ষণ দিন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

অন্বেষণ চালিয়ে যান