ভাষা এআই গাইড

সরাসরি পছন্দ অপ্টিমাইজেশান

ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিপিও) হল ভাষা মডেলগুলিকে মানুষের পছন্দের সাথে সারিবদ্ধ করার একটি উপায় একটি পৃথক পুরস্কার মডেলের প্রশিক্ষণ না দিয়ে বা রিইনফোর্সমেন্ট লার্নিং চালানো ছাড়া।

ওভারভিউ

ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিপিও) হল ভাষা মডেলগুলিকে মানুষের পছন্দের সাথে সারিবদ্ধ করার একটি উপায় একটি পৃথক পুরস্কার মডেলের প্রশিক্ষণ না দিয়ে বা রিইনফোর্সমেন্ট লার্নিং চালানো ছাড়া। এটি একটি জটিল বহু-পর্যায়ের পাইপলাইনকে একটি একক, স্থিতিশীল প্রশিক্ষণ ক্ষতিতে ভেঙে দেয়।

ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান হল ভাষা-এআই স্ট্যাকের অংশ যা পাঠ্য ও বক্তৃতা পাঠ, জেনারেট, শ্রেণীবিভাগ এবং রূপান্তর করতে ব্যবহৃত হয়।

গভীর ডুব

2023 সালে স্ট্যানফোর্ডে রাফাইলভ এবং সহকর্মীদের দ্বারা প্রবর্তিত DPO, লোকেরা যা পছন্দ করে তা আমরা কীভাবে একটি মডেল শেখাই তা পুনর্বিবেচনা করে। ঐতিহ্যগত পদ্ধতি (RLHF) মানুষের তুলনার উপর একটি পুরষ্কার মডেল প্রশিক্ষণ দেয়, তারপর সেই পুরষ্কারকে সর্বাধিক করার জন্য শক্তিবৃদ্ধি শিক্ষা ব্যবহার করে। ডিপিও-এর মূল অন্তর্দৃষ্টি হল গাণিতিক: সেই RLHF উদ্দেশ্যের অধীনে সর্বোত্তম নীতির পুরষ্কারের সাথে একটি বন্ধ-ফর্ম সম্পর্ক রয়েছে, তাই আপনি সমীকরণগুলিকে পুনর্বিন্যাস করতে পারেন এবং সরাসরি পছন্দের জোড়ায় ভাষার মডেলটিকে অপ্টিমাইজ করতে পারেন৷ আপনি এটিকে একটি প্রম্পট দেন, একটি 'নির্বাচিত' (পছন্দের) প্রতিক্রিয়া, এবং একটি 'প্রত্যাখ্যান' প্রতিক্রিয়া, এবং একটি সাধারণ শ্রেণিবিন্যাস-শৈলী ক্ষতি মডেলটিকে বেছে নেওয়া উত্তরটিকে তুলনামূলকভাবে আরও বেশি সম্ভাবনাময় করে তোলে। কোন পুরষ্কার মডেল নেই, কোন স্যাম্পলিং লুপ নেই, কোন পুরস্কার হ্যাকিং নেই। এটি চালানোর জন্য অনেক সহজ এবং আরো স্থিতিশীল।

প্রযুক্তিগত অন্তর্দৃষ্টি

ডিপিও পছন্দের জোড়ার তুলনায় বাইনারি ক্রস-এনট্রপি লস ব্যবহার করে। এটি প্রত্যাখ্যানকৃত প্রতিক্রিয়ার সাপেক্ষে নির্বাচিত প্রতিক্রিয়ার লগ-সম্ভাব্যতা অনুপাত বৃদ্ধি করে, প্রতিটি হিমায়িত রেফারেন্স মডেলের (সাধারণত তত্ত্বাবধানে-সূক্ষ্ম-টিউনড প্রারম্ভিক পয়েন্ট) এর বিপরীতে পরিমাপ করা হয়। একটি তাপমাত্রা পরামিতি বিটা নিয়ন্ত্রণ করে যে নীতিটি সেই রেফারেন্স থেকে কতদূর সরে যেতে পারে, RLHF স্পষ্টভাবে প্রযোজ্য KL সীমাবদ্ধতাকে স্পষ্টভাবে প্রয়োগ করে। পুরস্কার কখনো বাস্তবায়িত হয় না; এটি নীতির নিজস্ব লগ-সম্ভাবনার মধ্যে নিহিত।

সরাসরি পছন্দ অপ্টিমাইজেশান আয়ত্ত করা

ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিপিও) হল ভাষা মডেলগুলিকে মানুষের পছন্দের সাথে সারিবদ্ধ করার একটি উপায় একটি পৃথক পুরস্কার মডেলের প্রশিক্ষণ না দিয়ে বা রিইনফোর্সমেন্ট লার্নিং চালানো ছাড়া। এটি একটি জটিল বহু-পর্যায়ের পাইপলাইনকে একটি একক, স্থিতিশীল প্রশিক্ষণ ক্ষতিতে ভেঙে দেয়। ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান হল ভাষা-এআই স্ট্যাকের অংশ যা পাঠ্য ও বক্তৃতা পাঠ, জেনারেট, শ্রেণীবিভাগ এবং রূপান্তর করতে ব্যবহৃত হয়। গভীর বোধগম্যতা তৈরি করতে, ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশানকে একটি অপারেটিং মডেল হিসাবে বিবেচনা করুন, একটি একক বৈশিষ্ট্য নয়: পছন্দসই ফলাফলগুলি সংজ্ঞায়িত করুন, অনুমানগুলি স্পষ্ট করুন এবং সিস্টেমটি নির্ভরযোগ্যভাবে কী করতে পারে তা এখনও বিশেষজ্ঞের বিচারের প্রয়োজন থেকে আলাদা করুন৷

অনুশীলনে, প্রত্যক্ষ পছন্দ অপ্টিমাইজেশান ডিজাইন ব্যবহার করে শক্তিশালী দলগুলি একটি সমন্বিত যোগাযোগ ব্যবস্থা হিসাবে লুপগুলি পুনরুদ্ধার, পুনরুদ্ধার এবং পর্যালোচনা করে। তারা সুস্পষ্ট সাফল্যের মাপকাঠি নথিভুক্ত করে, বাস্তবসম্মত ডেটা এবং কর্মপ্রবাহের বিরুদ্ধে পরীক্ষা করে এবং এককালীন বেঞ্চমার্ক জয়ের পরিবর্তে পর্যবেক্ষিত ব্যর্থতার ধরণগুলির উপর ভিত্তি করে পুনরাবৃত্তি করে। এখানেই তাত্ত্বিক বোঝাপড়া পণ্য, নীতি এবং অপারেশন জুড়ে টেকসই সক্ষমতায় পরিণত হয়।

ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে। একই সময়ে, হ্যালুসিনেটেড ফ্যাক্টগুলি নিঃশব্দে রিপোর্ট, সমর্থন প্রবাহ বা গবেষণা আউটপুট প্রবেশ করতে পারে। সবচেয়ে স্থিতিস্থাপক পদ্ধতি হল প্রশাসনিক শৃঙ্খলার সাথে পরীক্ষার গতিকে একত্রিত করা: পাইলট চালান, প্রমাণ ক্যাপচার করুন, সিদ্ধান্তের লগ প্রকাশ করুন এবং মডেল আচরণ, ব্যবহারকারীর প্রত্যাশা এবং নিয়ন্ত্রক প্রয়োজনীয়তাগুলি বিকশিত হওয়ার সাথে সাথে অবিচ্ছিন্ন সুরক্ষাগুলি আপডেট করুন।

কৌশলগত প্রভাব

ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে।

ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

এটি ভাষা এবং যোগাযোগ শৈলী জুড়ে অ্যাক্সেস প্রসারিত করে।

এটি ভাষা এবং যোগাযোগ শৈলী জুড়ে অ্যাক্সেস প্রসারিত করে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

অটোমেশন পুনরাবৃত্তি পরিচালনা করার সময় দলগুলি বিচারে আরও বেশি সময় ব্যয় করতে পারে।

অটোমেশন পুনরাবৃত্তি পরিচালনা করার সময় দলগুলি বিচারে আরও বেশি সময় ব্যয় করতে পারে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

প্রত্যক্ষ পছন্দ অপ্টিমাইজেশানের ভবিষ্যত

DPO একটি ডিফল্ট অ্যালাইনমেন্ট পদ্ধতিতে পরিণত হয়েছে কারণ এটি সস্তা এবং পুনরুত্পাদনযোগ্য, এবং এটি একটি বৈকল্পিক পরিবার তৈরি করেছে: আইপিও কাছাকাছি-নির্ধারক পছন্দগুলির উপর ওভারফিটিং সংশোধন করে, KTO জোড়ার পরিবর্তে একক ভাল-মন্দ লেবেল থেকে শেখে, এবং ORPO কোন রেফারেন্স মডেল ছাড়াই ফাইন-টিউনিংয়ে পছন্দ শেখার ভাঁজ করে। সম্পূর্ণ অনলাইন RLHF এর সাথে অবশিষ্ট ব্যবধানকে সংকুচিত করে, অন-পলিসি ডেটা এবং দৈর্ঘ্য/গুণমানের সাথে ডিপিওকে একত্রিত করার জন্য অবিরত কাজ আশা করুন।

বাস্তব-বিশ্ব বাস্তবায়ন

ফাইন-টিউনিং ওপেন-ওয়েট চ্যাট মডেল যেমন Zephyr এবং অনেক Llama এবং Mistral ডেরিভেটিভস, যা পছন্দের ডেটাসেটে DPO এর সাথে সংযুক্ত ছিল

জোড়া ব্যবহার করে ক্ষতিকারক বা অসহায় আউটপুট হ্রাস করা যেখানে একটি সমস্যাযুক্ত উত্তরের জন্য নিরাপদ, সহায়ক উত্তর 'নির্বাচিত' হয়

ডেভেলপার-রেট তুলনা ব্যবহার করে বগির চেয়ে সঠিক, ভাল-ডকুমেন্টেড সমাধান পছন্দ করতে একজন কোডিং সহকারীকে শেখানো

সংক্ষিপ্তকরণের শৈলী টিউন করা যাতে মডেলগুলি ভার্বস বা হ্যালুসিনেটেডগুলির চেয়ে সংক্ষিপ্ত, বিশ্বস্ত সারাংশ পছন্দ করে

বাস্তবায়ন নিদর্শন

অনুশীলনে সরাসরি পছন্দ অপ্টিমাইজেশান

ফাইন-টিউনিং ওপেন-ওয়েট চ্যাট মডেল যেমন Zephyr এবং অনেক Llama এবং Mistral ডেরিভেটিভ, যা পছন্দের ডেটাসেটে DPO-এর সাথে সংযুক্ত ছিল।

ফাইন-টিউনিং ওপেন-ওয়েট চ্যাট মডেল যেমন Zephyr এবং অনেক Llama এবং Mistral ডেরিভেটিভস, যা পছন্দের ডেটাসেটে DPO-এর সাথে সারিবদ্ধ ছিল দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে।

অনুশীলনে সরাসরি পছন্দ অপ্টিমাইজেশান

জোড়া ব্যবহার করে ক্ষতিকারক বা অসহায় আউটপুট হ্রাস করা যেখানে নিরাপদ, সহায়ক উত্তর একটি সমস্যাযুক্ত উত্তর 'নির্বাচিত' হয়।

জোড়া ব্যবহার করে ক্ষতিকারক বা অসহায় আউটপুট হ্রাস করা যেখানে নিরাপদ, সহায়ক উত্তর একটি সমস্যাযুক্ত একটির জন্য 'নির্বাচিত' হয় দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অনুশীলনে সরাসরি পছন্দ অপ্টিমাইজেশান

ডেভেলপার-রেটেড তুলনা ব্যবহার করে বগির চেয়ে সঠিক, ভাল-ডকুমেন্টেড সমাধান পছন্দ করতে একজন কোডিং সহকারীকে শেখানো।

একটি কোডিং সহকারীকে ডেভেলপার-রেটেড তুলনা ব্যবহার করে বগিগুলির চেয়ে সঠিক, ভাল-ডকুমেন্টেড সমাধান পছন্দ করতে শেখানো দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অনুশীলনে সরাসরি পছন্দ অপ্টিমাইজেশান

টিউনিং সারসংক্ষেপ শৈলী যাতে মডেলগুলি ভার্বস বা হ্যালুসিনেটেডগুলির চেয়ে সংক্ষিপ্ত, বিশ্বস্ত সারাংশের পক্ষে থাকে।

টিউনিং সংক্ষিপ্তকরণ শৈলী যাতে মডেলগুলি ভার্বোজ বা হ্যালুসিনেটেডগুলির তুলনায় সংক্ষিপ্ত, বিশ্বস্ত সারসংক্ষেপের পক্ষে থাকে দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

ঝুঁকি এবং প্রহরী

!

হ্যালুসিনেটেড ফ্যাক্টগুলি শান্তভাবে রিপোর্ট, সমর্থন প্রবাহ, বা গবেষণা আউটপুট প্রবেশ করতে পারে।

!

প্রম্পট সংবেদনশীলতা অনুরূপ অনুরোধ জুড়ে অসামঞ্জস্যপূর্ণ ফলাফল তৈরি করতে পারে।

!

অ্যাক্সেস কন্ট্রোল দুর্বল হলে সংবেদনশীল পাঠ্য ডেটা উন্মুক্ত হতে পারে।

বাস্তবায়ন রোডম্যাপ

1

রোলআউট করার আগে আউটপুট ফর্ম্যাট, টোন এবং মানের মান নির্ধারণ করুন।

রোলআউট করার আগে আউটপুট ফর্ম্যাট, টোন এবং মানের মান নির্ধারণ করুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

2

যখনই নির্ভুলতা গুরুত্বপূর্ণ তখন বিশ্বস্ত উত্সের সাথে গ্রাউন্ড প্রতিক্রিয়া।

যখনই নির্ভুলতা গুরুত্বপূর্ণ তখন বিশ্বস্ত উত্সের সাথে গ্রাউন্ড প্রতিক্রিয়া। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

3

উচ্চ-স্টেকের আউটপুটগুলির জন্য একটি মানব পর্যালোচনা চেকপয়েন্ট রাখুন।

উচ্চ-স্টেকের আউটপুটগুলির জন্য একটি মানব পর্যালোচনা চেকপয়েন্ট রাখুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

4

ব্যর্থতার নিদর্শনগুলি ট্র্যাক করুন এবং প্রম্পট বা ওয়ার্কফ্লোগুলিকে নিয়মিতভাবে পুনরায় প্রশিক্ষণ দিন।

ব্যর্থতার নিদর্শনগুলি ট্র্যাক করুন এবং প্রম্পট বা ওয়ার্কফ্লোগুলিকে নিয়মিতভাবে পুনরায় প্রশিক্ষণ দিন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

অন্বেষণ চালিয়ে যান