ওভারভিউ
Self-RAG হল একটি কাঠামো যেখানে একটি ভাষা মডেল সিদ্ধান্ত নেয় কখন পুনরুদ্ধার করতে হবে, তারপর বিশেষ প্রতিফলন টোকেন ব্যবহার করে পুনরুদ্ধার করা প্যাসেজ এবং নিজস্ব আউটপুট উভয়েরই সমালোচনা করে। এটি গুরুত্বপূর্ণ কারণ এটি প্রতিটি প্রশ্নের জন্য অন্ধভাবে নথি আনার পরিবর্তে পুনরুদ্ধার-বর্ধিত প্রজন্মকে অভিযোজিত এবং স্ব-পরীক্ষা করে তোলে।
স্ব-RAG এবং প্রতিফলিত পুনরুদ্ধার হল ভাষা-এআই স্ট্যাকের অংশ যা পাঠ্য এবং বক্তৃতা পাঠ, তৈরি, শ্রেণীবদ্ধ এবং রূপান্তর করতে ব্যবহৃত হয়।
গভীর ডুব
স্ট্যান্ডার্ড RAG প্রতিটি ইনপুটের জন্য একটি নির্দিষ্ট সংখ্যক প্যাসেজ পুনরুদ্ধার করে, এমনকি যখন কোনটির প্রয়োজন হয় না, এবং উত্তরটি আসলে সমর্থিত কিনা তা যাচাই করে না। 2023 সালে Asai এবং সহকর্মীদের দ্বারা প্রবর্তিত Self-RAG, চাহিদা অনুযায়ী তিনটি জিনিস করার জন্য একটি একক মডেলকে প্রশিক্ষণ দেয়। প্রথমত, এটি একটি 'পুনরুদ্ধার' টোকেন নির্গত করে যা সিদ্ধান্ত নেয় যে বাহ্যিক জ্ঞান আদৌ প্রয়োজন কিনা। দ্বিতীয়ত, পুনরুদ্ধার করার পরে, এটি প্রতিটি প্যাসেজ সাহায্য করে কিনা তা বিচার করে 'IsRelevant' সমালোচনা টোকেন জারি করে। তৃতীয়ত, এটি 'IsSupported' এবং 'IsUseful' টোকেন তৈরি করে যা এর নিজস্ব বিবৃতি প্রমাণের ভিত্তিতে রয়েছে কিনা এবং প্রতিক্রিয়া কতটা ভাল তা মূল্যায়ন করে। এই প্রতিফলন টোকেনগুলি সিস্টেমকে শুধুমাত্র তখনই পুনরুদ্ধার করতে দেয় যখন নিশ্চিত হয়, অপ্রাসঙ্গিক প্যাসেজগুলি ফিল্টার করে এবং আউটপুটগুলিকে পছন্দ করে যা মডেল নিজেই ভাল-সমর্থিত হিসাবে রেট দেয়, হ্যালুসিনেশন হ্রাস করে।
প্রযুক্তিগত অন্তর্দৃষ্টি
সেলফ-আরএজি প্রতিফলন টোকেন সহ লেবেলযুক্ত ডেটার উপর তত্ত্বাবধানে শিক্ষার মাধ্যমে প্রশিক্ষিত হয়, প্রায়শই GPT-4 এর মতো শক্তিশালী মডেল থেকে পাতিত হয়। অনুমানে, মডেলটি এই বিশেষ কন্ট্রোল টোকেনগুলির সাথে সাধারণ টেক্সট টোকেনগুলিকে ইন্টারলিভ করে। একটি সেগমেন্ট-স্তরের বীম অনুসন্ধান তারপরে ক্রিটিক টোকেনগুলির সম্ভাব্যতা ব্যবহার করে প্রার্থীর ধারাবাহিকতা স্কোর করতে পারে, যা বিকাশকারীদের রান টাইমে আচরণের সুর করতে দেয় — উদাহরণস্বরূপ, বাস্তবিক গ্রাউন্ডিং বনাম সাবলীলতা সর্বাধিক করার জন্য 'IsSupported' কে আরও বেশি ওজন করা।
স্ব-RAG এবং প্রতিফলিত পুনরুদ্ধার আয়ত্ত করা
Self-RAG হল একটি কাঠামো যেখানে একটি ভাষা মডেল সিদ্ধান্ত নেয় কখন পুনরুদ্ধার করতে হবে, তারপর বিশেষ প্রতিফলন টোকেন ব্যবহার করে পুনরুদ্ধার করা প্যাসেজ এবং নিজস্ব আউটপুট উভয়েরই সমালোচনা করে। এটি গুরুত্বপূর্ণ কারণ এটি প্রতিটি প্রশ্নের জন্য অন্ধভাবে নথি আনার পরিবর্তে পুনরুদ্ধার-বর্ধিত প্রজন্মকে অভিযোজিত এবং স্ব-পরীক্ষা করে তোলে। স্ব-RAG এবং প্রতিফলিত পুনরুদ্ধার হল ভাষা-এআই স্ট্যাকের অংশ যা পাঠ্য এবং বক্তৃতা পাঠ, তৈরি, শ্রেণীবদ্ধ এবং রূপান্তর করতে ব্যবহৃত হয়। গভীর বোঝাপড়া তৈরি করতে, সেলফ-আরএজি এবং রিফ্লেক্টিভ পুনরুদ্ধারকে একটি অপারেটিং মডেল হিসাবে বিবেচনা করুন, একটি একক বৈশিষ্ট্য নয়: পছন্দসই ফলাফলগুলি সংজ্ঞায়িত করুন, অনুমানগুলি স্পষ্ট করুন এবং সিস্টেমটি নির্ভরযোগ্যভাবে কী করতে পারে তা এখনও বিশেষজ্ঞের রায়ের প্রয়োজন থেকে আলাদা করুন৷
অনুশীলনে, একটি সমন্বিত যোগাযোগ ব্যবস্থা হিসাবে স্ব-আরএজি এবং প্রতিফলিত পুনরুদ্ধার ডিজাইন প্রম্পট, পুনরুদ্ধার এবং পর্যালোচনা লুপগুলি ব্যবহার করে শক্তিশালী দলগুলি। তারা সুস্পষ্ট সাফল্যের মাপকাঠি নথিভুক্ত করে, বাস্তবসম্মত ডেটা এবং কর্মপ্রবাহের বিরুদ্ধে পরীক্ষা করে এবং এককালীন বেঞ্চমার্ক জয়ের পরিবর্তে পর্যবেক্ষিত ব্যর্থতার ধরণগুলির উপর ভিত্তি করে পুনরাবৃত্তি করে। এখানেই তাত্ত্বিক বোঝাপড়া পণ্য, নীতি এবং অপারেশন জুড়ে টেকসই সক্ষমতায় পরিণত হয়।
ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে। একই সময়ে, হ্যালুসিনেটেড ফ্যাক্টগুলি নিঃশব্দে রিপোর্ট, সমর্থন প্রবাহ বা গবেষণা আউটপুট প্রবেশ করতে পারে। সবচেয়ে স্থিতিস্থাপক পদ্ধতি হল প্রশাসনিক শৃঙ্খলার সাথে পরীক্ষার গতিকে একত্রিত করা: পাইলট চালান, প্রমাণ ক্যাপচার করুন, সিদ্ধান্তের লগ প্রকাশ করুন এবং মডেল আচরণ, ব্যবহারকারীর প্রত্যাশা এবং নিয়ন্ত্রক প্রয়োজনীয়তাগুলি বিকশিত হওয়ার সাথে সাথে অবিচ্ছিন্ন সুরক্ষাগুলি আপডেট করুন।
কৌশলগত প্রভাব
ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে।
ভাষার কর্মপ্রবাহ ধারাবাহিকতাকে ত্যাগ না করে দ্রুত অগ্রসর হতে পারে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।
এটি ভাষা এবং যোগাযোগ শৈলী জুড়ে অ্যাক্সেস প্রসারিত করে।
এটি ভাষা এবং যোগাযোগ শৈলী জুড়ে অ্যাক্সেস প্রসারিত করে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।
অটোমেশন পুনরাবৃত্তি পরিচালনা করার সময় দলগুলি বিচারে আরও বেশি সময় ব্যয় করতে পারে।
অটোমেশন পুনরাবৃত্তি পরিচালনা করার সময় দলগুলি বিচারে আরও বেশি সময় ব্যয় করতে পারে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।
বাস্তব-বিশ্ব বাস্তবায়ন
একজন মেডিকেল প্রশ্নোত্তর সহকারী শুধুমাত্র ক্লিনিকাল প্রশ্নগুলির জন্য নির্দেশিকা পুনরুদ্ধার করে এবং তার 'পুনরুদ্ধার' সিদ্ধান্তের টোকেন ব্যবহার করে শুভেচ্ছার জন্য পুনরুদ্ধার এড়িয়ে যায়।
একজন গবেষণা সহকারী লেখার আগে প্রতিটি প্যাসেজের 'IsRelevant' সমালোচনা চেক করে অফ-টপিক সার্চ হিট ফিল্টার করে।
একটি এন্টারপ্রাইজ চ্যাটবট 'IsSupported' ট্যাগ করা উত্তর পছন্দ করে যাতে এর বিবৃতিগুলি কোম্পানির নথিতে স্থির থাকে, হ্যালুসিনেশন কাটতে পারে।
একটি ফ্যাক্ট-চেকিং টুল 'IsUseful' স্কোর ব্যবহার করে একাধিক প্রার্থীর উত্তরকে র্যাঙ্ক করতে এবং সেরা-প্রমাণযুক্ত একটিকে সারফেস করে।
বাস্তবায়ন নিদর্শন
অনুশীলনে স্ব-RAG এবং প্রতিফলিত পুনরুদ্ধার
একজন মেডিকেল প্রশ্নোত্তর সহকারী শুধুমাত্র ক্লিনিকাল প্রশ্নগুলির জন্য নির্দেশিকা পুনরুদ্ধার করে এবং তার 'পুনরুদ্ধার' সিদ্ধান্তের টোকেন ব্যবহার করে শুভেচ্ছার জন্য পুনরুদ্ধার এড়িয়ে যায়।
একজন মেডিকেল প্রশ্নোত্তর সহকারী শুধুমাত্র ক্লিনিকাল প্রশ্নগুলির জন্য নির্দেশিকা পুনরুদ্ধার করে এবং শুভেচ্ছার জন্য পুনরুদ্ধার এড়িয়ে যায়, এর 'পুনরুদ্ধার' সিদ্ধান্ত টোকেন ব্যবহার করে দলগুলি সাধারণত আরও ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷
অনুশীলনে স্ব-RAG এবং প্রতিফলিত পুনরুদ্ধার
একজন গবেষণা সহকারী লেখার আগে প্রতিটি প্যাসেজের 'IsRelevant' সমালোচনা চেক করে অফ-টপিক সার্চ হিট ফিল্টার করে।
একজন রিসার্চ অ্যাসিস্ট্যান্ট লেখার আগে প্রতিটি প্যাসেজের 'IsRelevant' সমালোচনা চেক করে অফ-টপিক সার্চ হিটগুলি ফিল্টার করে। দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে।
অনুশীলনে স্ব-RAG এবং প্রতিফলিত পুনরুদ্ধার
একটি এন্টারপ্রাইজ চ্যাটবট 'IsSupported' ট্যাগ করা উত্তর পছন্দ করে যাতে এর বিবৃতিগুলি কোম্পানির নথিতে স্থির থাকে, হ্যালুসিনেশন কাটতে পারে।
একটি এন্টারপ্রাইজ চ্যাটবট 'IsSupported' ট্যাগ করা উত্তরগুলি পছন্দ করে তাই এর বিবৃতিগুলি কোম্পানির নথিতে ভিত্তি করে থাকে, হ্যালুসিনেশন কাটতে টিমগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷
অনুশীলনে স্ব-RAG এবং প্রতিফলিত পুনরুদ্ধার
একটি ফ্যাক্ট-চেকিং টুল 'IsUseful' স্কোর ব্যবহার করে একাধিক প্রার্থীর উত্তরকে র্যাঙ্ক করতে এবং সেরা-প্রমাণযুক্ত একটিকে সারফেস করে।
একটি ফ্যাক্ট-চেকিং টুল 'IsUseful' স্কোর ব্যবহার করে একাধিক প্রার্থীর উত্তরকে র্যাঙ্ক করতে এবং সেরা-প্রমাণযুক্ত একটিকে সামনে আনতে দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে।
ঝুঁকি এবং প্রহরী
হ্যালুসিনেটেড ফ্যাক্টগুলি শান্তভাবে রিপোর্ট, সমর্থন প্রবাহ, বা গবেষণা আউটপুট প্রবেশ করতে পারে।
প্রম্পট সংবেদনশীলতা অনুরূপ অনুরোধ জুড়ে অসামঞ্জস্যপূর্ণ ফলাফল তৈরি করতে পারে।
অ্যাক্সেস কন্ট্রোল দুর্বল হলে সংবেদনশীল পাঠ্য ডেটা উন্মুক্ত হতে পারে।
বাস্তবায়ন রোডম্যাপ
রোলআউট করার আগে আউটপুট ফর্ম্যাট, টোন এবং মানের মান নির্ধারণ করুন।
রোলআউট করার আগে আউটপুট ফর্ম্যাট, টোন এবং মানের মান নির্ধারণ করুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।
যখনই নির্ভুলতা গুরুত্বপূর্ণ তখন বিশ্বস্ত উত্সের সাথে গ্রাউন্ড প্রতিক্রিয়া।
যখনই নির্ভুলতা গুরুত্বপূর্ণ তখন বিশ্বস্ত উত্সের সাথে গ্রাউন্ড প্রতিক্রিয়া। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।
উচ্চ-স্টেকের আউটপুটগুলির জন্য একটি মানব পর্যালোচনা চেকপয়েন্ট রাখুন।
উচ্চ-স্টেকের আউটপুটগুলির জন্য একটি মানব পর্যালোচনা চেকপয়েন্ট রাখুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।
ব্যর্থতার নিদর্শনগুলি ট্র্যাক করুন এবং প্রম্পট বা ওয়ার্কফ্লোগুলিকে নিয়মিতভাবে পুনরায় প্রশিক্ষণ দিন।
ব্যর্থতার নিদর্শনগুলি ট্র্যাক করুন এবং প্রম্পট বা ওয়ার্কফ্লোগুলিকে নিয়মিতভাবে পুনরায় প্রশিক্ষণ দিন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।