মৌলিক নির্দেশিকা

মাল্টি-এজেন্ট শক্তিবৃদ্ধি শিক্ষা

মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং (MARL) বেশ কয়েকটি লার্নিং এজেন্টকে প্রশিক্ষণ দেয় যারা একটি পরিবেশ ভাগ করে নেয়, প্রত্যেকে তার আচরণকে মানিয়ে নেয় এবং অন্যরাও মানিয়ে নেয়।

ওভারভিউ

মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং (MARL) বেশ কয়েকটি লার্নিং এজেন্টকে প্রশিক্ষণ দেয় যারা একটি পরিবেশ ভাগ করে নেয়, প্রত্যেকে তার আচরণকে মানিয়ে নেয় এবং অন্যরাও মানিয়ে নেয়। এটি গুরুত্বপূর্ণ কারণ বেশিরভাগ বাস্তব-বিশ্বের সমস্যাগুলি - ট্রাফিক, বাজার, রোবটের দল - অনেক সিদ্ধান্ত গ্রহণকারীকে জড়িত করে, একটি নয়।

মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং কোর এআই টুলকিটে বসে। আপনি যখন এটি বুঝতে পারেন, তখন অন্যান্য AI বিষয়গুলি মূল্যায়ন এবং তুলনা করা সহজ হয়ে যায়।

গভীর ডুব

একক-এজেন্ট শক্তিবৃদ্ধি শেখার ক্ষেত্রে, একজন এজেন্ট একটি নির্দিষ্ট পরিবেশে সর্বোচ্চ পুরস্কারের মাধ্যমে একটি নীতি শিখে। MARL আরও এজেন্ট যোগ করে, এবং এটি সবকিছু পরিবর্তন করে: প্রতিটি এজেন্টের দৃষ্টিকোণ থেকে, পরিবেশ অস্থির কারণ অন্যরা তাদের নীতি পরিবর্তন করতে থাকে। এজেন্টরা সমবায় হতে পারে (একটি দলের পুরষ্কার ভাগ করে নেওয়া, যেমন ফুটবল খেলা রোবট), প্রতিযোগিতামূলক (শূন্য-সমষ্টি, যেমন জুজু বা সাধনা-চঞ্চলতা) বা মিশ্র। গবেষকরা মার্কভ গেমস (স্টোকাস্টিক গেমস) এর মতো আনুষ্ঠানিকতা ব্যবহার করেন যা একক-এজেন্ট মার্কভ সিদ্ধান্ত প্রক্রিয়াকে সাধারণীকরণ করে। বিখ্যাত ফলাফলগুলির মধ্যে রয়েছে DeepMind-এর AlphaStar StarCraft II-এ গ্র্যান্ডমাস্টারে পৌঁছানো এবং OpenAI পাঁচটি পেশাদার ডোটা 2 দলকে পরাজিত করে, উভয়ই স্ব-খেলার মাধ্যমে একে অপরের বিরুদ্ধে প্রশিক্ষিত এজেন্টদের জনসংখ্যার উপর নির্ভর করে।

প্রযুক্তিগত অন্তর্দৃষ্টি

একটি মূল চ্যালেঞ্জ হল অ-স্থিরতা: যেহেতু প্রতিটি এজেন্ট তার নীতি আপডেট করে, অন্যরা একটি চলমান লক্ষ্যের মুখোমুখি হয়, তাই নির্বোধ স্বাধীন শিক্ষা একত্রিত হতে ব্যর্থ হতে পারে। একটি জনপ্রিয় সমাধান হল বিকেন্দ্রীভূত এক্সিকিউশন (CTDE) সহ কেন্দ্রীভূত প্রশিক্ষণ, যা MADDPG এবং QMIX এর মত অ্যালগরিদম দ্বারা ব্যবহৃত হয়। প্রশিক্ষণের সময়, একজন সমালোচক স্থিতিশীল গ্রেডিয়েন্ট গণনা করার জন্য সমস্ত এজেন্টদের পর্যবেক্ষণ এবং ক্রিয়াগুলি দেখেন, কিন্তু স্থাপনার সময় প্রতিটি এজেন্ট শুধুমাত্র নিজস্ব স্থানীয় পর্যবেক্ষণ ব্যবহার করে কাজ করে — ব্যবহারিক, স্বাধীন অপারেশনের সাথে সমন্বিত শিক্ষার সমন্বয়।

মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং আয়ত্ত করা

মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং (MARL) বেশ কয়েকটি লার্নিং এজেন্টকে প্রশিক্ষণ দেয় যারা একটি পরিবেশ ভাগ করে নেয়, প্রত্যেকে তার আচরণকে মানিয়ে নেয় এবং অন্যরাও মানিয়ে নেয়। এটি গুরুত্বপূর্ণ কারণ বেশিরভাগ বাস্তব-বিশ্বের সমস্যাগুলি - ট্রাফিক, বাজার, রোবটের দল - অনেক সিদ্ধান্ত গ্রহণকারীকে জড়িত করে, একটি নয়। মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং কোর এআই টুলকিটে বসে। আপনি যখন এটি বুঝতে পারেন, তখন অন্যান্য AI বিষয়গুলি মূল্যায়ন এবং তুলনা করা সহজ হয়ে যায়। গভীর বোঝাপড়া তৈরি করতে, মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিংকে একটি অপারেটিং মডেল হিসাবে বিবেচনা করুন, একটি একক বৈশিষ্ট্য নয়: পছন্দসই ফলাফলগুলি সংজ্ঞায়িত করুন, অনুমানগুলি স্পষ্ট করুন এবং সিস্টেমটি নির্ভরযোগ্যভাবে কী করতে পারে তা এখনও বিশেষজ্ঞের বিচারের প্রয়োজন থেকে আলাদা করুন৷

অনুশীলনে, মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে শক্তিশালী দলগুলি প্রথমে শক্তিশালী ধারণাগত মডেল তৈরি করে, তারপর সেই মডেলগুলিকে প্রকৃত উৎপাদন সীমাবদ্ধতার সাথে মানচিত্র করে। তারা সুস্পষ্ট সাফল্যের মাপকাঠি নথিভুক্ত করে, বাস্তবসম্মত ডেটা এবং কর্মপ্রবাহের বিরুদ্ধে পরীক্ষা করে এবং এককালীন বেঞ্চমার্ক জয়ের পরিবর্তে পর্যবেক্ষিত ব্যর্থতার ধরণগুলির উপর ভিত্তি করে পুনরাবৃত্তি করে। এখানেই তাত্ত্বিক বোঝাপড়া পণ্য, নীতি এবং অপারেশন জুড়ে টেকসই সক্ষমতায় পরিণত হয়।

এটি আপনাকে বিপণনের ভাষা থেকে স্পষ্ট প্রযুক্তিগত দাবিগুলি আলাদা করতে সহায়তা করে। একই সময়ে, বিভিন্ন দল একই শব্দটি ভিন্নভাবে ব্যবহার করতে পারে, তাই সুযোগটি প্রথম দিকে সংজ্ঞায়িত করুন। সবচেয়ে স্থিতিস্থাপক পদ্ধতি হল প্রশাসনিক শৃঙ্খলার সাথে পরীক্ষার গতিকে একত্রিত করা: পাইলট চালান, প্রমাণ ক্যাপচার করুন, সিদ্ধান্তের লগ প্রকাশ করুন এবং মডেল আচরণ, ব্যবহারকারীর প্রত্যাশা এবং নিয়ন্ত্রক প্রয়োজনীয়তাগুলি বিকশিত হওয়ার সাথে সাথে অবিচ্ছিন্ন সুরক্ষাগুলি আপডেট করুন।

কৌশলগত প্রভাব

এটি আপনাকে বিপণনের ভাষা থেকে স্পষ্ট প্রযুক্তিগত দাবিগুলি আলাদা করতে সহায়তা করে।

এটি আপনাকে বিপণনের ভাষা থেকে স্পষ্ট প্রযুক্তিগত দাবিগুলি আলাদা করতে সহায়তা করে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

অর্থ বা সময় ব্যয় করার আগে আপনি আরও ভাল বাস্তবায়ন প্রশ্ন জিজ্ঞাসা করতে পারেন।

অর্থ বা সময় ব্যয় করার আগে আপনি আরও ভাল বাস্তবায়ন প্রশ্ন জিজ্ঞাসা করতে পারেন। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

ভাগ করা বোঝাপড়া সহ দলগুলি আরও ভাল পণ্য, নীতি এবং শেখার সিদ্ধান্ত নেয়।

ভাগ করা বোঝাপড়া সহ দলগুলি আরও ভাল পণ্য, নীতি এবং শেখার সিদ্ধান্ত নেয়। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

মাল্টি-এজেন্ট শক্তিবৃদ্ধি শিক্ষার ভবিষ্যত

MARL বৃহত্তর, আরও উন্মুক্ত সিস্টেমের দিকে অগ্রসর হচ্ছে যেখানে এজেন্টরা প্রবেশ করে এবং চলে যায় এবং LLM-ভিত্তিক এজেন্টদের দলগুলির দিকে যারা আলোচনা করে, প্রতিনিধিত্ব করে এবং একসাথে সরঞ্জামগুলি ব্যবহার করে। স্কেলযোগ্য ক্রেডিট অ্যাসাইনমেন্টে অগ্রগতি আশা করুন (যারা একটি বড় দলে পুরষ্কারের যোগ্য), জরুরি যোগাযোগ প্রোটোকল এবং প্রতিযোগী এজেন্টদের জন্য নিরাপত্তা গ্যারান্টি। যেহেতু স্বায়ত্তশাসিত যানবাহন, এনার্জি গ্রিড এবং ট্রেডিং সিস্টেমগুলি ক্রমবর্ধমানভাবে ইন্টারঅ্যাক্ট করছে, শক্তিশালী মাল্টি-এজেন্ট সমন্বয় — এবং মিলন এড়ানো বা প্রতিক্রিয়া লুপগুলিকে অস্থিতিশীল করা — একটি কেন্দ্রীয় ব্যবহারিক এবং নিয়ন্ত্রক উদ্বেগ হয়ে উঠেছে।

বাস্তব-বিশ্ব বাস্তবায়ন

গুদামঘর রোবটের বহরের সমন্বয় করা যাতে তারা আইলগুলিতে সংঘর্ষ বা অচলাবস্থা ছাড়াই প্যাকেজগুলিকে রুট করে

ট্রাফিক-সিগন্যাল নিয়ন্ত্রণ যেখানে প্রতিটি চৌরাস্তা একটি এজেন্ট যা শহর জুড়ে যানজট কমাতে শেখে

অনেক এজেন্টদের মধ্যে স্ব-খেলার মাধ্যমে OpenAI Five (Dota 2) এবং AlphaStar (StarCraft II) এর মতো প্রশিক্ষণ গেম

একটি স্মার্ট ইলেক্ট্রিসিটি গ্রিডে বিতরণ করা ব্যাটারি এবং বাড়ির মধ্যে বিড পরিচালনা এবং চাহিদার প্রতিক্রিয়া

বাস্তবায়ন নিদর্শন

অনুশীলনে মাল্টি-এজেন্ট শক্তিবৃদ্ধি শিক্ষা

ওয়্যারহাউস রোবটগুলির বহরের সমন্বয় করা যাতে তারা আইলগুলিতে সংঘর্ষ বা অচলাবস্থা ছাড়াই প্যাকেজগুলিকে রুট করে।

ওয়্যারহাউস রোবটগুলির ফ্লিটগুলির সমন্বয় সাধন করা যাতে তারা আইলগুলিতে সংঘর্ষ বা অচলাবস্থা ছাড়াই প্যাকেজগুলিকে রুট করে দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানব বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অনুশীলনে মাল্টি-এজেন্ট শক্তিবৃদ্ধি শিক্ষা

ট্রাফিক-সিগন্যাল নিয়ন্ত্রণ যেখানে প্রতিটি চৌরাস্তা একটি এজেন্ট যা শহরব্যাপী যানজট কমাতে শেখে।

ট্র্যাফিক-সিগন্যাল নিয়ন্ত্রণ যেখানে প্রতিটি ছেদ একটি এজেন্ট যা শহর-ব্যাপী যানজট কমাতে শেখে দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অনুশীলনে মাল্টি-এজেন্ট শক্তিবৃদ্ধি শিক্ষা

অনেক এজেন্টদের মধ্যে স্ব-খেলার মাধ্যমে OpenAI Five (Dota 2) এবং AlphaStar (StarCraft II) এর মত AI প্রশিক্ষণের খেলা।

প্রশিক্ষণ গেম AI যেমন OpenAI Five (Dota 2) এবং AlphaStar (StarCraft II) অনেক এজেন্টদের মধ্যে স্ব-খেলার মাধ্যমে দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে, এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটি উভয়ই ট্র্যাক করে৷

অনুশীলনে মাল্টি-এজেন্ট শক্তিবৃদ্ধি শিক্ষা

একটি স্মার্ট ইলেক্ট্রিসিটি গ্রিডে বিতরণ করা ব্যাটারি এবং বাড়ির মধ্যে বিড পরিচালনা এবং চাহিদার প্রতিক্রিয়া।

একটি স্মার্ট ইলেক্ট্রিসিটি গ্রিডে বিতরণ করা ব্যাটারি এবং বাড়ির মধ্যে বিড পরিচালনা করা এবং চাহিদার প্রতিক্রিয়া টিমগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

ঝুঁকি এবং প্রহরী

!

বিভিন্ন দল একই শব্দটি ভিন্নভাবে ব্যবহার করতে পারে, তাই সুযোগটি আগে থেকেই নির্ধারণ করুন।

!

বেঞ্চমার্কগুলি শক্তিশালী দেখাতে পারে যখন বাস্তব-বিশ্বের কর্মক্ষমতা অসম হয়।

!

ডেটা গুণমান এবং মূল্যায়ন পরিকল্পনা উপেক্ষা করা প্রায়ই ভঙ্গুর ফলাফল তৈরি করে।

বাস্তবায়ন রোডম্যাপ

1

আপনার প্রয়োজনীয় ফলাফলের একটি সরল-ভাষা সংজ্ঞা দিয়ে শুরু করুন।

আপনার প্রয়োজনীয় ফলাফলের একটি সরল-ভাষা সংজ্ঞা দিয়ে শুরু করুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

2

পরীক্ষার আগে একটি সাফল্যের মেট্রিক এবং একটি ব্যর্থতার শর্ত বাছুন।

পরীক্ষার আগে একটি সাফল্যের মেট্রিক এবং একটি ব্যর্থতার শর্ত বাছুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

3

একটি পালিশ ডেমো সেট নয়, প্রতিনিধি ডেটা সহ একটি ছোট পাইলট চালান৷

একটি পালিশ ডেমো সেট নয়, প্রতিনিধি ডেটা সহ একটি ছোট পাইলট চালান৷ প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

4

নথি যেখানে মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং সাহায্য করে এবং যেখানে সহজ পদ্ধতিগুলি ভাল।

নথি যেখানে মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং সাহায্য করে এবং যেখানে সহজ পদ্ধতিগুলি ভাল। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

অন্বেষণ চালিয়ে যান