অ্যাপ্লিকেশন গাইড

কম্পিউটার-ব্যবহারকারী এজেন্ট

কম্পিউটার-ব্যবহারকারী এজেন্টরা একটি কম্পিউটার পরিচালনা করে যেভাবে একজন ব্যক্তি করে: স্ক্রীন দেখা, কার্সার সরানো, ক্লিক করা এবং টাইপ করা।

ওভারভিউ

কম্পিউটার-ব্যবহারকারী এজেন্টরা একটি কম্পিউটার পরিচালনা করে যেভাবে একজন ব্যক্তি করে: স্ক্রীন দেখা, কার্সার সরানো, ক্লিক করা এবং টাইপ করা। এটি AI-কে গ্রাফিকাল ইন্টারফেস সহ যেকোন সফ্টওয়্যার ব্যবহার করতে দেয়, এমনকি কোনও API ছাড়াই অ্যাপগুলিও।

কম্পিউটার-ব্যবহারকারী এজেন্টরা ব্যবহারিক স্থাপনার উপর দৃষ্টি নিবদ্ধ করে: মডেলের ক্ষমতাকে নির্ভরযোগ্য দৈনিক কর্মপ্রবাহে পরিণত করে যা পরিমাপযোগ্য মূল্য প্রদান করে।

গভীর ডুব

একটি কম্পিউটার-ব্যবহারকারী এজেন্ট (CUA) একটি বাস্তব বা ভার্চুয়াল ডেস্কটপ নিয়ন্ত্রণ করে তার স্ক্রীন এবং ইনপুট ডিভাইসের মাধ্যমে কোড-লেভেল API এর মাধ্যমে নয়। মডেলটি প্রদর্শনের স্ক্রিনশট গ্রহণ করে, এটি যা দেখে তার কারণগুলি এবং নিম্ন-স্তরের অ্যাকশনগুলি যেমন 'ক্লিক অ্যাট কোঅর্ডিনেট (412, 230)', 'এই টেক্সটটি টাইপ করুন', বা 'স্ক্রোল ডাউন'। এই উপলব্ধি-অ্যাকশন লুপ পুনরাবৃত্তি হয়: কাজ করুন, একটি নতুন স্ক্রিনশট ক্যাপচার করুন, পরবর্তী পদক্ষেপের সিদ্ধান্ত নিন। যেহেতু এটি পিক্সেল-এবং-কিস্ট্রোক স্তরে কাজ করে, একটি CUA ওয়েব ব্রাউজার চালাতে পারে, ফর্মগুলি পূরণ করতে পারে, মেনুতে নেভিগেট করতে পারে এবং এমন লিগ্যাসি অ্যাপ্লিকেশনগুলি ব্যবহার করতে পারে যা কোনও প্রোগ্রাম্যাটিক ইন্টারফেস প্রকাশ করে না। উদাহরণগুলির মধ্যে রয়েছে Anthropic এর Claude কম্পিউটার ব্যবহার এবং OpenAI এর অপারেটর৷ ট্রেড-অফগুলি বাস্তব: স্ক্রিন রিডিং ধীর হতে পারে, ক্লিকগুলি মিস করতে পারে এবং একটি এজেন্টকে একটি মেশিনের নিয়ন্ত্রণ প্রদান নিরাপত্তা উদ্বেগকে উত্থাপন করে, তাই বেশিরভাগ স্যান্ডবক্স করা বা তত্ত্বাবধানে পরিবেশে চালানো হয়।

প্রযুক্তিগত অন্তর্দৃষ্টি

এজেন্টকে একটি স্ক্রিনশট এবং টাস্ক দেওয়া হয়, এবং একটি দৃষ্টি-সক্ষম মডেল গ্রাউন্ড উপাদান (বোতাম, ক্ষেত্র) পিক্সেল স্থানাঙ্কের জন্য। এটি একটি কাঠামোগত ক্রিয়া নির্গত করে যা একটি অটোমেশন স্তর OS বা ব্রাউজারের বিরুদ্ধে কার্যকর করে। প্রতিটি ক্রিয়াকলাপের পরে একটি নতুন স্ক্রিনশট লুপ বন্ধ করে দেয়, তাই এজেন্ট আবার কাজ করার আগে ফলাফলটি উপলব্ধি করে। নির্ভরযোগ্যতা অনেকাংশে নির্ভর করে সঠিক ভিজ্যুয়াল গ্রাউন্ডিং এবং পুনরায় চেষ্টা বা যাচাইকরণ যুক্তির উপর যখন একটি ক্লিক ভুল উপাদানে ল্যান্ড করে।

কম্পিউটার-ব্যবহারকারী এজেন্টদের আয়ত্ত করা

কম্পিউটার-ব্যবহারকারী এজেন্টরা একটি কম্পিউটার পরিচালনা করে যেভাবে একজন ব্যক্তি করে: স্ক্রীন দেখা, কার্সার সরানো, ক্লিক করা এবং টাইপ করা। এটি AI-কে গ্রাফিকাল ইন্টারফেস সহ যেকোন সফ্টওয়্যার ব্যবহার করতে দেয়, এমনকি কোনও API ছাড়াই অ্যাপগুলিও। কম্পিউটার-ব্যবহারকারী এজেন্টরা ব্যবহারিক স্থাপনার উপর দৃষ্টি নিবদ্ধ করে: মডেলের ক্ষমতাকে নির্ভরযোগ্য দৈনিক কর্মপ্রবাহে পরিণত করে যা পরিমাপযোগ্য মূল্য প্রদান করে। গভীর বোঝাপড়া তৈরি করতে, কম্পিউটার-ব্যবহারকারী এজেন্টদের একটি অপারেটিং মডেল হিসাবে বিবেচনা করুন, একটি একক বৈশিষ্ট্য নয়: পছন্দসই ফলাফলগুলি সংজ্ঞায়িত করুন, অনুমানগুলি স্পষ্ট করুন এবং সিস্টেমটি নির্ভরযোগ্যভাবে কী করতে পারে তা এখনও বিশেষজ্ঞের বিচারের প্রয়োজন থেকে আলাদা করুন৷

অনুশীলনে, কম্পিউটার-ব্যবহারকারী এজেন্টগুলি ব্যবহার করে শক্তিশালী দলগুলি কার্যপ্রবাহের ফলাফলের উপর ফোকাস করে, মডেল ডেমো নয়, এবং মানব চেকপয়েন্টগুলিকে প্রাথমিকভাবে সংজ্ঞায়িত করে। তারা সুস্পষ্ট সাফল্যের মাপকাঠি নথিভুক্ত করে, বাস্তবসম্মত ডেটা এবং কর্মপ্রবাহের বিরুদ্ধে পরীক্ষা করে এবং এককালীন বেঞ্চমার্ক জয়ের পরিবর্তে পর্যবেক্ষিত ব্যর্থতার ধরণগুলির উপর ভিত্তি করে পুনরাবৃত্তি করে। এখানেই তাত্ত্বিক বোঝাপড়া পণ্য, নীতি এবং অপারেশন জুড়ে টেকসই সক্ষমতায় পরিণত হয়।

অ্যাপ্লিকেশন-স্তরের নকশা নির্ধারণ করে যে AI বাস্তব ফলাফলগুলিকে উন্নত করে কিনা। একই সময়ে, একটি ভাঙা প্রক্রিয়া স্বয়ংক্রিয়ভাবে বিদ্যমান সমস্যাগুলিকে প্রসারিত করতে পারে। সবচেয়ে স্থিতিস্থাপক পদ্ধতি হল প্রশাসনিক শৃঙ্খলার সাথে পরীক্ষার গতিকে একত্রিত করা: পাইলট চালান, প্রমাণ ক্যাপচার করুন, সিদ্ধান্তের লগ প্রকাশ করুন এবং মডেল আচরণ, ব্যবহারকারীর প্রত্যাশা এবং নিয়ন্ত্রক প্রয়োজনীয়তাগুলি বিকশিত হওয়ার সাথে সাথে অবিচ্ছিন্ন সুরক্ষাগুলি আপডেট করুন।

কৌশলগত প্রভাব

অ্যাপ্লিকেশন-স্তরের নকশা নির্ধারণ করে যে AI বাস্তব ফলাফলগুলিকে উন্নত করে কিনা।

অ্যাপ্লিকেশন-স্তরের নকশা নির্ধারণ করে যে AI বাস্তব ফলাফলগুলিকে উন্নত করে কিনা। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

ভাল ওয়ার্কফ্লো ইন্টিগ্রেশন ব্যবহারকারীদের বিশ্বাস করতে পারে এমন উত্পাদনশীলতা লাভ তৈরি করে।

ভাল ওয়ার্কফ্লো ইন্টিগ্রেশন ব্যবহারকারীদের বিশ্বাস করতে পারে এমন উত্পাদনশীলতা লাভ তৈরি করে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

সুপরিসর ব্যবহারের ক্ষেত্রে পরিবর্তনের ক্লান্তি এবং বাস্তবায়নের ঝুঁকি হ্রাস করে।

সুপরিসর ব্যবহারের ক্ষেত্রে পরিবর্তনের ক্লান্তি এবং বাস্তবায়নের ঝুঁকি হ্রাস করে। উচ্চ-মানের স্থাপনায়, এটি পরিমাপযোগ্য অপারেটিং নিয়ম, মালিকানার সীমানা এবং পুনরাবৃত্ত পর্যালোচনার আচার-অনুষ্ঠানে অনুবাদ করা হয় যাতে দলগুলি অস্পষ্টতার পরিবর্তে আত্মবিশ্বাস বাড়াতে পারে।

কম্পিউটার-ব্যবহারকারী এজেন্টদের ভবিষ্যত

যথার্থতা এবং গতি উন্নত হবে কারণ মডেলগুলি গ্রাউন্ডিং UI উপাদানগুলিতে আরও ভাল হয় এবং কিছু মিথস্ক্রিয়া কাঁচা পিক্সেলের পরিবর্তে দ্রুত অ্যাক্সেসযোগ্যতা গাছে স্থানান্তরিত হয়৷ শক্তিশালী রেললাইন আশা করুন: ঝুঁকিপূর্ণ ক্রিয়াকলাপ, সীমাবদ্ধ স্যান্ডবক্স এবং অডিট লগের আগে নিশ্চিতকরণ প্রম্পট। ডেস্কটপ এবং ওয়েব কাজের জন্য স্ট্যান্ডার্ড বেঞ্চমার্ক পরিপক্ক হচ্ছে, পরিমাপযোগ্য অগ্রগতি ঠেলে দিচ্ছে। দীর্ঘ মেয়াদে, CUAs পেমেন্টের মতো সংবেদনশীল ক্রিয়াকলাপের জন্য মানবিক অনুমোদনের ধাপ বজায় রেখে, প্রতি অ্যাপে যেটি বেশি নির্ভরযোগ্য তা ব্যবহার করে সরাসরি API কলের সাথে পিক্সেল নিয়ন্ত্রণকে মিশ্রিত করতে পারে।

বাস্তব-বিশ্ব বাস্তবায়ন

একটি এজেন্ট যে একটি ব্রাউজার খুলে, রিজার্ভেশন সাইট নেভিগেট করে, একটি সময় বেছে নিয়ে এবং যোগাযোগের বিশদ প্রবেশ করার মাধ্যমে একটি রেস্টুরেন্ট বুক করে।

স্ক্রিনে রসিদ পড়ে এবং কোনো API নেই এমন একটি ডেস্কটপ অ্যাকাউন্টিং অ্যাপে মান টাইপ করে খরচের প্রতিবেদন স্বয়ংক্রিয় করা।

QA পরীক্ষা যেখানে এজেন্ট প্রতিটি বোতাম এবং ফর্ম কাজ করে তা নিশ্চিত করতে একটি ওয়েব অ্যাপের সাইনআপ প্রবাহের মাধ্যমে ক্লিক করে।

প্রতিটি ফিল্ড লেবেল পড়ে এবং সঠিক তথ্য টাইপ করে পুনরাবৃত্তিমূলক সরকার বা বীমা ওয়েব ফর্ম পূরণ করা।

বাস্তবায়ন নিদর্শন

অনুশীলনে কম্পিউটার-ব্যবহারকারী এজেন্ট

একটি এজেন্ট যে একটি ব্রাউজার খুলে, রিজার্ভেশন সাইট নেভিগেট করে, একটি সময় বেছে নিয়ে এবং যোগাযোগের বিশদ প্রবেশ করার মাধ্যমে একটি রেস্টুরেন্ট বুক করে।

একটি এজেন্ট যে একটি ব্রাউজার খুলে, রিজার্ভেশন সাইট নেভিগেট করে, একটি সময় বাছাই করে এবং যোগাযোগের বিশদ প্রবেশ করার মাধ্যমে একটি রেস্তোরাঁ বুক করে, দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অনুশীলনে কম্পিউটার-ব্যবহারকারী এজেন্ট

স্ক্রিনে রসিদ পড়ে এবং কোনো API নেই এমন একটি ডেস্কটপ অ্যাকাউন্টিং অ্যাপে মান টাইপ করে খরচের প্রতিবেদন স্বয়ংক্রিয় করা।

স্ক্রীনে রসিদ পড়ে স্বয়ংক্রিয়ভাবে ব্যয়ের প্রতিবেদন তৈরি করা এবং একটি ডেস্কটপ অ্যাকাউন্টিং অ্যাপে মান টাইপ করে যার কোনো API নেই টিম সাধারণত ভালো ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে।

অনুশীলনে কম্পিউটার-ব্যবহারকারী এজেন্ট

QA পরীক্ষা যেখানে এজেন্ট প্রতিটি বোতাম এবং ফর্ম কাজ করে তা নিশ্চিত করতে একটি ওয়েব অ্যাপের সাইনআপ প্রবাহের মাধ্যমে ক্লিক করে।

QA পরীক্ষা যেখানে এজেন্ট প্রতিটি বোতাম এবং ফর্ম কাজ নিশ্চিত করতে একটি ওয়েব অ্যাপের সাইনআপ প্রবাহের মাধ্যমে ক্লিক করে দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

অনুশীলনে কম্পিউটার-ব্যবহারকারী এজেন্ট

প্রতিটি ফিল্ড লেবেল পড়ে এবং সঠিক তথ্য টাইপ করে পুনরাবৃত্তিমূলক সরকার বা বীমা ওয়েব ফর্ম পূরণ করা।

প্রতিটি ফিল্ড লেবেল পড়ে এবং সঠিক তথ্য টাইপ করে পুনরাবৃত্ত সরকারী বা বীমা ওয়েব ফর্মগুলি পূরণ করা দলগুলি সাধারণত ভাল ফলাফল পায় যখন তারা সামনের মানের থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে, প্রান্তের ক্ষেত্রে একটি মানবিক বৃদ্ধির পথ রাখে এবং সময়ের সাথে সাথে উত্পাদনশীলতা লাভ এবং ত্রুটির খরচ উভয়ই ট্র্যাক করে৷

ঝুঁকি এবং প্রহরী

!

একটি ভাঙা প্রক্রিয়া স্বয়ংক্রিয়ভাবে বিদ্যমান সমস্যাগুলিকে প্রসারিত করতে পারে।

!

দলগুলি অতিরিক্ত-স্বয়ংক্রিয় হতে পারে এবং প্রয়োজনীয় মানবিক বিচার অপসারণ করতে পারে।

!

আউটপুট ক্রমাগত মূল্যায়ন না করা হলে গুণমান প্রবাহিত হতে পারে।

বাস্তবায়ন রোডম্যাপ

1

বর্তমান ওয়ার্কফ্লো ম্যাপ করুন এবং সর্বোচ্চ-ঘর্ষণ ধাপ সনাক্ত করুন।

বর্তমান ওয়ার্কফ্লো ম্যাপ করুন এবং সর্বোচ্চ-ঘর্ষণ ধাপ সনাক্ত করুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

2

সম্পূর্ণ অটোমেশনের আগে মানব চেকপয়েন্টগুলি সংজ্ঞায়িত করুন।

সম্পূর্ণ অটোমেশনের আগে মানব চেকপয়েন্টগুলি সংজ্ঞায়িত করুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

3

ব্যবহারকারীদের প্রম্পট, বৃদ্ধির পথ এবং মানের মান সম্পর্কে প্রশিক্ষণ দিন।

ব্যবহারকারীদের প্রম্পট, বৃদ্ধির পথ এবং মানের মান সম্পর্কে প্রশিক্ষণ দিন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

4

টেকসই মান নিশ্চিত করতে টাস্ক-লেভেল ফলাফল ট্র্যাক করুন।

টেকসই মান নিশ্চিত করতে টাস্ক-লেভেল ফলাফল ট্র্যাক করুন। প্রতিটি পদক্ষেপকে একটি প্রমাণ গেট হিসাবে বিবেচনা করুন: যদি মানদণ্ড পূরণ না হয়, রোলআউট থামান, ব্যবধান বন্ধ করুন এবং শুধুমাত্র তারপর ব্যবহার প্রসারিত করুন।

অন্বেষণ চালিয়ে যান