सिंहावलोकन
कंप्यूटर का उपयोग करने वाले एजेंट कंप्यूटर को उसी तरह संचालित करते हैं जैसे कोई व्यक्ति करता है: स्क्रीन देखना, कर्सर घुमाना, क्लिक करना और टाइप करना। यह AI को ग्राफ़िकल इंटरफ़ेस वाले किसी भी सॉफ़्टवेयर का उपयोग करने देता है, यहां तक कि बिना API वाले ऐप्स भी।
कंप्यूटर-उपयोग करने वाले एजेंट व्यावहारिक परिनियोजन पर ध्यान केंद्रित करते हैं: मॉडल क्षमता को विश्वसनीय दैनिक वर्कफ़्लो में बदलना जो मापने योग्य मूल्य प्रदान करता है।
गहरा गोता
एक कंप्यूटर-उपयोगकर्ता एजेंट (सीयूए) कोड-स्तरीय एपीआई के बजाय अपनी स्क्रीन और इनपुट डिवाइस के माध्यम से एक वास्तविक या आभासी डेस्कटॉप को नियंत्रित करता है। मॉडल डिस्प्ले के स्क्रीनशॉट प्राप्त करता है, वह जो देखता है उसके बारे में कारण बताता है, और 'समन्वय पर क्लिक करें (412, 230)', 'इस टेक्स्ट को टाइप करें', या 'नीचे स्क्रॉल करें' जैसी निम्न-स्तरीय क्रियाओं को आउटपुट करता है। यह धारणा-क्रिया लूप दोहराता है: कार्य करें, एक ताज़ा स्क्रीनशॉट कैप्चर करें, अगला कदम तय करें। क्योंकि यह पिक्सेल-और-कीस्ट्रोक स्तर पर काम करता है, एक सीयूए वेब ब्राउज़र चला सकता है, फॉर्म भर सकता है, मेनू नेविगेट कर सकता है, और विरासत अनुप्रयोगों का उपयोग कर सकता है जो कोई प्रोग्रामेटिक इंटरफ़ेस नहीं दिखाते हैं। उदाहरणों में Anthropic का Claude कंप्यूटर उपयोग और OpenAI का ऑपरेटर शामिल हैं। ट्रेड-ऑफ वास्तविक हैं: स्क्रीन रीडिंग धीमी हो सकती है, क्लिक मिस हो सकते हैं, और किसी एजेंट को मशीन का नियंत्रण देने से सुरक्षा संबंधी चिंताएं बढ़ जाती हैं, इसलिए अधिकांश सैंडबॉक्स या पर्यवेक्षित वातावरण में चलते हैं।
तकनीकी अंतर्दृष्टि
एजेंट को एक स्क्रीनशॉट और कार्य दिया जाता है, और एक दृष्टि-सक्षम मॉडल तत्वों (बटन, फ़ील्ड) को पिक्सेल निर्देशांक पर आधारित करता है। यह एक संरचित क्रिया उत्सर्जित करता है जिसे एक स्वचालन परत ओएस या ब्राउज़र के विरुद्ध निष्पादित करती है। प्रत्येक कार्रवाई के बाद एक नया स्क्रीनशॉट लूप को बंद कर देता है, ताकि एजेंट दोबारा कार्रवाई करने से पहले परिणाम को समझ सके। विश्वसनीयता काफी हद तक सटीक दृश्य ग्राउंडिंग और गलत तत्व पर क्लिक होने पर पुनः प्रयास या सत्यापन तर्क पर निर्भर करती है।
कंप्यूटर का उपयोग करने वाले एजेंटों में महारत हासिल करना
कंप्यूटर का उपयोग करने वाले एजेंट कंप्यूटर को उसी तरह संचालित करते हैं जैसे कोई व्यक्ति करता है: स्क्रीन देखना, कर्सर घुमाना, क्लिक करना और टाइप करना। यह AI को ग्राफ़िकल इंटरफ़ेस वाले किसी भी सॉफ़्टवेयर का उपयोग करने देता है, यहां तक कि बिना API वाले ऐप्स भी। कंप्यूटर-उपयोग करने वाले एजेंट व्यावहारिक परिनियोजन पर ध्यान केंद्रित करते हैं: मॉडल क्षमता को विश्वसनीय दैनिक वर्कफ़्लो में बदलना जो मापने योग्य मूल्य प्रदान करता है। गहरी समझ विकसित करने के लिए, कंप्यूटर का उपयोग करने वाले एजेंटों को एक ऑपरेटिंग मॉडल के रूप में मानें, न कि एक विशेषता के रूप में: वांछित परिणामों को परिभाषित करें, मान्यताओं को स्पष्ट करें, और जो सिस्टम विश्वसनीय रूप से कर सकता है उसे अलग करें जिसके लिए अभी भी विशेषज्ञ निर्णय की आवश्यकता है।
व्यवहार में, कंप्यूटर-उपयोग करने वाले एजेंटों का उपयोग करने वाली मजबूत टीमें वर्कफ़्लो परिणामों पर ध्यान केंद्रित करती हैं, न कि मॉडल डेमो पर, और मानव चौकियों को जल्दी परिभाषित करती हैं। वे स्पष्ट सफलता मानदंडों का दस्तावेजीकरण करते हैं, यथार्थवादी डेटा और वर्कफ़्लो के विरुद्ध परीक्षण करते हैं, और एक बार की बेंचमार्क जीत के बजाय देखे गए विफलता पैटर्न के आधार पर पुनरावृत्ति करते हैं। यहीं पर सैद्धांतिक समझ उत्पाद, नीति और संचालन में टिकाऊ क्षमता में बदल जाती है।
एप्लिकेशन-स्तरीय डिज़ाइन यह निर्धारित करता है कि AI वास्तविक परिणामों में सुधार करता है या नहीं। साथ ही, किसी टूटी हुई प्रक्रिया को स्वचालित करने से मौजूदा समस्याएं बढ़ सकती हैं। सबसे लचीला दृष्टिकोण प्रयोग की गति को शासन अनुशासन के साथ जोड़ना है: पायलट चलाना, साक्ष्य प्राप्त करना, निर्णय लॉग प्रकाशित करना, और मॉडल व्यवहार, उपयोगकर्ता अपेक्षाओं और नियामक आवश्यकताओं के विकसित होने पर सुरक्षा उपायों को लगातार अपडेट करना।
सामरिक प्रभाव
एप्लिकेशन-स्तरीय डिज़ाइन यह निर्धारित करता है कि AI वास्तविक परिणामों में सुधार करता है या नहीं।
एप्लिकेशन-स्तरीय डिज़ाइन यह निर्धारित करता है कि AI वास्तविक परिणामों में सुधार करता है या नहीं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।
अच्छा वर्कफ़्लो एकीकरण उत्पादकता लाभ पैदा करता है जिस पर उपयोगकर्ता भरोसा कर सकते हैं।
अच्छा वर्कफ़्लो एकीकरण उत्पादकता लाभ पैदा करता है जिस पर उपयोगकर्ता भरोसा कर सकते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।
अच्छी तरह से उपयोग के मामले परिवर्तन की थकान और कार्यान्वयन जोखिम को कम करते हैं।
अच्छी तरह से उपयोग के मामले परिवर्तन की थकान और कार्यान्वयन जोखिम को कम करते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।
वास्तविक विश्व कार्यान्वयन
एक एजेंट जो ब्राउज़र खोलकर, आरक्षण साइट पर जाकर, समय चुनकर और संपर्क विवरण दर्ज करके एक रेस्तरां बुक करता है।
स्क्रीन पर रसीदें पढ़कर और बिना एपीआई वाले डेस्कटॉप अकाउंटिंग ऐप में मान टाइप करके व्यय रिपोर्ट को स्वचालित करना।
क्यूए परीक्षण जहां एजेंट प्रत्येक बटन और फॉर्म के काम करने की पुष्टि करने के लिए वेब ऐप के साइनअप प्रवाह पर क्लिक करता है।
प्रत्येक फ़ील्ड लेबल को पढ़कर और सही जानकारी टाइप करके दोहराए जाने वाले सरकारी या बीमा वेब फॉर्म भरना।
कार्यान्वयन पैटर्न
व्यवहार में कंप्यूटर का उपयोग करने वाले एजेंट
एक एजेंट जो ब्राउज़र खोलकर, आरक्षण साइट पर जाकर, समय चुनकर और संपर्क विवरण दर्ज करके एक रेस्तरां बुक करता है।
एक एजेंट जो एक ब्राउज़र खोलकर, आरक्षण साइट पर नेविगेट करके, एक समय चुनकर और संपर्क विवरण दर्ज करके एक रेस्तरां बुक करता है। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
व्यवहार में कंप्यूटर का उपयोग करने वाले एजेंट
स्क्रीन पर रसीदें पढ़कर और बिना एपीआई वाले डेस्कटॉप अकाउंटिंग ऐप में मान टाइप करके व्यय रिपोर्ट को स्वचालित करना।
स्क्रीन पर रसीदें पढ़कर और बिना एपीआई वाले डेस्कटॉप अकाउंटिंग ऐप में मान टाइप करके व्यय रिपोर्ट को स्वचालित करना, टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
व्यवहार में कंप्यूटर का उपयोग करने वाले एजेंट
क्यूए परीक्षण जहां एजेंट प्रत्येक बटन और फॉर्म के काम करने की पुष्टि करने के लिए वेब ऐप के साइनअप प्रवाह पर क्लिक करता है।
क्यूए परीक्षण जहां एजेंट प्रत्येक बटन की पुष्टि करने और काम करने के लिए वेब ऐप के साइनअप प्रवाह के माध्यम से क्लिक करता है। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
व्यवहार में कंप्यूटर का उपयोग करने वाले एजेंट
प्रत्येक फ़ील्ड लेबल को पढ़कर और सही जानकारी टाइप करके दोहराए जाने वाले सरकारी या बीमा वेब फॉर्म भरना।
प्रत्येक फ़ील्ड लेबल को पढ़कर और सही जानकारी टाइप करके दोहराए जाने वाले सरकारी या बीमा वेब फॉर्म भरना टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
जोखिम और रेलिंग
किसी टूटी हुई प्रक्रिया को स्वचालित करने से मौजूदा समस्याएँ बढ़ सकती हैं।
टीमें अति-स्वचालित हो सकती हैं और आवश्यक मानवीय निर्णय को हटा सकती हैं।
यदि आउटपुट का लगातार मूल्यांकन नहीं किया गया तो गुणवत्ता में गिरावट आ सकती है।
कार्यान्वयन रोडमैप
वर्तमान वर्कफ़्लो को मैप करें और उच्चतम-घर्षण चरण की पहचान करें।
वर्तमान वर्कफ़्लो को मैप करें और उच्चतम-घर्षण चरण की पहचान करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।
पूर्ण स्वचालन से पहले मानव चौकियों को परिभाषित करें।
पूर्ण स्वचालन से पहले मानव चौकियों को परिभाषित करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।
उपयोगकर्ताओं को संकेतों, वृद्धि पथों और गुणवत्ता मानकों पर प्रशिक्षित करें।
उपयोगकर्ताओं को संकेतों, वृद्धि पथों और गुणवत्ता मानकों पर प्रशिक्षित करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।
निरंतर मूल्य की पुष्टि के लिए कार्य-स्तर के परिणामों को ट्रैक करें।
निरंतर मूल्य की पुष्टि के लिए कार्य-स्तर के परिणामों को ट्रैक करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।