रिफ्लेक्शन और सेल्फ-करेक्टिंग एजेंट्स गाइड

सिंहावलोकन

रिफ्लेक्सियन एक ऐसी तकनीक है जहां एक एआई एजेंट अपनी विफलताओं पर लिखित रूप से प्रतिबिंबित करता है और उन पाठों को अपने अगले प्रयास में वापस डालता है। यह मायने रखता है क्योंकि यह एजेंटों को अंतर्निहित मॉडल को फिर से प्रशिक्षित किए बिना किसी कार्य में सुधार करने देता है।

रिफ्लेक्सियन और सेल्फ-करेक्टिंग एजेंट व्यावहारिक तैनाती पर ध्यान केंद्रित करते हैं: मॉडल क्षमता को विश्वसनीय दैनिक वर्कफ़्लो में बदलना जो मापने योग्य मूल्य प्रदान करता है।

गहरा गोता

शिन और सहकर्मियों द्वारा 2023 के पेपर में पेश किया गया रिफ्लेक्सियन, एक एजेंट को एक लूप देता है: यह एक कार्य का प्रयास करता है, एक संकेत प्राप्त करता है कि यह कैसे हुआ (एक परीक्षा परिणाम, एक इनाम, या एक आलोचना), फिर एक संक्षिप्त प्राकृतिक-भाषा 'प्रतिबिंब' लिखता है जिसमें बताया गया है कि क्या गलत हुआ और आगे क्या प्रयास करना है। वह प्रतिबिंब स्मृति में संग्रहीत होता है और अगले प्रयास के संकेत से जुड़ा होता है। महत्वपूर्ण बात यह है कि मॉडल का वज़न कभी नहीं बदलता; सीखना पूरी तरह से पाठ के रूप में संदर्भ विंडो में होता है। यह 'मौखिक सुदृढीकरण सीखना' एजेंटों को कोडिंग समस्याओं, वेब नेविगेशन और तर्क कार्यों पर पुनरावृत्ति करने देता है। ह्यूमनइवल कोडिंग बेंचमार्क पर, रिफ्लेक्सियन-शैली स्व-सुधार ने एकल-शॉट प्रयासों की तुलना में पास दर को काफी अधिक बढ़ा दिया, बस एजेंट को कुछ प्रयासों में अपनी गलतियों को डीबग करने की अनुमति देकर।

तकनीकी अंतर्दृष्टि

रिफ्लेक्सियन तीन भूमिकाओं को अलग करता है: एक अभिनेता जो क्रियाएं उत्पन्न करता है, एक मूल्यांकनकर्ता जो परिणाम स्कोर करता है (यूनिट परीक्षण, एक सटीक-मिलान जांच, या एक एलएलएम जज), और एक सेल्फ-रिफ्लेक्शन मॉडल जो उस स्कोर को एक पाठ्य पाठ में बदल देता है। पाठ अगले परीक्षण में पुन: उपयोग किए जाने वाले एपिसोडिक मेमोरी बफ़र में आ जाता है। चूँकि फीडबैक ग्रेडिएंट के बजाय भाषा है, इसलिए किसी GPU प्रशिक्षण की आवश्यकता नहीं है, लेकिन यह आत्मविश्वासपूर्ण लेकिन गलत प्रतिबिंबों को मजबूत करने से बचने के लिए एक विश्वसनीय मूल्यांकन संकेत पर बहुत अधिक निर्भर करता है।

परावर्तन और स्व-सुधार करने वाले एजेंटों में महारत हासिल करना

गहरी समझ बनाने के लिए, रिफ्लेक्सियन और सेल्फ-करेक्टिंग एजेंटों को एक ऑपरेटिंग मॉडल के रूप में मानें, न कि एक फीचर के रूप में। वांछित परिणामों को परिभाषित करें, धारणाओं को स्पष्ट करें, और जो सिस्टम विश्वसनीय रूप से कर सकता है उसे अलग करें जिसके लिए अभी भी विशेषज्ञ निर्णय की आवश्यकता है।

व्यवहार में, रिफ्लेक्सियन और सेल्फ-करेक्टिंग एजेंटों का उपयोग करने वाली मजबूत टीमें वर्कफ़्लो परिणामों पर ध्यान केंद्रित करती हैं, न कि मॉडल डेमो पर, और मानव चौकियों को जल्दी परिभाषित करती हैं। वे स्पष्ट सफलता मानदंडों का दस्तावेजीकरण करते हैं, यथार्थवादी डेटा और वर्कफ़्लो के विरुद्ध परीक्षण करते हैं, और एक बार की बेंचमार्क जीत के बजाय देखे गए विफलता पैटर्न के आधार पर पुनरावृत्ति करते हैं। यहीं पर सैद्धांतिक समझ उत्पाद, नीति और संचालन में टिकाऊ क्षमता में बदल जाती है।

एप्लिकेशन-स्तरीय डिज़ाइन यह निर्धारित करता है कि AI वास्तविक परिणामों में सुधार करता है या नहीं। साथ ही, किसी टूटी हुई प्रक्रिया को स्वचालित करने से मौजूदा समस्याएं बढ़ सकती हैं। सबसे लचीला दृष्टिकोण प्रयोग की गति को शासन अनुशासन के साथ जोड़ना है: पायलट चलाना, साक्ष्य प्राप्त करना, निर्णय लॉग प्रकाशित करना, और मॉडल व्यवहार, उपयोगकर्ता अपेक्षाओं और नियामक आवश्यकताओं के विकसित होने पर सुरक्षा उपायों को लगातार अपडेट करना।

सामरिक प्रभाव

एप्लिकेशन-स्तरीय डिज़ाइन यह निर्धारित करता है कि AI वास्तविक परिणामों में सुधार करता है या नहीं।

एप्लिकेशन-स्तरीय डिज़ाइन यह निर्धारित करता है कि AI वास्तविक परिणामों में सुधार करता है या नहीं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

अच्छा वर्कफ़्लो एकीकरण उत्पादकता लाभ पैदा करता है जिस पर उपयोगकर्ता भरोसा कर सकते हैं।

अच्छा वर्कफ़्लो एकीकरण उत्पादकता लाभ पैदा करता है जिस पर उपयोगकर्ता भरोसा कर सकते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

अच्छी तरह से उपयोग के मामले परिवर्तन की थकान और कार्यान्वयन जोखिम को कम करते हैं।

अच्छी तरह से उपयोग के मामले परिवर्तन की थकान और कार्यान्वयन जोखिम को कम करते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

परावर्तन और स्व-सुधार करने वाले एजेंटों का भविष्य

स्व-सुधार एक शोध युक्ति के बजाय एजेंट ढांचे में एक डिफ़ॉल्ट परत बनता जा रहा है। स्वचालित सत्यापनकर्ताओं, जैसे कोड सैंडबॉक्स, औपचारिक चेकर्स और तथ्यों की पुष्टि करने वाली पुनर्प्राप्ति के साथ सख्त एकीकरण की अपेक्षा करें, इसलिए प्रतिबिंबों को मॉडल के दूसरे-अनुमान लगाने के बजाय उद्देश्य संकेतों पर आधारित किया जाता है। खुली चुनौतियाँ उन लूपों से बचने की हैं जहाँ एक एजेंट कार्यशील आउटपुट को अंतहीन रूप से 'ठीक' करता है, यह तय करता है कि कब पुनरावृत्ति बंद करनी है, और प्रतिबिंबों को प्रशंसनीय-लगने वाले लेकिन असत्यापित तर्कसंगतताओं में बहने से रोकना है।

वास्तविक विश्व कार्यान्वयन

एक कोडिंग एजेंट जो यूनिट परीक्षण चलाता है, असफल दावे को पढ़ता है, बग पर एक नोट लिखता है, और सुइट को फिर से चलाने से पहले उसके कोड को संपादित करता है।

एक शोध सहायक जो पुनर्प्राप्ति जांच विफल होने पर मतिभ्रम उद्धरण पकड़ता है, फिर केवल सत्यापित स्रोतों का उपयोग करने के लिए उत्तर को संशोधित करता है।

एक वेब-नेविगेशन एजेंट (उदाहरण के लिए, अल्फवर्ल्ड या वेबशॉप बेंचमार्क पर) जो 'मैंने गलत फ़िल्टर पर क्लिक किया' रिकॉर्ड करता है और पुनः प्रयास करने पर उस गलत कदम से बचता है।

एक गणित समस्या-समाधानकर्ता जो किसी बाधा के विरुद्ध अपने अंतिम उत्तर की जाँच करता है, एक संकेत त्रुटि को नोटिस करता है, और प्रासंगिक चरण पर फिर से काम करता है।

कार्यान्वयन पैटर्न

व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट

एक कोडिंग एजेंट जो यूनिट परीक्षण चलाता है, असफल दावे को पढ़ता है, बग पर एक नोट लिखता है, और सुइट को फिर से चलाने से पहले उसके कोड को संपादित करता है।

टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को पहले से परिभाषित करते हैं, किनारे के मामलों के लिए मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट

एक शोध सहायक जो पुनर्प्राप्ति जांच विफल होने पर मतिभ्रम उद्धरण पकड़ता है, फिर केवल सत्यापित स्रोतों का उपयोग करने के लिए उत्तर को संशोधित करता है।

टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को पहले से परिभाषित करते हैं, किनारे के मामलों के लिए मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट

एक वेब-नेविगेशन एजेंट (उदाहरण के लिए, अल्फवर्ल्ड या वेबशॉप बेंचमार्क पर) जो 'मैंने गलत फ़िल्टर पर क्लिक किया' रिकॉर्ड करता है और पुनः प्रयास करने पर उस गलत कदम से बचता है।

टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को पहले से परिभाषित करते हैं, किनारे के मामलों के लिए मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट

एक गणित समस्या-समाधानकर्ता जो किसी बाधा के विरुद्ध अपने अंतिम उत्तर की जाँच करता है, एक संकेत त्रुटि को नोटिस करता है, और प्रासंगिक चरण पर फिर से काम करता है।

टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को पहले से परिभाषित करते हैं, किनारे के मामलों के लिए मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

जोखिम और रेलिंग

!

किसी टूटी हुई प्रक्रिया को स्वचालित करने से मौजूदा समस्याएँ बढ़ सकती हैं।

!

टीमें अति-स्वचालित हो सकती हैं और आवश्यक मानवीय निर्णय को हटा सकती हैं।

!

यदि आउटपुट का लगातार मूल्यांकन नहीं किया गया तो गुणवत्ता में गिरावट आ सकती है।

कार्यान्वयन रोडमैप

1

वर्तमान वर्कफ़्लो को मैप करें और उच्चतम-घर्षण चरण की पहचान करें।

इसे एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

2

पूर्ण स्वचालन से पहले मानव चौकियों को परिभाषित करें।

इसे एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

3

उपयोगकर्ताओं को संकेतों, वृद्धि पथों और गुणवत्ता मानकों पर प्रशिक्षित करें।

इसे एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

4

निरंतर मूल्य की पुष्टि के लिए कार्य-स्तर के परिणामों को ट्रैक करें।

इसे एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

अन्वेषण करते रहें

एआई सहायक

सहायक वर्कफ़्लो डिज़ाइन करें जो उपयोगी और भरोसेमंद रहें।

गाइड पढ़ें

एआई कोडिंग

देखें कि कैसे लागू AI सॉफ्टवेयर डिलीवरी को बेहतर बनाता है।

गाइड पढ़ें

परावर्तन और स्व-सुधार करने वाले एजेंट

सिंहावलोकन

गहरा गोता

तकनीकी अंतर्दृष्टि

परावर्तन और स्व-सुधार करने वाले एजेंटों में महारत हासिल करना

सामरिक प्रभाव

परावर्तन और स्व-सुधार करने वाले एजेंटों का भविष्य

वास्तविक विश्व कार्यान्वयन

कार्यान्वयन पैटर्न

व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट

व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट

व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट

व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट

जोखिम और रेलिंग

कार्यान्वयन रोडमैप

अन्वेषण करते रहें

एआई सहायक

एआई कोडिंग

Related guides