सिंहावलोकन
रिफ्लेक्सियन एक ऐसी तकनीक है जहां एक एआई एजेंट अपनी विफलताओं पर लिखित रूप से प्रतिबिंबित करता है और उन पाठों को अपने अगले प्रयास में वापस डालता है। यह मायने रखता है क्योंकि यह एजेंटों को अंतर्निहित मॉडल को फिर से प्रशिक्षित किए बिना किसी कार्य में सुधार करने देता है।
रिफ्लेक्सियन और सेल्फ-करेक्टिंग एजेंट व्यावहारिक तैनाती पर ध्यान केंद्रित करते हैं: मॉडल क्षमता को विश्वसनीय दैनिक वर्कफ़्लो में बदलना जो मापने योग्य मूल्य प्रदान करता है।
गहरा गोता
शिन और सहकर्मियों द्वारा 2023 के पेपर में पेश किया गया रिफ्लेक्सियन, एक एजेंट को एक लूप देता है: यह एक कार्य का प्रयास करता है, एक संकेत प्राप्त करता है कि यह कैसे हुआ (एक परीक्षा परिणाम, एक इनाम, या एक आलोचना), फिर एक संक्षिप्त प्राकृतिक-भाषा 'प्रतिबिंब' लिखता है जिसमें बताया गया है कि क्या गलत हुआ और आगे क्या प्रयास करना है। वह प्रतिबिंब स्मृति में संग्रहीत होता है और अगले प्रयास के संकेत से जुड़ा होता है। महत्वपूर्ण बात यह है कि मॉडल का वज़न कभी नहीं बदलता; सीखना पूरी तरह से पाठ के रूप में संदर्भ विंडो में होता है। यह 'मौखिक सुदृढीकरण सीखना' एजेंटों को कोडिंग समस्याओं, वेब नेविगेशन और तर्क कार्यों पर पुनरावृत्ति करने देता है। ह्यूमनइवल कोडिंग बेंचमार्क पर, रिफ्लेक्सियन-शैली स्व-सुधार ने एकल-शॉट प्रयासों की तुलना में पास दर को काफी अधिक बढ़ा दिया, बस एजेंट को कुछ प्रयासों में अपनी गलतियों को डीबग करने की अनुमति देकर।
तकनीकी अंतर्दृष्टि
रिफ्लेक्सियन तीन भूमिकाओं को अलग करता है: एक अभिनेता जो क्रियाएं उत्पन्न करता है, एक मूल्यांकनकर्ता जो परिणाम स्कोर करता है (यूनिट परीक्षण, एक सटीक-मिलान जांच, या एक एलएलएम जज), और एक सेल्फ-रिफ्लेक्शन मॉडल जो उस स्कोर को एक पाठ्य पाठ में बदल देता है। पाठ अगले परीक्षण में पुन: उपयोग किए जाने वाले एपिसोडिक मेमोरी बफ़र में आ जाता है। चूँकि फीडबैक ग्रेडिएंट के बजाय भाषा है, इसलिए किसी GPU प्रशिक्षण की आवश्यकता नहीं है, लेकिन यह आत्मविश्वासपूर्ण लेकिन गलत प्रतिबिंबों को मजबूत करने से बचने के लिए एक विश्वसनीय मूल्यांकन संकेत पर बहुत अधिक निर्भर करता है।
परावर्तन और स्व-सुधार करने वाले एजेंटों में महारत हासिल करना
रिफ्लेक्सियन एक ऐसी तकनीक है जहां एक एआई एजेंट अपनी विफलताओं पर लिखित रूप से प्रतिबिंबित करता है और उन पाठों को अपने अगले प्रयास में वापस डालता है। यह मायने रखता है क्योंकि यह एजेंटों को अंतर्निहित मॉडल को फिर से प्रशिक्षित किए बिना किसी कार्य में सुधार करने देता है। रिफ्लेक्सियन और सेल्फ-करेक्टिंग एजेंट व्यावहारिक तैनाती पर ध्यान केंद्रित करते हैं: मॉडल क्षमता को विश्वसनीय दैनिक वर्कफ़्लो में बदलना जो मापने योग्य मूल्य प्रदान करता है। गहरी समझ बनाने के लिए, रिफ्लेक्सियन और सेल्फ-करेक्टिंग एजेंटों को एक ऑपरेटिंग मॉडल के रूप में मानें, न कि एक विशेषता के रूप में: वांछित परिणामों को परिभाषित करें, मान्यताओं को स्पष्ट करें, और जो सिस्टम अभी भी विशेषज्ञ निर्णय की आवश्यकता है उससे अलग कर सकता है।
व्यवहार में, रिफ्लेक्सियन और सेल्फ-करेक्टिंग एजेंटों का उपयोग करने वाली मजबूत टीमें वर्कफ़्लो परिणामों पर ध्यान केंद्रित करती हैं, न कि मॉडल डेमो पर, और मानव चौकियों को जल्दी परिभाषित करती हैं। वे स्पष्ट सफलता मानदंडों का दस्तावेजीकरण करते हैं, यथार्थवादी डेटा और वर्कफ़्लो के विरुद्ध परीक्षण करते हैं, और एक बार की बेंचमार्क जीत के बजाय देखे गए विफलता पैटर्न के आधार पर पुनरावृत्ति करते हैं। यहीं पर सैद्धांतिक समझ उत्पाद, नीति और संचालन में टिकाऊ क्षमता में बदल जाती है।
एप्लिकेशन-स्तरीय डिज़ाइन यह निर्धारित करता है कि AI वास्तविक परिणामों में सुधार करता है या नहीं। साथ ही, किसी टूटी हुई प्रक्रिया को स्वचालित करने से मौजूदा समस्याएं बढ़ सकती हैं। सबसे लचीला दृष्टिकोण प्रयोग की गति को शासन अनुशासन के साथ जोड़ना है: पायलट चलाना, साक्ष्य प्राप्त करना, निर्णय लॉग प्रकाशित करना, और मॉडल व्यवहार, उपयोगकर्ता अपेक्षाओं और नियामक आवश्यकताओं के विकसित होने पर सुरक्षा उपायों को लगातार अपडेट करना।
सामरिक प्रभाव
एप्लिकेशन-स्तरीय डिज़ाइन यह निर्धारित करता है कि AI वास्तविक परिणामों में सुधार करता है या नहीं।
एप्लिकेशन-स्तरीय डिज़ाइन यह निर्धारित करता है कि AI वास्तविक परिणामों में सुधार करता है या नहीं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।
अच्छा वर्कफ़्लो एकीकरण उत्पादकता लाभ पैदा करता है जिस पर उपयोगकर्ता भरोसा कर सकते हैं।
अच्छा वर्कफ़्लो एकीकरण उत्पादकता लाभ पैदा करता है जिस पर उपयोगकर्ता भरोसा कर सकते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।
अच्छी तरह से उपयोग के मामले परिवर्तन की थकान और कार्यान्वयन जोखिम को कम करते हैं।
अच्छी तरह से उपयोग के मामले परिवर्तन की थकान और कार्यान्वयन जोखिम को कम करते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।
वास्तविक विश्व कार्यान्वयन
एक कोडिंग एजेंट जो यूनिट परीक्षण चलाता है, असफल दावे को पढ़ता है, बग पर एक नोट लिखता है, और सुइट को फिर से चलाने से पहले उसके कोड को संपादित करता है।
एक शोध सहायक जो पुनर्प्राप्ति जांच विफल होने पर मतिभ्रम उद्धरण पकड़ता है, फिर केवल सत्यापित स्रोतों का उपयोग करने के लिए उत्तर को संशोधित करता है।
एक वेब-नेविगेशन एजेंट (उदाहरण के लिए, अल्फवर्ल्ड या वेबशॉप बेंचमार्क पर) जो 'मैंने गलत फ़िल्टर पर क्लिक किया' रिकॉर्ड करता है और पुनः प्रयास करने पर उस गलत कदम से बचता है।
एक गणित समस्या-समाधानकर्ता जो किसी बाधा के विरुद्ध अपने अंतिम उत्तर की जाँच करता है, एक संकेत त्रुटि को नोटिस करता है, और प्रासंगिक चरण पर फिर से काम करता है।
कार्यान्वयन पैटर्न
व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट
एक कोडिंग एजेंट जो यूनिट परीक्षण चलाता है, असफल दावे को पढ़ता है, बग पर एक नोट लिखता है, और सुइट को फिर से चलाने से पहले उसके कोड को संपादित करता है।
एक कोडिंग एजेंट जो यूनिट परीक्षण चलाता है, असफल दावे को पढ़ता है, बग पर एक नोट लिखता है, और सुइट को फिर से चलाने से पहले अपने कोड को संपादित करता है टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट
एक शोध सहायक जो पुनर्प्राप्ति जांच विफल होने पर मतिभ्रम उद्धरण पकड़ता है, फिर केवल सत्यापित स्रोतों का उपयोग करने के लिए उत्तर को संशोधित करता है।
एक अनुसंधान सहायक जो पुनर्प्राप्ति जांच विफल होने पर मतिभ्रम उद्धरण पकड़ता है, फिर केवल सत्यापित स्रोतों का उपयोग करने के लिए उत्तर को संशोधित करता है। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट
एक वेब-नेविगेशन एजेंट (उदाहरण के लिए, अल्फवर्ल्ड या वेबशॉप बेंचमार्क पर) जो 'मैंने गलत फ़िल्टर पर क्लिक किया' रिकॉर्ड करता है और पुनः प्रयास करने पर उस गलत कदम से बचता है।
एक वेब-नेविगेशन एजेंट (उदाहरण के लिए, अल्फवर्ल्ड या वेबशॉप बेंचमार्क पर) जो 'मैंने गलत फ़िल्टर पर क्लिक किया' को रिकॉर्ड करता है और पुनः प्रयास करने पर उस गलत कदम से बचता है। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
व्यवहार में परावर्तन और स्व-सुधार करने वाले एजेंट
एक गणित समस्या-समाधानकर्ता जो किसी बाधा के विरुद्ध अपने अंतिम उत्तर की जाँच करता है, एक संकेत त्रुटि को नोटिस करता है, और प्रासंगिक चरण पर फिर से काम करता है।
एक गणित समस्या-समाधानकर्ता जो किसी बाधा के विरुद्ध अपने अंतिम उत्तर की जांच करता है, एक संकेत त्रुटि को नोटिस करता है, और प्रासंगिक चरण को फिर से काम करता है टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
जोखिम और रेलिंग
किसी टूटी हुई प्रक्रिया को स्वचालित करने से मौजूदा समस्याएँ बढ़ सकती हैं।
टीमें अति-स्वचालित हो सकती हैं और आवश्यक मानवीय निर्णय को हटा सकती हैं।
यदि आउटपुट का लगातार मूल्यांकन नहीं किया गया तो गुणवत्ता में गिरावट आ सकती है।
कार्यान्वयन रोडमैप
वर्तमान वर्कफ़्लो को मैप करें और उच्चतम-घर्षण चरण की पहचान करें।
वर्तमान वर्कफ़्लो को मैप करें और उच्चतम-घर्षण चरण की पहचान करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।
पूर्ण स्वचालन से पहले मानव चौकियों को परिभाषित करें।
पूर्ण स्वचालन से पहले मानव चौकियों को परिभाषित करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।
उपयोगकर्ताओं को संकेतों, वृद्धि पथों और गुणवत्ता मानकों पर प्रशिक्षित करें।
उपयोगकर्ताओं को संकेतों, वृद्धि पथों और गुणवत्ता मानकों पर प्रशिक्षित करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।
निरंतर मूल्य की पुष्टि के लिए कार्य-स्तर के परिणामों को ट्रैक करें।
निरंतर मूल्य की पुष्टि के लिए कार्य-स्तर के परिणामों को ट्रैक करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।