सिंहावलोकन
प्लान-एंड-सॉल्व (पीएस) प्रॉम्प्टिंग एक भाषा मॉडल को पहले एक स्पष्ट योजना तैयार करने के लिए कहता है और फिर इसे चरण दर चरण पूरा करता है, उन विफलताओं को ठीक करता है जो स्पष्ट रूप से 'आओ कदम दर कदम सोचें' प्रॉम्प्ट पीछे छोड़ देता है। यह एक सरल त्वरित बदलाव है जो बिना किसी अतिरिक्त प्रशिक्षण के बहु-चरणीय तर्क को सार्थक रूप से बढ़ावा देता है।
प्लान-एंड-सॉल्व प्रॉम्प्टिंग एक तकनीकी बिल्डिंग ब्लॉक है जो बड़े पैमाने पर मॉडल की गुणवत्ता, बुनियादी ढांचे की लागत, विलंबता और विश्वसनीयता को प्रभावित करता है।
गहरा गोता
लेई वांग और सहकर्मियों द्वारा 2023 एसीएल पेपर में पेश किया गया, प्लान-एंड-सॉल्व प्रॉम्प्टिंग शून्य-शॉट श्रृंखला-विचार में एक विशिष्ट कमजोरी की प्रतिक्रिया थी: मॉडल अक्सर कदम छोड़ देते हैं, गलत गणना करते हैं, या प्रश्न को गलत तरीके से पढ़ते हैं। पीएस ने एकल निर्देश 'आइए कदम दर कदम सोचें' को दो-भाग वाले निर्देश से बदल दिया है: 'आइए पहले समस्या को समझें और इसे हल करने के लिए एक योजना तैयार करें। तो फिर, आइए योजना को क्रियान्वित करें और चरण दर चरण समस्या का समाधान करें।' एक उन्नत संस्करण, PS+, प्रासंगिक चर निकालने, मध्यवर्ती परिणामों की गणना करने और संख्याओं पर ध्यान देने के लिए अनुस्मारक जोड़ता है। GSM8K और SVAMP जैसे बेंचमार्क पर, PS+ ने कुछ-शॉट चेन-ऑफ-थॉट के साथ अधिकांश अंतर को बंद कर दिया, जबकि प्रॉम्प्ट में किसी काम के उदाहरण की आवश्यकता नहीं थी।
तकनीकी अंतर्दृष्टि
तंत्र पूरी तरह से संकेत में है: निष्पादन से पहले एक योजना के बारे में पूछकर, पीएस मॉडल की ऑटोरेग्रेसिव पीढ़ी को बदल देता है ताकि यह पहले उच्च-स्तरीय उप-लक्ष्यों का उत्पादन कर सके, जो उसके बाद आने वाले विस्तृत तर्क टोकन को कंडीशन करता है। यह पृथक्करण 'मिसिंग-स्टेप' और गणना त्रुटियों को कम करता है। पीएस+ स्पष्ट रूप से चर और मध्यवर्ती मात्राओं का नामकरण करके ध्यान आकर्षित करता है, हाथ से लिखे गए उदाहरणों पर भरोसा करने के बजाय स्व-निर्मित मचान के रूप में कार्य करता है।
योजना-और-समाधान संकेत में महारत हासिल करना
प्लान-एंड-सॉल्व (पीएस) प्रॉम्प्टिंग एक भाषा मॉडल को पहले एक स्पष्ट योजना तैयार करने के लिए कहता है और फिर इसे चरण दर चरण पूरा करता है, उन विफलताओं को ठीक करता है जो स्पष्ट रूप से 'आओ कदम दर कदम सोचें' प्रॉम्प्ट पीछे छोड़ देता है। यह एक सरल त्वरित बदलाव है जो बिना किसी अतिरिक्त प्रशिक्षण के बहु-चरणीय तर्क को सार्थक रूप से बढ़ावा देता है। प्लान-एंड-सॉल्व प्रॉम्प्टिंग एक तकनीकी बिल्डिंग ब्लॉक है जो बड़े पैमाने पर मॉडल की गुणवत्ता, बुनियादी ढांचे की लागत, विलंबता और विश्वसनीयता को प्रभावित करता है। गहरी समझ विकसित करने के लिए, प्लान-एंड-सॉल्व प्रॉम्प्टिंग को एक ऑपरेटिंग मॉडल के रूप में मानें, न कि एक विशेषता के रूप में: वांछित परिणामों को परिभाषित करें, मान्यताओं को स्पष्ट करें, और जो सिस्टम विश्वसनीय रूप से कर सकता है उसे अलग करें जिसके लिए अभी भी विशेषज्ञ निर्णय की आवश्यकता है।
व्यवहार में, प्लान-एंड-सॉल्व प्रॉम्प्टिंग का उपयोग करने वाली मजबूत टीमें विश्वसनीयता और लागत के मुकाबले आर्किटेक्चर, डेटा और बुनियादी ढांचे के विकल्पों को अनुकूलित करती हैं। वे स्पष्ट सफलता मानदंडों का दस्तावेजीकरण करते हैं, यथार्थवादी डेटा और वर्कफ़्लो के विरुद्ध परीक्षण करते हैं, और एक बार की बेंचमार्क जीत के बजाय देखे गए विफलता पैटर्न के आधार पर पुनरावृत्ति करते हैं। यहीं पर सैद्धांतिक समझ उत्पाद, नीति और संचालन में टिकाऊ क्षमता में बदल जाती है।
वास्तुकला संबंधी निर्णय वर्षों तक प्रदर्शन और परिचालन लागत को संचालित करते हैं। साथ ही, एक बेंचमार्क को अनुकूलित करने से व्यापक सिस्टम कमजोरियों को छुपाया जा सकता है। सबसे लचीला दृष्टिकोण प्रयोग की गति को शासन अनुशासन के साथ जोड़ना है: पायलट चलाना, साक्ष्य प्राप्त करना, निर्णय लॉग प्रकाशित करना, और मॉडल व्यवहार, उपयोगकर्ता अपेक्षाओं और नियामक आवश्यकताओं के विकसित होने पर सुरक्षा उपायों को लगातार अपडेट करना।
सामरिक प्रभाव
वास्तुकला संबंधी निर्णय वर्षों तक प्रदर्शन और परिचालन लागत को संचालित करते हैं।
वास्तुकला संबंधी निर्णय वर्षों तक प्रदर्शन और परिचालन लागत को संचालित करते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।
तकनीकी शिक्षा टीमों को सही स्टैक चुनने में मदद करती है, न कि केवल नवीनतम स्टैक चुनने में।
तकनीकी शिक्षा टीमों को सही स्टैक चुनने में मदद करती है, न कि केवल नवीनतम स्टैक चुनने में। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।
बेहतर इंजीनियरिंग विकल्प उत्पादन में विश्वसनीयता की घटनाओं को कम करते हैं।
बेहतर इंजीनियरिंग विकल्प उत्पादन में विश्वसनीयता की घटनाओं को कम करते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।
वास्तविक विश्व कार्यान्वयन
मल्टी-स्टेप ग्रेड-स्कूल गणित शब्द समस्याओं (GSM8K) को हल करना जहां मॉडल पहले मात्राओं को सूचीबद्ध करता है, फिर उन्हें क्रम में गणना करता है।
किसी भी कार्यान्वयन कोड को लिखने से पहले कार्यों और किनारे के मामलों की रूपरेखा तैयार करने के लिए एक कोडिंग सहायक का मार्गदर्शन करना।
पहले उपयोगकर्ता के अंतर्निहित लक्ष्य की पहचान करने के लिए ग्राहक-सहायता एजेंट की संरचना करना, फिर समाधान चरणों को अनुक्रमित करना।
एक जटिल डेटा-विश्लेषण अनुरोध को 'प्रश्नों की योजना बनाएं' और उसके बाद 'परिणाम चलाएं और संयोजित करें' चरणों में तोड़ना।
कार्यान्वयन पैटर्न
व्यवहार में योजना-और-समाधान संकेत
मल्टी-स्टेप ग्रेड-स्कूल गणित शब्द समस्याओं (GSM8K) को हल करना जहां मॉडल पहले मात्राओं को सूचीबद्ध करता है, फिर उन्हें क्रम में गणना करता है।
मल्टी-स्टेप ग्रेड-स्कूल गणित शब्द समस्याओं (जीएसएम8के) को हल करना, जहां मॉडल पहले मात्राओं को सूचीबद्ध करता है, फिर क्रम में उनकी गणना करता है। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
व्यवहार में योजना-और-समाधान संकेत
किसी भी कार्यान्वयन कोड को लिखने से पहले कार्यों और किनारे के मामलों की रूपरेखा तैयार करने के लिए एक कोडिंग सहायक का मार्गदर्शन करना।
किसी भी कार्यान्वयन कोड को लिखने से पहले कार्यों और किनारे के मामलों की रूपरेखा तैयार करने के लिए एक कोडिंग सहायक का मार्गदर्शन करना टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
व्यवहार में योजना-और-समाधान संकेत
पहले उपयोगकर्ता के अंतर्निहित लक्ष्य की पहचान करने के लिए ग्राहक-सहायता एजेंट की संरचना करना, फिर समाधान चरणों को अनुक्रमित करना।
पहले उपयोगकर्ता के अंतर्निहित लक्ष्य की पहचान करने के लिए एक ग्राहक-सहायता एजेंट की संरचना करना, फिर समाधान चरणों को अनुक्रमित करना टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
व्यवहार में योजना-और-समाधान संकेत
एक जटिल डेटा-विश्लेषण अनुरोध को 'प्रश्नों की योजना बनाएं' और उसके बाद 'परिणाम चलाएं और संयोजित करें' चरणों में तोड़ना।
एक जटिल डेटा-विश्लेषण अनुरोध को 'प्रश्नों की योजना बनाएं' और उसके बाद 'परिणामों को चलाएं और संयोजित करें' चरणों में तोड़ना टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।
जोखिम और रेलिंग
एक बेंचमार्क को अनुकूलित करने से व्यापक सिस्टम कमजोरियों को छुपाया जा सकता है।
बुनियादी ढांचे और रखरखाव की लागत को अक्सर कम करके आंका जाता है।
जैसे-जैसे सिस्टम अधिक जटिल होते जाएंगे सुरक्षा और अवलोकन संबंधी अंतराल बढ़ सकते हैं।
कार्यान्वयन रोडमैप
कार्यान्वयन से पहले विलंबता, गुणवत्ता और लागत लक्ष्य परिभाषित करें।
कार्यान्वयन से पहले विलंबता, गुणवत्ता और लागत लक्ष्य परिभाषित करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।
यथार्थवादी लोड और डेटा स्थितियों के तहत बेंचमार्क।
यथार्थवादी लोड और डेटा स्थितियों के तहत बेंचमार्क। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।
त्रुटियों, बहाव और उपयोगकर्ता प्रभाव के लिए उपकरण निगरानी।
त्रुटियों, बहाव और उपयोगकर्ता प्रभाव के लिए उपकरण निगरानी। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।
स्केलिंग से पहले रोलबैक और घटना प्रतिक्रिया पथ तैयार करें।
स्केलिंग से पहले रोलबैक और घटना प्रतिक्रिया पथ तैयार करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।