भाषा एआई गाइड

समीपस्थ नीति अनुकूलन

समीपस्थ नीति अनुकूलन (पीपीओ) सुदृढीकरण सीखने का एल्गोरिदम है जो मानव प्रतिक्रिया से भाषा मॉडल को ठीक करने से जुड़ा हुआ है।

सिंहावलोकन

समीपस्थ नीति अनुकूलन (पीपीओ) सुदृढीकरण सीखने का एल्गोरिदम है जो मानव प्रतिक्रिया से भाषा मॉडल को ठीक करने से जुड़ा हुआ है। यह उस अस्थिरता से बचने के लिए सावधानीपूर्वक, छोटे कदमों से एक नीति में सुधार करता है जो भोली-भाली नीति ढाल विधियों को प्रभावित करती है।

समीपस्थ नीति अनुकूलन भाषा-एआई स्टैक का हिस्सा है जिसका उपयोग बड़े पैमाने पर पाठ और भाषण को पढ़ने, उत्पन्न करने, वर्गीकृत करने और बदलने के लिए किया जाता है।

गहरा गोता

PPO को 2017 में OpenAI द्वारा पेश किया गया था और यह InstructGPT और ChatGPT जैसे सिस्टम के लिए RLHF के पीछे का सहयोगी बन गया। पॉलिसी-ग्रेडिएंट आरएल में मुख्य चुनौती यह है कि एक भी बहुत बड़ा अपडेट प्रदर्शन को ध्वस्त कर सकता है। पीपीओ इसे 'क्लिप्ड सरोगेट उद्देश्य' के साथ संबोधित करता है: यह मापता है कि पुरानी नीति की तुलना में किसी कार्रवाई की कितनी अधिक (या कम) संभावना है, उस अनुपात को लाभ से गुणा करता है (कार्रवाई अपेक्षा से कितनी बेहतर थी), और अनुपात को 0.8 से 1.2 जैसी छोटी सीमा में क्लिप करता है। यह निर्धारित करता है कि नीति प्रति अपडेट कितनी दूर तक जा सकती है, सीखने को स्थिर रखते हुए स्थिर सुधार की अनुमति दे सकती है। भाषा-मॉडल आरएलएचएफ में, 'कार्रवाई' एक टोकन या प्रतिक्रिया उत्पन्न कर रही है, इनाम एक इनाम मॉडल से आता है, और केएल-विचलन दंड मॉडल को उसके मूल व्यवहार से बहुत दूर जाने से रोकता है।

तकनीकी अंतर्दृष्टि

पीपीओ एक क्लिप किए गए उद्देश्य को अधिकतम करता है: न्यूनतम (अनुपात * लाभ, क्लिप (अनुपात, 1-ईपीएस, 1+ईपीएस) * लाभ), जहां अनुपात नई-पुरानी कार्रवाई संभावना है। लाभ का अनुमान आमतौर पर सामान्यीकृत लाभ अनुमान और एक सीखे हुए मूल्य (आलोचक) नेटवर्क के साथ लगाया जाता है। आरएलएचएफ में, कुल इनाम संदर्भ नीति के खिलाफ प्रति-टोकन केएल दंड के साथ इनाम-मॉडल स्कोर को जोड़ता है, मूल मॉडल के करीब रहने के खिलाफ इनाम लाभ को संतुलित करता है।

समीपस्थ नीति अनुकूलन में महारत हासिल करना

समीपस्थ नीति अनुकूलन (पीपीओ) सुदृढीकरण सीखने का एल्गोरिदम है जो मानव प्रतिक्रिया से भाषा मॉडल को ठीक करने से जुड़ा हुआ है। यह उस अस्थिरता से बचने के लिए सावधानीपूर्वक, छोटे कदमों से एक नीति में सुधार करता है जो भोली-भाली नीति ढाल विधियों को प्रभावित करती है। समीपस्थ नीति अनुकूलन भाषा-एआई स्टैक का हिस्सा है जिसका उपयोग बड़े पैमाने पर पाठ और भाषण को पढ़ने, उत्पन्न करने, वर्गीकृत करने और बदलने के लिए किया जाता है। गहरी समझ बनाने के लिए, समीपस्थ नीति अनुकूलन को एक ऑपरेटिंग मॉडल के रूप में मानें, न कि एक विशेषता के रूप में: वांछित परिणामों को परिभाषित करें, मान्यताओं को स्पष्ट करें, और जो सिस्टम विश्वसनीय रूप से कर सकता है उसे अलग करें जिसके लिए अभी भी विशेषज्ञ निर्णय की आवश्यकता है।

व्यवहार में, समीपस्थ नीति अनुकूलन का उपयोग करने वाली मजबूत टीमें एक एकीकृत संचार प्रणाली के रूप में संकेत, पुनर्प्राप्ति और समीक्षा लूप डिजाइन करती हैं। वे स्पष्ट सफलता मानदंडों का दस्तावेजीकरण करते हैं, यथार्थवादी डेटा और वर्कफ़्लो के विरुद्ध परीक्षण करते हैं, और एक बार की बेंचमार्क जीत के बजाय देखे गए विफलता पैटर्न के आधार पर पुनरावृत्ति करते हैं। यहीं पर सैद्धांतिक समझ उत्पाद, नीति और संचालन में टिकाऊ क्षमता में बदल जाती है।

भाषा वर्कफ़्लो निरंतरता से समझौता किए बिना तेज़ी से आगे बढ़ सकता है। साथ ही, मतिभ्रमित तथ्य चुपचाप रिपोर्ट में प्रवेश कर सकते हैं, प्रवाह का समर्थन कर सकते हैं, या अनुसंधान आउटपुट का समर्थन कर सकते हैं। सबसे लचीला दृष्टिकोण प्रयोग की गति को शासन अनुशासन के साथ जोड़ना है: पायलट चलाना, साक्ष्य प्राप्त करना, निर्णय लॉग प्रकाशित करना, और मॉडल व्यवहार, उपयोगकर्ता अपेक्षाओं और नियामक आवश्यकताओं के विकसित होने पर सुरक्षा उपायों को लगातार अपडेट करना।

सामरिक प्रभाव

भाषा वर्कफ़्लो निरंतरता से समझौता किए बिना तेज़ी से आगे बढ़ सकता है।

भाषा वर्कफ़्लो निरंतरता से समझौता किए बिना तेज़ी से आगे बढ़ सकता है। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

यह सभी भाषाओं और संचार शैलियों तक पहुंच का विस्तार करता है।

यह सभी भाषाओं और संचार शैलियों तक पहुंच का विस्तार करता है। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

टीमें निर्णय लेने में अधिक समय व्यतीत कर सकती हैं जबकि स्वचालन पुनरावृत्ति को संभालता है।

टीमें निर्णय लेने में अधिक समय व्यतीत कर सकती हैं जबकि स्वचालन पुनरावृत्ति को संभालता है। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

समीपस्थ नीति अनुकूलन का भविष्य

पीपीओ मजबूत बना हुआ है, लेकिन कुख्यात है: इसे एक अलग मूल्य नेटवर्क, सावधानीपूर्वक हाइपरपैरामीटर ट्यूनिंग और बहुत सारी गणना की आवश्यकता है। डीपीओ (बिल्कुल भी आरएल नहीं) और जीआरपीओ सहित सरल विकल्प जोर पकड़ रहे हैं, जो नमूना प्रतिक्रियाओं के समूहों से लाभ का अनुमान लगाकर मूल्य नेटवर्क को गिरा देता है और हाल के तर्क मॉडल को संचालित करता है। पीपीओ वहां बना रहेगा जहां ऑन-पॉलिसी अन्वेषण वास्तव में मदद करता है, लेकिन क्षेत्र सक्रिय रूप से सस्ते तरीकों के लिए अपनी कुछ जटिलताओं का व्यापार कर रहा है।

वास्तविक विश्व कार्यान्वयन

RLHF के माध्यम से निर्देशों और मानवीय प्राथमिकताओं का पालन करने के लिए InstructGPT और ChatGPT को फाइन-ट्यूनिंग करें

प्रशिक्षण गेम-प्लेइंग और रोबोटिक्स नियंत्रण एजेंट, भाषा मॉडल से पहले पीपीओ का मूल डोमेन

केएल बाधा के तहत इनाम-मॉडल स्कोर को अधिकतम करके विषाक्तता को कम करना या सहायकता में सुधार करना

टूल-उपयोग या मल्टी-स्टेप एजेंट व्यवहार को अनुकूलित करना जहां किसी मॉडल को कार्यों को सही ढंग से पूरा करने के लिए पुरस्कृत किया जाता है

कार्यान्वयन पैटर्न

व्यवहार में समीपस्थ नीति अनुकूलन

RLHF के माध्यम से निर्देशों और मानवीय प्राथमिकताओं का पालन करने के लिए InstructGPT और ChatGPT को फाइन-ट्यूनिंग करें।

आरएलएचएफ के माध्यम से निर्देशों और मानवीय प्राथमिकताओं का पालन करने के लिए इंस्ट्रक्शन जीपीटी और ChatGPT को फाइन-ट्यूनिंग करने वाली टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

व्यवहार में समीपस्थ नीति अनुकूलन

प्रशिक्षण गेम-प्लेइंग और रोबोटिक्स नियंत्रण एजेंट, भाषा मॉडल से पहले पीपीओ का मूल डोमेन।

प्रशिक्षण गेम-प्लेइंग और रोबोटिक्स नियंत्रण एजेंट, भाषा मॉडल से पहले पीपीओ का मूल डोमेन टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

व्यवहार में समीपस्थ नीति अनुकूलन

केएल बाधा के तहत इनाम-मॉडल स्कोर को अधिकतम करके विषाक्तता को कम करना या सहायकता में सुधार करना।

केएल बाधा के तहत इनाम-मॉडल स्कोर को अधिकतम करके विषाक्तता को कम करना या सहायकता में सुधार करना टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

व्यवहार में समीपस्थ नीति अनुकूलन

टूल-उपयोग या मल्टी-स्टेप एजेंट व्यवहार को अनुकूलित करना जहां किसी मॉडल को कार्यों को सही ढंग से पूरा करने के लिए पुरस्कृत किया जाता है।

टूल-उपयोग या मल्टी-स्टेप एजेंट व्यवहार को अनुकूलित करना जहां एक मॉडल को कार्यों को सही ढंग से पूरा करने के लिए पुरस्कृत किया जाता है, टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

जोखिम और रेलिंग

!

मतिभ्रम वाले तथ्य चुपचाप रिपोर्ट में प्रवेश कर सकते हैं, प्रवाह का समर्थन कर सकते हैं, या अनुसंधान आउटपुट का समर्थन कर सकते हैं।

!

त्वरित संवेदनशीलता समान अनुरोधों में असंगत परिणाम पैदा कर सकती है।

!

यदि पहुंच नियंत्रण कमजोर हैं तो संवेदनशील पाठ डेटा उजागर हो सकता है।

कार्यान्वयन रोडमैप

1

रोलआउट से पहले आउटपुट स्वरूप, टोन और गुणवत्ता मानकों को परिभाषित करें।

रोलआउट से पहले आउटपुट स्वरूप, टोन और गुणवत्ता मानकों को परिभाषित करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

2

जब भी सटीकता मायने रखती है तो विश्वसनीय स्रोतों के साथ जमीनी प्रतिक्रियाएँ।

जब भी सटीकता मायने रखती है तो विश्वसनीय स्रोतों के साथ जमीनी प्रतिक्रियाएँ। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

3

उच्च जोखिम वाले आउटपुट के लिए एक मानव समीक्षा चेकपॉइंट रखें।

उच्च जोखिम वाले आउटपुट के लिए एक मानव समीक्षा चेकपॉइंट रखें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

4

विफलता पैटर्न को ट्रैक करें और संकेतों या वर्कफ़्लो को नियमित रूप से पुनः प्रशिक्षित करें।

विफलता पैटर्न को ट्रैक करें और संकेतों या वर्कफ़्लो को नियमित रूप से पुनः प्रशिक्षित करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

अन्वेषण करते रहें