समाज गाइड

डेटा विषाक्तता और पिछले दरवाजे से हमले

डेटा पॉइज़निंग एक मॉडल को उसके प्रशिक्षण डेटा के साथ छेड़छाड़ करके भ्रष्ट कर देता है, और पिछले दरवाजे के हमलों में एक गुप्त ट्रिगर छिपा होता है जो मॉडल को कमांड पर गलत व्यवहार करने पर मजबूर करता है।

सिंहावलोकन

डेटा पॉइज़निंग एक मॉडल को उसके प्रशिक्षण डेटा के साथ छेड़छाड़ करके भ्रष्ट कर देता है, और पिछले दरवाजे के हमलों में एक गुप्त ट्रिगर छिपा होता है जो मॉडल को कमांड पर गलत व्यवहार करने पर मजबूर करता है। वे मायने रखते हैं क्योंकि मॉडल तेजी से स्क्रैप किए गए, क्राउडसोर्स किए गए डेटा से सीखते हैं जिसे हमलावर चुपचाप दूषित कर सकते हैं।

डेटा पॉइज़निंग और पिछले दरवाजे से हमले एआई की सामाजिक और शासन परत से संबंधित हैं, जहां नीति, जवाबदेही और सार्वजनिक विश्वास दीर्घकालिक प्रभाव को आकार देते हैं।

गहरा गोता

ज़हर देने वाले हमले दो व्यापक लक्ष्यों में विभाजित हो गए। उपलब्धता हमलों का उद्देश्य गलत लेबल वाले या दूषित उदाहरण पेश करके समग्र सटीकता को कम करना है। लक्षित और पिछले दरवाजे के हमले अधिक डरपोक होते हैं: मॉडल सामान्य इनपुट पर पूरी तरह से प्रदर्शन करता है, लेकिन जब भी कोई छिपा हुआ ट्रिगर दिखाई देता है, जैसे कि एक छोटा पिक्सेल पैच, एक विशिष्ट वाक्यांश, या एक अदृश्य वॉटरमार्क, एक हमलावर द्वारा चुने गए आउटपुट का उत्पादन करता है। बैडनेट्स कार्य ने एक स्टॉप-साइन क्लासिफायरियर दिखाया जो स्टिकर-चिह्नित चिह्न को 'गति सीमा' के रूप में पढ़ता है। आधुनिक सिस्टम उजागर हो गए हैं क्योंकि वे वेब-स्केल डेटा पर प्रशिक्षित होते हैं। शोधकर्ताओं ने प्रदर्शित किया कि डेटासेट यूआरएल के एक छोटे से हिस्से के पीछे समाप्त डोमेन खरीदने से कुछ सौ डॉलर के लिए लोकप्रिय छवि डेटासेट को जहर मिल सकता है। भाषा मॉडल को जहरीले फाइन-ट्यूनिंग डेटा या निर्देश उदाहरणों के माध्यम से भी पिछले दरवाजे से तैयार किया जा सकता है।

तकनीकी अंतर्दृष्टि

एक क्लीन-लेबल बैकडोर विशेष रूप से खतरनाक है: जहर वाले नमूने सही लेबल रखते हैं और मानव समीक्षकों के लिए सामान्य दिखते हैं, फिर भी वे एक ट्रिगर सुविधा को एम्बेड करते हैं जिससे मॉडल लक्ष्य वर्ग के साथ जुड़ना सीखता है। अनुमान के समय, ट्रिगर प्रस्तुत करने से भविष्यवाणी पलट जाती है जबकि स्वच्छ सटीकता उच्च रहती है, इसलिए मानक सत्यापन इसे कभी नहीं पकड़ पाता है। बचाव में सक्रियण क्लस्टरिंग, वर्णक्रमीय हस्ताक्षर, ट्रिगर पुनर्निर्माण और डेटा उद्गम जांच शामिल हैं।

डेटा विषाक्तता और पिछले दरवाजे के हमलों में महारत हासिल करना

डेटा पॉइज़निंग एक मॉडल को उसके प्रशिक्षण डेटा के साथ छेड़छाड़ करके भ्रष्ट कर देता है, और पिछले दरवाजे के हमलों में एक गुप्त ट्रिगर छिपा होता है जो मॉडल को कमांड पर गलत व्यवहार करने पर मजबूर करता है। वे मायने रखते हैं क्योंकि मॉडल तेजी से स्क्रैप किए गए, क्राउडसोर्स किए गए डेटा से सीखते हैं जिसे हमलावर चुपचाप दूषित कर सकते हैं। डेटा पॉइज़निंग और पिछले दरवाजे से हमले एआई की सामाजिक और शासन परत से संबंधित हैं, जहां नीति, जवाबदेही और सार्वजनिक विश्वास दीर्घकालिक प्रभाव को आकार देते हैं। गहरी समझ बनाने के लिए, डेटा पॉइज़निंग और पिछले दरवाजे के हमलों को एक ऑपरेटिंग मॉडल के रूप में मानें, न कि एक विशेषता के रूप में: वांछित परिणामों को परिभाषित करें, मान्यताओं को स्पष्ट करें, और जो सिस्टम विश्वसनीय रूप से कर सकता है उसे अलग करें जिसके लिए अभी भी विशेषज्ञ निर्णय की आवश्यकता है।

व्यवहार में, डेटा पॉइज़निंग और पिछले दरवाजे के हमलों का उपयोग करने वाली मजबूत टीमें क्षमता वृद्धि को शासन, सुरक्षा और स्पष्ट जवाबदेही संरचनाओं के साथ जोड़ती हैं। वे स्पष्ट सफलता मानदंडों का दस्तावेजीकरण करते हैं, यथार्थवादी डेटा और वर्कफ़्लो के विरुद्ध परीक्षण करते हैं, और एक बार की बेंचमार्क जीत के बजाय देखे गए विफलता पैटर्न के आधार पर पुनरावृत्ति करते हैं। यहीं पर सैद्धांतिक समझ उत्पाद, नीति और संचालन में टिकाऊ क्षमता में बदल जाती है।

सामाजिक निर्णय यह निर्धारित करते हैं कि किसे लाभ होगा और किसे जोखिम उठाना होगा। साथ ही, व्यापक दावे साक्ष्य और जिम्मेदार निरीक्षण की तुलना में तेजी से प्रसारित हो सकते हैं। सबसे लचीला दृष्टिकोण प्रयोग की गति को शासन अनुशासन के साथ जोड़ना है: पायलट चलाना, साक्ष्य प्राप्त करना, निर्णय लॉग प्रकाशित करना, और मॉडल व्यवहार, उपयोगकर्ता अपेक्षाओं और नियामक आवश्यकताओं के विकसित होने पर सुरक्षा उपायों को लगातार अपडेट करना।

सामरिक प्रभाव

सामाजिक निर्णय यह निर्धारित करते हैं कि किसे लाभ होगा और किसे जोखिम उठाना होगा।

सामाजिक निर्णय यह निर्धारित करते हैं कि किसे लाभ होगा और किसे जोखिम उठाना होगा। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

सार्वजनिक संस्थान, स्कूल और व्यवसाय सभी स्पष्ट एआई शासन पर भरोसा करते हैं।

सार्वजनिक संस्थान, स्कूल और व्यवसाय सभी स्पष्ट एआई शासन पर भरोसा करते हैं। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

अच्छी नीति डिज़ाइन उपयोगी नवाचार को अवरुद्ध किए बिना सुरक्षा में सुधार कर सकती है।

अच्छी नीति डिज़ाइन उपयोगी नवाचार को अवरुद्ध किए बिना सुरक्षा में सुधार कर सकती है। उच्च-गुणवत्ता वाली तैनाती में, इसे मापने योग्य संचालन नियमों, स्वामित्व सीमाओं और आवर्ती समीक्षा अनुष्ठानों में अनुवादित किया जाता है ताकि टीमें अस्पष्टता को मापने के बजाय आत्मविश्वास को बढ़ा सकें।

डेटा विषाक्तता और पिछले दरवाजे से हमलों का भविष्य

चूंकि आपूर्ति श्रृंखलाएं स्क्रैप किए गए डेटा, पूर्व-प्रशिक्षित भार और तीसरे पक्ष की फाइन-ट्यूनिंग पर निर्भर करती हैं, इसलिए विषाक्तता सिद्धांत से वास्तविक आपूर्ति-श्रृंखला खतरे में बदल रही है। डेटासेट पर हस्ताक्षर और उद्गम मानकों, प्रमाणित-मजबूती प्रशिक्षण की अपेक्षा करें जो जहर वाले बिंदुओं की एक निश्चित संख्या से होने वाले नुकसान को सीमित करता है, और तैनाती से पहले मॉडलों की निरंतर बैकडोर स्कैनिंग। MITER ATLAS जैसे नियामक और सुरक्षा ढाँचे विषाक्तता को प्रथम श्रेणी के मशीन लर्निंग जोखिम के रूप में मानने लगे हैं।

वास्तविक विश्व कार्यान्वयन

सेल्फ-ड्राइविंग कारों के लिए एक विज़न मॉडल, एक छोटा स्टिकर ट्रिगर मौजूद होने पर स्टॉप साइन को गति-सीमा संकेत के रूप में गलत तरीके से पढ़ना

सार्वजनिक छवि डेटासेट में सस्ते में जहर घोलना, समाप्त हो चुके डोमेन को हाईजैक करना जो इसके छवि यूआरएल के एक अंश को होस्ट करते हैं

एक कोड-समापन मॉडल को पिछले दरवाजे से छिपाना ताकि एक छिपा हुआ प्रॉम्प्ट वाक्यांश इसे असुरक्षित कोड डाल सके

स्पैम फ़िल्टर के क्राउडसोर्स्ड प्रशिक्षण फ़ीडबैक को दूषित करना ताकि विशिष्ट दुर्भावनापूर्ण ईमेल निकल जाएँ

कार्यान्वयन पैटर्न

व्यवहार में डेटा विषाक्तता और पिछले दरवाजे से हमले

सेल्फ-ड्राइविंग कारों के लिए एक विज़न मॉडल, एक छोटा स्टिकर ट्रिगर मौजूद होने पर स्टॉप साइन को गति-सीमा संकेत के रूप में गलत तरीके से पढ़ता है।

सेल्फ-ड्राइविंग कारों के लिए एक विज़न मॉडल, जब एक छोटा स्टिकर ट्रिगर मौजूद होता है, तो स्टॉप साइन को गति-सीमा संकेत के रूप में गलत तरीके से पढ़ा जाता है। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

व्यवहार में डेटा विषाक्तता और पिछले दरवाजे से हमले

इसकी छवि यूआरएल के एक अंश को होस्ट करने वाले समाप्त हो चुके डोमेन को हाईजैक करके सार्वजनिक छवि डेटासेट को सस्ते में जहर देना।

समय सीमा समाप्त हो चुके डोमेन को हाईजैक करके एक सार्वजनिक छवि डेटासेट को सस्ते में जहर देना, जो इसके छवि यूआरएल के एक अंश को होस्ट करता है। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

व्यवहार में डेटा विषाक्तता और पिछले दरवाजे से हमले

एक कोड-समापन मॉडल को पिछले दरवाजे से छिपाना ताकि एक छिपा हुआ प्रॉम्प्ट वाक्यांश इसे असुरक्षित कोड डाल सके।

एक कोड-समापन मॉडल को बैकडोर करने से एक छिपा हुआ त्वरित वाक्यांश इसे असुरक्षित कोड डालने में मदद करता है। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

व्यवहार में डेटा विषाक्तता और पिछले दरवाजे से हमले

स्पैम फ़िल्टर के क्राउडसोर्स्ड प्रशिक्षण फ़ीडबैक को दूषित करना ताकि विशिष्ट दुर्भावनापूर्ण ईमेल निकल जाएँ।

स्पैम फ़िल्टर के क्राउडसोर्स्ड प्रशिक्षण फीडबैक को दूषित करना ताकि विशिष्ट दुर्भावनापूर्ण ईमेल निकल जाएं। टीमों को आमतौर पर बेहतर परिणाम मिलते हैं जब वे गुणवत्ता सीमा को सामने से परिभाषित करते हैं, किनारे के मामलों के लिए एक मानव वृद्धि पथ रखते हैं, और समय के साथ उत्पादकता लाभ और त्रुटि लागत दोनों को ट्रैक करते हैं।

जोखिम और रेलिंग

!

व्यापक दावे साक्ष्य और जिम्मेदार निरीक्षण की तुलना में तेजी से प्रसारित हो सकते हैं।

!

नुकसान होने पर कमजोर प्रशासन जवाबदेही में कमी छोड़ सकता है।

!

जब पहुंच, पारदर्शिता और जांच सीमित हो तो शक्ति केंद्रित हो सकती है।

कार्यान्वयन रोडमैप

1

प्रभावित हितधारकों और उन नुकसानों की पहचान करें जो सबसे अधिक मायने रखते हैं।

प्रभावित हितधारकों और उन नुकसानों की पहचान करें जो सबसे अधिक मायने रखते हैं। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

2

डेटा, मॉडल और निर्णयों के लिए पारदर्शिता आवश्यकताएँ निर्धारित करें।

डेटा, मॉडल और निर्णयों के लिए पारदर्शिता आवश्यकताएँ निर्धारित करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

3

उच्च जोखिम वाली प्रणालियों के लिए स्वतंत्र समीक्षा या रेड-टीम परीक्षण जोड़ें।

उच्च जोखिम वाली प्रणालियों के लिए स्वतंत्र समीक्षा या रेड-टीम परीक्षण जोड़ें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

4

क्षमताएं और उपयोग पैटर्न विकसित होने पर नीति और नियंत्रण अपडेट करें।

क्षमताएं और उपयोग पैटर्न विकसित होने पर नीति और नियंत्रण अपडेट करें। प्रत्येक चरण को एक साक्ष्य द्वार के रूप में मानें: यदि मानदंड पूरे नहीं होते हैं, तो रोलआउट रोकें, अंतर को बंद करें, और उसके बाद ही उपयोग का विस्तार करें।

अन्वेषण करते रहें