Societate GHID

Atacurile de extracție și furt de modele

Atacurile de extragere a modelelor permit unui adversar să cloneze un model AI proprietar doar interogând API-ul său public și antrenând un imitator cu privire la răspunsuri.

Prezentare generală

Atacurile de extragere a modelelor permit unui adversar să cloneze un model AI proprietar doar interogând API-ul său public și antrenând un imitator cu privire la răspunsuri. Contează pentru că companiile cheltuiesc milioane de modele de formare care pot fi aproximative pentru prețul a câteva mii de apeluri API.

Modelul Extraction and Stealing Attacks aparține stratului social și de guvernanță al AI, unde politica, responsabilitatea și încrederea publică modelează impactul pe termen lung.

Deep Dive

Un atac de extracție de model (sau de furt de model) tratează un model implementat ca un oracol. Atacatorul trimite intrări, înregistrează ieșiri și antrenează un model de înlocuire pentru a imita comportamentul. Deoarece modelul țintă în sine este o funcție învățată care mapează intrările la ieșiri, copierea unor suficiente perechi intrare-ieșire poate reconstrui o aproximare apropiată fără a vedea niciodată greutățile originale sau datele de antrenament. Cercetătorii au furat limitele de decizie ale clasificatoarelor de imagini și chiar au recuperat greutățile exacte ale straturilor mici. În 2024, o echipă a arătat că părți din straturile de încorporare a modelelor de producție OpenAI și Google ar putea fi extrase pentru mai puțin de câteva sute de dolari. Copiile furate subcutează serviciile plătite, ocolesc filtrele de siguranță și permit alte atacuri de tip cutie albă, cum ar fi crearea de exemple adverse.

Perspectivă tehnică

Cu cât răspunsul API este mai bogat, cu atât mai ieftin este furtul. Returnarea vectorilor de probabilitate completă sau a logiturilor furnizează mult mai multe informații per interogare decât o singură etichetă de top-1, astfel încât atacatorii reconstruiesc granițele cu mai puține interogări. Strategiile de învățare activă aleg cele mai informative interogări în apropierea limitelor decizionale. Un rezultat de referință a arătat că interogarea doar peste numărul de dimensiuni de ieșire poate recupera stratul final de proiecție liniară exact prin algebră liniară, deoarece acel strat este efectiv o matrice a răspunsurilor.

Stăpânirea extragerii modelelor și a atacurilor de furt

Atacurile de extragere a modelelor permit unui adversar să cloneze un model AI proprietar doar interogând API-ul său public și antrenând un imitator cu privire la răspunsuri. Contează pentru că companiile cheltuiesc milioane de modele de formare care pot fi aproximative pentru prețul a câteva mii de apeluri API. Modelul Extraction and Stealing Attacks aparține stratului social și de guvernanță al AI, unde politica, responsabilitatea și încrederea publică modelează impactul pe termen lung. Pentru a construi o înțelegere profundă, tratați extragerea modelelor și atacurile de furt ca un model de operare, nu o singură caracteristică: definiți rezultatele dorite, clarificați ipotezele și separați ceea ce poate face sistemul în mod fiabil de ceea ce necesită încă o judecată expertă.

În practică, echipele puternice care utilizează Model Extraction și Stealing Attacks îmbină creșterea capacității cu guvernanță, siguranță și structuri clare de responsabilitate. Aceștia documentează criteriile de succes explicite, testează în funcție de date și fluxuri de lucru realiste și repetă pe baza modelelor de eșec observate, mai degrabă decât a câștigurilor de referință unice. Aici înțelegerea teoretică se transformă în capacitate durabilă pentru produse, politici și operațiuni.

Deciziile societale determină cine beneficiază și cine suportă riscurile. În același timp, afirmațiile generale pot circula mai repede decât dovezile și supravegherea responsabilă. Cea mai rezistentă abordare este combinarea vitezei de experimentare cu disciplina de guvernare: desfășurați pilot, capturați dovezi, publicați jurnalele de decizie și actualizați continuu măsurile de protecție pe măsură ce comportamentul modelului, așteptările utilizatorilor și cerințele de reglementare evoluează.

Impact strategic

Deciziile societale determină cine beneficiază și cine suportă riscurile.

Deciziile societale determină cine beneficiază și cine suportă riscurile. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Instituțiile publice, școlile și întreprinderile se bazează pe o guvernare clară a AI.

Instituțiile publice, școlile și întreprinderile se bazează pe o guvernare clară a AI. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

O bună proiectare a politicii poate îmbunătăți siguranța fără a bloca inovațiile utile.

O bună proiectare a politicii poate îmbunătăți siguranța fără a bloca inovațiile utile. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Viitorul extragerii de modele și al atacurilor de furt

Apărările trec de la blocare la detecție și degradare: limitarea ratei, returnarea ieșirilor rotunjite sau top-1-only, adăugarea de zgomot calibrat, comportamentul modelului de filigranare, astfel încât copiile furate să poată fi amprentate și monitorizarea modelelor de interogare pentru semnăturile de extracție. Așteptați-vă la condițiile de reglementare și de licență care tratează extracția ca un furt, plus cercetare activă a arhitecturilor care se dovedesc greu de extras. Pe măsură ce modelele devin mai mari, extracția completă rămâne costisitoare, dar extracția parțială a componentelor valoroase și clonarea în stil de distilare vor rămâne o amenințare comercială și de securitate persistentă.

Implementare în lumea reală

O pornire interogează de mii de ori API-ul de recunoaștere a imaginii plătită a unui concurent și antrenează o clonă gratuită care reproduce acuratețea acesteia.

Cercetătorii de securitate extrag stratul final de încorporare-proiecție al unui model de limbaj de producție folosind interogări API atent elaborate, care costă doar câteva sute de dolari.

Un atacator clonează local un clasificator de spam sau fraudă, astfel încât să îl poată sonda offline și să creeze intrări care eludează în mod fiabil detectarea.

Un furnizor de cloud adaugă monitorizarea ratei de interogări care semnalează un cont al cărui model de acces se potrivește cu extracția de învățare activă și îi limitează răspunsurile.

Modele de implementare

Atacurile de extracție și furt de modele în practică

O pornire interogează de mii de ori API-ul de recunoaștere a imaginii plătită a unui concurent și antrenează o clonă gratuită care reproduce acuratețea acesteia.

O întreprindere pornire interogează de mii de ori API-ul de recunoaștere a imaginii plătită a unui concurent și antrenează o clonă gratuită care îi reproduce acuratețea. Echipele obțin de obicei rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile marginale și urmăresc atât câștigurile de productivitate, cât și costurile erorilor în timp.

Atacurile de extracție și furt de modele în practică

Cercetătorii de securitate extrag stratul final de încorporare-proiecție al unui model de limbaj de producție folosind interogări API atent elaborate, care costă doar câteva sute de dolari.

Cercetătorii în securitate extrag stratul final de încorporare-proiectare al unui model de limbaj de producție folosind interogări API atent elaborate care costă doar câteva sute de dolari. Echipele obțin de obicei rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile marginale și urmăresc atât câștigurile de productivitate, cât și costurile de eroare în timp.

Atacurile de extracție și furt de modele în practică

Un atacator clonează local un clasificator de spam sau fraudă, astfel încât să îl poată sonda offline și să creeze intrări care eludează în mod fiabil detectarea.

Un atacator clonează un clasificator de spam sau fraudă la nivel local, astfel încât să îl poată sonda offline și să creeze intrări care eludează în mod fiabil detectarea. Echipele obțin de obicei rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile marginale și urmăresc atât câștigurile de productivitate, cât și costurile erorilor în timp.

Atacurile de extracție și furt de modele în practică

Un furnizor de cloud adaugă monitorizarea ratei de interogări care semnalează un cont al cărui model de acces se potrivește cu extracția de învățare activă și îi limitează răspunsurile.

Un furnizor de cloud adaugă monitorizarea ratei de interogare care semnalează un cont al cărui model de acces se potrivește cu extracția de învățare activă și îi limitează răspunsurile.

Riscuri și balustrade

!

Afirmațiile ample pot circula mai repede decât dovezile și supravegherea responsabilă.

!

Guvernarea slabă poate lăsa lacune de responsabilitate atunci când apar prejudicii.

!

Puterea se poate concentra atunci când accesul, transparența și controlul sunt limitate.

Foaia de parcurs de implementare

1

Identificați părțile interesate afectate și daunele care contează cel mai mult.

Identificați părțile interesate afectate și daunele care contează cel mai mult. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

2

Stabiliți cerințe de transparență pentru date, modele și decizii.

Stabiliți cerințe de transparență pentru date, modele și decizii. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

3

Adăugați o evaluare independentă sau testare în echipă roșie pentru sistemele cu risc ridicat.

Adăugați o evaluare independentă sau testare în echipă roșie pentru sistemele cu risc ridicat. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

4

Actualizați politica și controalele pe măsură ce capacitățile și modelele de utilizare evoluează.

Actualizați politica și controalele pe măsură ce capacitățile și modelele de utilizare evoluează. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Continuați să explorați