PRZEWODNIK Społeczny

Ekstrakcja modelu i ataki kradnące

Ataki polegające na ekstrakcji modelu pozwalają przeciwnikowi sklonować zastrzeżony model sztucznej inteligencji, po prostu wysyłając zapytanie do jego publicznego interfejsu API i szkoląc naśladowcę w zakresie odpowiedzi.

Przegląd

Ataki polegające na ekstrakcji modelu pozwalają przeciwnikowi sklonować zastrzeżony model sztucznej inteligencji, po prostu wysyłając zapytanie do jego publicznego interfejsu API i szkoląc naśladowcę w zakresie odpowiedzi. Ma to znaczenie, bo firmy wydają miliony modeli szkoleniowych, które można przybliżyć za cenę kilku tysięcy wywołań API.

Ataki polegające na ekstrakcji modelu i kradzieży należą do warstwy społecznej i zarządzania sztucznej inteligencji, gdzie polityka, odpowiedzialność i zaufanie publiczne kształtują długoterminowy wpływ.

Głębokie nurkowanie

Atak polegający na ekstrakcji modelu (lub kradzieży modelu) traktuje wdrożony model jako wyrocznię. Osoba atakująca wysyła dane wejściowe, rejestruje dane wyjściowe i trenuje model zastępczy, aby naśladować zachowanie. Ponieważ sam model docelowy jest wyuczoną funkcją odwzorowującą dane wejściowe na wyjścia, kopiowanie wystarczającej liczby par wejście-wyjście może zrekonstruować dokładne przybliżenie bez konieczności oglądania oryginalnych wag lub danych treningowych. Naukowcy ukradli granice decyzyjne klasyfikatorów obrazów, a nawet odzyskali dokładne wagi małych warstw. W 2024 roku zespół pokazał, że części warstw osadzających modele produkcyjne OpenAI i Google można wyodrębnić za mniej niż kilkaset dolarów. Skradzione kopie podważają płatne usługi, omijają filtry bezpieczeństwa i umożliwiają dalsze ataki białej skrzynki, takie jak tworzenie kontradyktoryjnych przykładów.

Wgląd techniczny

Im bogatsza odpowiedź API, tym tańsza kradzież. Zwracanie wektorów pełnego prawdopodobieństwa lub logitów powoduje wyciek znacznie więcej informacji na zapytanie niż pojedyncza etykieta z numerem 1, więc osoby atakujące rekonstruują granice przy użyciu mniejszej liczby zapytań. Strategie aktywnego uczenia się wybierają zapytania zawierające najwięcej informacji w pobliżu granic decyzji. Przełomowy wynik pokazał, że zapytanie dotyczące liczby wymiarów wyjściowych może odzyskać ostateczną warstwę projekcji liniowej dokładnie za pomocą algebry liniowej, ponieważ warstwa ta jest w rzeczywistości macierzą obejmującą zakres odpowiedzi.

Opanuj ekstrakcję modeli i ataki kradnące

Ataki polegające na ekstrakcji modelu pozwalają przeciwnikowi sklonować zastrzeżony model sztucznej inteligencji, po prostu wysyłając zapytanie do jego publicznego interfejsu API i szkoląc naśladowcę w zakresie odpowiedzi. Ma to znaczenie, bo firmy wydają miliony modeli szkoleniowych, które można przybliżyć za cenę kilku tysięcy wywołań API. Ataki polegające na ekstrakcji modelu i kradzieży należą do warstwy społecznej i zarządzania sztucznej inteligencji, gdzie polityka, odpowiedzialność i zaufanie publiczne kształtują długoterminowy wpływ. Aby zbudować głębokie zrozumienie, traktuj ekstrakcję modelu i ataki kradnące jako model operacyjny, a nie pojedynczą funkcję: zdefiniuj pożądane wyniki, wyjaśnij założenia i oddziel to, co system może niezawodnie zrobić, od tego, co wciąż wymaga fachowej oceny.

W praktyce silne zespoły korzystające z ekstrakcji modelu i ataków kradnących łączą rozwój możliwości z zarządzaniem, bezpieczeństwem i jasnymi strukturami odpowiedzialności. Dokumentują wyraźne kryteria sukcesu, testują realistyczne dane i przepływy pracy oraz wykonują iteracje w oparciu o zaobserwowane wzorce niepowodzeń, a nie jednorazowe zwycięstwa w testach porównawczych. W tym miejscu teoretyczne zrozumienie zamienia się w trwałe możliwości w zakresie produktu, polityki i operacji.

Decyzje społeczne określają, kto na tym zyskuje, a kto ponosi ryzyko. Jednocześnie szerokie twierdzenia mogą krążyć szybciej niż dowody i odpowiedzialny nadzór. Najbardziej odporne podejście polega na połączeniu szybkości eksperymentowania z dyscypliną zarządzania: przeprowadzanie programów pilotażowych, gromadzenie dowodów, publikowanie dzienników decyzji i ciągłe aktualizowanie zabezpieczeń w miarę ewolucji zachowań modelu, oczekiwań użytkowników i wymagań prawnych.

Wpływ strategiczny

Decyzje społeczne określają, kto na tym zyskuje, a kto ponosi ryzyko.

Decyzje społeczne określają, kto na tym zyskuje, a kto ponosi ryzyko. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Instytucje publiczne, szkoły i firmy polegają na przejrzystym zarządzaniu sztuczną inteligencją.

Instytucje publiczne, szkoły i firmy polegają na przejrzystym zarządzaniu sztuczną inteligencją. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Dobry projekt polityki może poprawić bezpieczeństwo bez blokowania przydatnych innowacji.

Dobry projekt polityki może poprawić bezpieczeństwo bez blokowania przydatnych innowacji. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Przyszłość ekstrakcji modeli i ataków kradnących

Zabezpieczenia przechodzą z blokowania na wykrywanie i degradację: ograniczanie szybkości, zwracanie zaokrąglonych lub tylko do góry 1 wyników, dodawanie skalibrowanego szumu, zachowanie modelu znaku wodnego, aby można było pobrać odciski palców skradzionych kopii, oraz monitorowanie wzorców zapytań w celu wyodrębnienia podpisów. Spodziewaj się przepisów i warunków licencji, które traktują ekstrakcję jako kradzież, a także aktywnych badań nad architekturami, które mogą być trudne do wyodrębnienia. W miarę powiększania się modeli pełna ekstrakcja pozostaje kosztowna, ale częściowa ekstrakcja cennych składników i klonowanie na wzór destylacji pozostaną stałym zagrożeniem komercyjnym i bezpieczeństwa.

Implementacja w świecie rzeczywistym

Startup tysiące razy odpytuje płatny interfejs API rozpoznawania obrazów konkurencji i szkoli bezpłatny klon, który replikuje jego dokładność.

Badacze bezpieczeństwa wyodrębniają ostateczną warstwę osadzania i projekcji modelu języka produkcyjnego za pomocą starannie spreparowanych zapytań API, które kosztują zaledwie kilkaset dolarów.

Osoba atakująca klonuje lokalnie klasyfikator spamu lub oszustwa, aby móc go sondować w trybie offline i tworzyć dane wejściowe, które niezawodnie unikną wykrycia.

Dostawca chmury dodaje monitorowanie liczby zapytań, które oznacza konto, którego wzorzec dostępu odpowiada ekstrakcji w ramach aktywnego uczenia się, i ogranicza jego odpowiedzi.

Wzorce implementacyjne

Ekstrakcja modeli i ataki kradnące w praktyce

Startup tysiące razy odpytuje płatny interfejs API rozpoznawania obrazów konkurencji i szkoli bezpłatny klon, który replikuje jego dokładność.

Startup tysiące razy wysyła zapytania do płatnego interfejsu API rozpoznawania obrazów konkurencji i szkoli bezpłatnego klona, ​​który replikuje jego dokładność. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Ekstrakcja modeli i ataki kradnące w praktyce

Badacze bezpieczeństwa wyodrębniają ostateczną warstwę osadzania i projekcji modelu języka produkcyjnego za pomocą starannie spreparowanych zapytań API, które kosztują zaledwie kilkaset dolarów.

Badacze bezpieczeństwa wyodrębniają ostateczną warstwę osadzania i projekcji modelu języka produkcyjnego za pomocą starannie spreparowanych zapytań API kosztujących zaledwie kilkaset dolarów. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry definiują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Ekstrakcja modeli i ataki kradnące w praktyce

Osoba atakująca klonuje lokalnie klasyfikator spamu lub oszustwa, aby móc go sondować w trybie offline i tworzyć dane wejściowe, które niezawodnie unikną wykrycia.

Osoba atakująca klonuje lokalnie klasyfikator spamu lub oszustwa, aby móc go sondować w trybie offline i tworzyć dane wejściowe, które niezawodnie unikają wykrycia. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry określają progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych oraz śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Ekstrakcja modeli i ataki kradnące w praktyce

Dostawca chmury dodaje monitorowanie liczby zapytań, które oznacza konto, którego wzorzec dostępu odpowiada ekstrakcji w ramach aktywnego uczenia się, i ogranicza jego odpowiedzi.

Dostawca chmury dodaje funkcję monitorowania liczby zapytań, która oznacza konto, którego wzorzec dostępu odpowiada ekstrakcji aktywnego uczenia się, i ogranicza jego odpowiedzi. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry definiują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych i śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Zagrożenia i poręcze

!

Ogólne twierdzenia mogą krążyć szybciej niż dowody i odpowiedzialny nadzór.

!

Słabe zarządzanie może pozostawić luki w odpowiedzialności w przypadku wystąpienia szkód.

!

Władza może się skoncentrować, gdy dostęp, przejrzystość i kontrola są ograniczone.

Plan wdrożenia

1

Zidentyfikuj zainteresowane strony i szkody, które są najważniejsze.

Zidentyfikuj zainteresowane strony i szkody, które są najważniejsze. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

2

Ustaw wymagania dotyczące przejrzystości danych, modeli i decyzji.

Ustaw wymagania dotyczące przejrzystości danych, modeli i decyzji. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

3

Dodaj niezależną recenzję lub testy zespołu czerwonego dla systemów wysokiego ryzyka.

Dodaj niezależną recenzję lub testy zespołu czerwonego dla systemów wysokiego ryzyka. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

4

Aktualizuj zasady i mechanizmy kontrolne w miarę ewolucji możliwości i wzorców użytkowania.

Aktualizuj zasady i mechanizmy kontrolne w miarę ewolucji możliwości i wzorców użytkowania. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

Odkrywaj dalej