Суспільство GUIDE

Атаки на витяг моделі та крадіжку

Атаки вилучення моделі дозволяють зловмиснику клонувати пропрієтарну модель штучного інтелекту, просто запитуючи її загальнодоступний API і навчаючи наслідувача на відповідях.

Огляд

Атаки вилучення моделі дозволяють зловмиснику клонувати пропрієтарну модель штучного інтелекту, просто запитуючи її загальнодоступний API і навчаючи наслідувача на відповідях. Це важливо, тому що компанії витрачають мільйони на навчання моделям, які можна наблизити за ціною кількох тисяч викликів API.

Атаки з вилучення моделей і викрадення належать до соціального рівня та рівня управління ШІ, де політика, підзвітність і громадська довіра формують довгостроковий вплив.

Глибоке занурення

Атака з вилучення моделі (або викрадення моделі) розглядає розгорнуту модель як оракул. Зловмисник надсилає вхідні дані, записує вихідні дані та навчає замінну модель імітувати поведінку. Оскільки цільова модель сама по собі є навченою функцією, що відображає вхідні дані та виходи, копіювання достатньої кількості пар введення-виведення може реконструювати точне наближення, навіть не бачачи вихідних вагових показників або навчальних даних. Дослідники вкрали межі рішень класифікаторів зображень і навіть відновили точні ваги невеликих шарів. У 2024 році команда показала, що частини шарів вбудовування виробничої моделі OpenAI та Google можна отримати менш ніж за кілька сотень доларів. Викрадені копії підривають платні послуги, обходять фільтри безпеки та уможливлюють подальші атаки білої скриньки, як-от створення ворожих прикладів.

Технічне розуміння

Чим багатша відповідь API, тим дешевша крадіжка. Повернення повних векторів імовірностей або логітів призводить до витоку набагато більше інформації на запит, ніж однієї мітки першого місця, тому зловмисники реконструюють межі за допомогою меншої кількості запитів. Стратегії активного навчання вибирають найбільш інформативні запити поблизу кордонів прийняття рішень. Епохальний результат показав, що запит лише над кількістю вихідних розмірів може відновити остаточний лінійний проекційний рівень точно за допомогою лінійної алгебри, оскільки цей рівень фактично є матрицею, яку охоплюють відповіді.

Освоєння атак з вилучення моделі та крадіжки

Атаки вилучення моделі дозволяють зловмиснику клонувати пропрієтарну модель штучного інтелекту, просто запитуючи її загальнодоступний API і навчаючи наслідувача на відповідях. Це важливо, тому що компанії витрачають мільйони на навчання моделям, які можна наблизити за ціною кількох тисяч викликів API. Атаки з вилучення моделей і викрадення належать до соціального рівня та рівня управління ШІ, де політика, підзвітність і громадська довіра формують довгостроковий вплив. Щоб побудувати глибоке розуміння, розглядайте атаки вилучення моделі та викрадення як операційну модель, а не як окрему функцію: визначте бажані результати, уточніть припущення та відокремте те, що система може зробити надійно, від того, що все ще вимагає експертної оцінки.

На практиці сильні команди, які використовують атаки на вилучення моделі та крадіжку, поєднують зростання можливостей із керуванням, безпекою та чіткою структурою підзвітності. Вони документують чіткі критерії успіху, перевіряють реалістичні дані та робочі процеси та виконують ітерацію на основі спостережуваних моделей невдач, а не одноразових перемог у тестах. Саме тут теоретичне розуміння перетворюється на довготривалу здатність щодо продуктів, політики та операцій.

Суспільні рішення визначають, хто отримує вигоду, а хто несе ризик. У той же час широкі заяви можуть поширюватися швидше, ніж докази та відповідальний нагляд. Найбільш стійкий підхід полягає в поєднанні швидкості експериментів із дисципліною управління: запускайте пілотні проекти, збирайте докази, публікуйте журнали рішень і постійно оновлюйте запобіжні заходи в міру розвитку поведінки моделі, очікувань користувачів і нормативних вимог.

Стратегічний вплив

Суспільні рішення визначають, хто отримує вигоду, а хто несе ризик.

Суспільні рішення визначають, хто отримує вигоду, а хто несе ризик. У високоякісних розгортаннях це перетворюється на вимірювані правила роботи, межі власності та повторювані ритуали перевірки, щоб команди могли масштабувати впевненість замість масштабування неоднозначності.

Державні установи, школи та підприємства покладаються на чітке управління ШІ.

Державні установи, школи та підприємства покладаються на чітке управління ШІ. У високоякісних розгортаннях це перетворюється на вимірювані правила роботи, межі власності та повторювані ритуали перевірки, щоб команди могли масштабувати впевненість замість масштабування неоднозначності.

Хороший дизайн політики може підвищити безпеку, не блокуючи корисні інновації.

Хороший дизайн політики може підвищити безпеку, не блокуючи корисні інновації. У високоякісних розгортаннях це перетворюється на вимірювані правила роботи, межі власності та повторювані ритуали перевірки, щоб команди могли масштабувати впевненість замість масштабування неоднозначності.

Майбутнє вилучення моделей і атак на крадіжки

Захист змінюється від блокування до виявлення та деградації: обмеження швидкості, повернення округлених або лише топ-1 виходів, додавання каліброваного шуму, поведінка моделі водяних знаків, щоб викрадені копії могли бути відбитками пальців, і моніторинг шаблонів запитів для вилучення сигнатур. Очікуйте нормативних та ліцензійних умов, які розглядають видобуток як крадіжку, а також активного дослідження архітектур, які важко видобути. Оскільки моделі стають більшими, повне вилучення залишається дорогим, але часткове вилучення цінних компонентів і клонування у стилі дистиляції залишатимуться постійною комерційною загрозою та загрозою безпеці.

Впровадження в реальному світі

Стартап запитує платний API розпізнавання зображень конкурента тисячі разів і навчає безкоштовний клон, який повторює його точність.

Дослідники безпеки виділяють остаточний рівень вбудовування-проекції моделі робочої мови за допомогою ретельно розроблених запитів API, які коштують лише кілька сотень доларів.

Зловмисник клонує класифікатор спаму або шахрайства локально, щоб він міг перевірити його в автономному режимі та створити вхідні дані, які надійно уникнуть виявлення.

Хмарний постачальник додає моніторинг частоти запитів, який позначає обліковий запис, чий шаблон доступу відповідає активному вилученню, і гальмує його відповіді.

Шаблони реалізації

На практиці атаки з вилучення моделі та крадіжки

Стартап запитує платний API розпізнавання зображень конкурента тисячі разів і навчає безкоштовний клон, який повторює його точність.

Стартап запитує платний API розпізнавання зображень конкурента тисячі разів і навчає безкоштовний клон, який копіює його точність. Команди зазвичай отримують кращі результати, коли визначають порогові значення якості наперед, зберігають шлях ескалації людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

На практиці атаки з вилучення моделі та крадіжки

Дослідники безпеки виділяють остаточний рівень вбудовування-проекції моделі робочої мови за допомогою ретельно розроблених запитів API, які коштують лише кілька сотень доларів.

Дослідники безпеки витягують остаточний рівень вбудовування-проекції моделі робочої мови, використовуючи ретельно розроблені запити API, які коштують лише кілька сотень доларів. Команди зазвичай отримують кращі результати, коли визначають порогові значення якості наперед, зберігають шлях ескалації людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

На практиці атаки з вилучення моделі та крадіжки

Зловмисник клонує класифікатор спаму або шахрайства локально, щоб він міг перевірити його в автономному режимі та створити вхідні дані, які надійно уникнуть виявлення.

Зловмисник клонує класифікатор спаму або шахрайства локально, щоб він міг досліджувати його в автономному режимі та створювати вхідні дані, які надійно уникають виявлення. Команди зазвичай отримують кращі результати, коли вони визначають порогові значення якості наперед, зберігають шлях ескалації людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

На практиці атаки з вилучення моделі та крадіжки

Хмарний постачальник додає моніторинг частоти запитів, який позначає обліковий запис, чий шаблон доступу відповідає активному вилученню, і гальмує його відповіді.

Хмарний постачальник додає моніторинг частоти запитів, який позначає обліковий запис, чий шаблон доступу відповідає вилученню з активним навчанням, і регулює його відповіді. Команди зазвичай отримують кращі результати, коли визначають порогові значення якості наперед, зберігають шлях ескалації людьми для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

Ризики та огорожі

!

Широкі заяви можуть поширюватися швидше, ніж докази та відповідальний нагляд.

!

Слабке управління може спричинити прогалини у підзвітності, якщо завдано шкоди.

!

Влада може концентруватися, коли доступ, прозорість і контроль обмежені.

Дорожня карта впровадження

1

Визначте постраждалих зацікавлених сторін і найбільш важливу шкоду.

Визначте постраждалих зацікавлених сторін і найбільш важливу шкоду. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

2

Встановіть вимоги щодо прозорості даних, моделей і рішень.

Встановіть вимоги щодо прозорості даних, моделей і рішень. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

3

Додайте незалежний огляд або тестування червоною командою для систем високого ризику.

Додайте незалежний огляд або тестування червоною командою для систем високого ризику. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

4

Оновлюйте політику та елементи керування в міру розвитку можливостей і шаблонів використання.

Оновлюйте політику та елементи керування в міру розвитку можливостей і шаблонів використання. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

Продовжуйте досліджувати