Ръководство за атаки за извличане на модел и кражба

Преглед

Атаките за извличане на модели позволяват на противника да клонира патентован AI модел само чрез запитване към публичния му API и обучение на имитатор на отговорите. Има значение, защото компаниите харчат милиони за обучение на модели, които могат да бъдат приближени на цената на няколко хиляди извиквания на API.

Атаките за извличане на модел и кражба се намират в пресечната точка на възможностите, силата и обществения избор – където безопасността, управлението и легитимността решават дали усъвършенстваният AI помага или вреди в мащаб.

Дълбоко гмуркане

Атаката за извличане на модел (или кражба на модел) третира разгърнатия модел като оракул. Нападателят изпраща входове, записва изходи и обучава заместващ модел, за да имитира поведението. Тъй като самият целеви модел е научена функция, съпоставяща входове към изходи, копирането на достатъчно входно-изходни двойки може да реконструира близко приближение, без изобщо да виждате оригиналните тегла или данни за обучение. Изследователите са откраднали границите на решенията на класификаторите на изображения и дори са възстановили точните тегла на малки слоеве. През 2024 г. екип показа, че части от слоевете за вграждане на OpenAI и Google могат да бъдат извлечени за под няколкостотин долара. Откраднатите копия подкопават платените услуги, заобикалят защитни филтри и позволяват допълнителни атаки с бяла кутия, като създаване на конкурентни примери.

Техническа информация

Колкото по-богат е отговорът на API, толкова по-евтина е кражбата. Връщането на пълни вероятностни вектори или логити изтича много повече информация на заявка, отколкото един етикет от най-високо ниво, така че атакуващите реконструират граници с по-малко заявки. Стратегиите за активно учене избират най-информативните запитвания близо до границите на вземане на решения. Един забележителен резултат показа, че запитването точно над броя на изходните размери може да възстанови окончателния слой с линейна проекция точно чрез линейна алгебра, тъй като този слой на практика е матрица, която обхваща отговорите.

Овладяване на атаки за извличане на модел и кражба

За да изградите дълбоко разбиране, третирайте атаките за извличане на модел и кражба като оперативен модел, а не като отделна функция. Дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силните екипи, използващи атаки за извличане на модел и кражба, свързват растежа на способностите с управление, безопасност и ясни структури на отчетност. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Катастрофалните и ежедневните вреди от ИИ зависят от това кой разбира рисковете и кой може да действа. В същото време Третирането на екзистенциалния риск като научна фантастика, докато способностите се комбинират. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Катастрофалните и ежедневните вреди от ИИ зависят от това кой разбира рисковете и кой може да действа.

Катастрофалните и ежедневните вреди от ИИ зависят от това кой разбира рисковете и кой може да действа. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Обществената и професионалната грамотност определя дали силната политика за безопасност е политически възможна.

Обществената и професионалната грамотност определя дали силната политика за безопасност е политически възможна. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Ясните обяснения намаляват улавянето от шум, лабораторен PR и неясен етичен театър.

Ясните обяснения намаляват улавянето от шум, лабораторен PR и неясен етичен театър. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на атаките за извличане на модели и кражба

Защитите преминават от блокиране към откриване и влошаване: ограничаване на скоростта, връщане на закръглени или само топ 1 изходи, добавяне на калибриран шум, поведение на модела с воден знак, така че откраднатите копия да могат да бъдат с пръстови отпечатъци, и наблюдение на модели на заявки за извличане на подписи. Очаквайте регулация и лицензионни условия, които третират извличането като кражба, плюс активно проучване на доказано трудни за извличане архитектури. Тъй като моделите стават по-големи, пълното извличане остава скъпо, но частичното извличане на ценни компоненти и клонирането в стил дестилация ще останат постоянна търговска заплаха и заплаха за сигурността.

Внедряване в реалния свят

Стартираща компания отправя запитвания към платения API за разпознаване на изображения на конкурент хиляди пъти и обучава безплатен клонинг, който възпроизвежда неговата точност.

Изследователите по сигурността извличат окончателния слой за вграждане-проекция на производствен езиков модел, използвайки внимателно изработени API заявки, струващи само няколкостотин долара.

Нападателят клонира локално класификатор за нежелана поща или измама, за да може да го изследва офлайн и да създава входни данни, които надеждно избягват откриването.

Доставчик на облак добавя мониторинг на честотата на заявките, който маркира акаунт, чийто модел на достъп съответства на извличане на активно обучение и дроселира неговите отговори.

Модели на изпълнение

Извличане на модели и атаки за кражба на практика

Стартираща компания отправя запитвания към платения API за разпознаване на изображения на конкурент хиляди пъти и обучава безплатен клонинг, който възпроизвежда неговата точност.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Извличане на модели и атаки за кражба на практика

Изследователите по сигурността извличат окончателния слой за вграждане-проекция на производствен езиков модел, използвайки внимателно изработени API заявки, струващи само няколкостотин долара.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Извличане на модели и атаки за кражба на практика

Нападателят клонира локално класификатор за нежелана поща или измама, за да може да го изследва офлайн и да създава входни данни, които надеждно избягват откриването.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Извличане на модели и атаки за кражба на практика

Доставчик на облак добавя мониторинг на честотата на заявките, който маркира акаунт, чийто модел на достъп съответства на извличане на активно обучение и дроселира неговите отговори.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Третирането на екзистенциалния риск като научна фантастика, докато способностите се смесват.

!

Объркваща безопасност на повърхностния продукт с подравняване при висока автономност.

!

Оставяйки неанглийската и неекспертната публика само с източници с ниско качество.

Пътна карта за изпълнение

1

Отделете рисковете от увреждане на продукта, неправилна употреба и загуба на контрол/неправилно подравняване.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Попитайте кои доказателства биха променили мнението ви за сроковете и тежестта.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Предпочитайте първичните източници и конкретните оценки пред маркетинговите твърдения.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Определете един път на действие: кариера, политика, финансиране или умения - не само информираност.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Атаки за извличане и кражба на модели

Преглед

Дълбоко гмуркане

Техническа информация

Овладяване на атаки за извличане на модел и кражба

Стратегическо въздействие

Бъдещето на атаките за извличане на модели и кражба

Внедряване в реалния свят

Модели на изпълнение

Извличане на модели и атаки за кражба на практика

Извличане на модели и атаки за кражба на практика

Извличане на модели и атаки за кражба на практика

Извличане на модели и атаки за кражба на практика

Рискове и предпазни огради

Пътна карта за изпълнение

Продължете да изследвате

AI Безопасност

AI подравняване

AGI

AI управление

Related guides