РЪКОВОДСТВО за обществото

Атаки за извличане и кражба на модели

Атаките за извличане на модели позволяват на противника да клонира патентован AI модел само чрез запитване към публичния му API и обучение на имитатор на отговорите.

Преглед

Атаките за извличане на модели позволяват на противника да клонира патентован AI модел само чрез запитване към публичния му API и обучение на имитатор на отговорите. Има значение, защото компаниите харчат милиони за обучение на модели, които могат да бъдат приближени на цената на няколко хиляди извиквания на API.

Атаките за извличане и кражба на модели принадлежат към социалния и управленския слой на AI, където политиката, отчетността и общественото доверие оформят дългосрочното въздействие.

Дълбоко гмуркане

Атаката за извличане на модел (или кражба на модел) третира разгърнатия модел като оракул. Нападателят изпраща входове, записва изходи и обучава заместващ модел, за да имитира поведението. Тъй като самият целеви модел е научена функция, съпоставяща входове към изходи, копирането на достатъчно входно-изходни двойки може да реконструира близко приближение, без изобщо да виждате оригиналните тегла или данни за обучение. Изследователите са откраднали границите на решенията на класификаторите на изображения и дори са възстановили точните тегла на малки слоеве. През 2024 г. екип показа, че части от слоевете за вграждане на OpenAI и Google могат да бъдат извлечени за под няколкостотин долара. Откраднатите копия подкопават платените услуги, заобикалят защитни филтри и позволяват допълнителни атаки с бяла кутия, като създаване на конкурентни примери.

Техническа информация

Колкото по-богат е отговорът на API, толкова по-евтина е кражбата. Връщането на пълни вероятностни вектори или логити изтича много повече информация на заявка, отколкото един етикет от най-високо ниво, така че атакуващите реконструират граници с по-малко заявки. Стратегиите за активно учене избират най-информативните запитвания близо до границите на вземане на решения. Един забележителен резултат показа, че запитването точно над броя на изходните размери може да възстанови окончателния слой с линейна проекция точно чрез линейна алгебра, тъй като този слой на практика е матрица, която обхваща отговорите.

Овладяване на атаки за извличане на модел и кражба

Атаките за извличане на модели позволяват на противника да клонира патентован AI модел само чрез запитване към публичния му API и обучение на имитатор на отговорите. Има значение, защото компаниите харчат милиони за обучение на модели, които могат да бъдат приближени на цената на няколко хиляди извиквания на API. Атаките за извличане и кражба на модели принадлежат към социалния и управленския слой на AI, където политиката, отчетността и общественото доверие оформят дългосрочното въздействие. За да изградите дълбоко разбиране, третирайте атаките за извличане на модел и кражба като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силните екипи, използващи атаки за извличане на модел и кражба, свързват растежа на способностите с управление, безопасност и ясни структури на отчетност. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Обществените решения определят кой печели и кой носи риск. В същото време широките твърдения могат да циркулират по-бързо от доказателствата и отговорния надзор. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Обществените решения определят кой печели и кой носи риск.

Обществените решения определят кой печели и кой носи риск. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Публичните институции, училищата и фирмите разчитат на ясно управление на ИИ.

Публичните институции, училищата и фирмите разчитат на ясно управление на ИИ. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Добрият дизайн на политиката може да подобри безопасността, без да блокира полезните иновации.

Добрият дизайн на политиката може да подобри безопасността, без да блокира полезните иновации. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на атаките за извличане на модели и кражба

Защитите преминават от блокиране към откриване и влошаване: ограничаване на скоростта, връщане на закръглени или само топ 1 изходи, добавяне на калибриран шум, поведение на модела с воден знак, така че откраднатите копия да могат да бъдат с пръстови отпечатъци, и наблюдение на модели на заявки за извличане на подписи. Очаквайте регулация и лицензионни условия, които третират извличането като кражба, плюс активно проучване на доказано трудни за извличане архитектури. Тъй като моделите стават по-големи, пълното извличане остава скъпо, но частичното извличане на ценни компоненти и клонирането в стил дестилация ще останат постоянна търговска заплаха и заплаха за сигурността.

Внедряване в реалния свят

Стартираща компания отправя запитвания към платения API за разпознаване на изображения на конкурент хиляди пъти и обучава безплатен клонинг, който възпроизвежда неговата точност.

Изследователите по сигурността извличат окончателния слой за вграждане-проекция на производствен езиков модел, използвайки внимателно изработени API заявки, струващи само няколкостотин долара.

Нападателят клонира локално класификатор за нежелана поща или измама, за да може да го изследва офлайн и да създава входни данни, които надеждно избягват откриването.

Доставчик на облак добавя мониторинг на честотата на заявките, който маркира акаунт, чийто модел на достъп съответства на извличане на активно обучение и дроселира неговите отговори.

Модели на изпълнение

Извличане на модели и атаки за кражба на практика

Стартираща компания отправя запитвания към платения API за разпознаване на изображения на конкурент хиляди пъти и обучава безплатен клонинг, който възпроизвежда неговата точност.

Стартъп отправя запитвания към платения API за разпознаване на изображения на конкурент хиляди пъти и обучава безплатен клонинг, който възпроизвежда неговата точност. Екипите обикновено получават по-добри резултати, когато дефинират праговете на качеството предварително, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Извличане на модели и атаки за кражба на практика

Изследователите по сигурността извличат окончателния слой за вграждане-проекция на производствен езиков модел, използвайки внимателно изработени API заявки, струващи само няколкостотин долара.

Изследователите по сигурността извличат окончателния слой за вграждане-проекция на производствения езиков модел, като използват внимателно изработени API заявки, струващи само няколкостотин долара. Екипите обикновено получават по-добри резултати, когато дефинират праговете на качеството предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Извличане на модели и атаки за кражба на практика

Нападателят клонира локално класификатор за нежелана поща или измама, за да може да го изследва офлайн и да създава входни данни, които надеждно избягват откриването.

Нападателят клонира локално класификатор за нежелана поща или измама, за да може да го изследва офлайн и да изработи входове, които надеждно избягват откриването. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки с течение на времето.

Извличане на модели и атаки за кражба на практика

Доставчик на облак добавя мониторинг на честотата на заявките, който маркира акаунт, чийто модел на достъп съответства на извличане на активно обучение и дроселира неговите отговори.

Доставчик на облак добавя мониторинг на честотата на заявките, който маркира акаунт, чийто модел на достъп съответства на извличане на активно обучение, и дроселира отговорите му. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Широките твърдения могат да циркулират по-бързо от доказателствата и отговорния надзор.

!

Слабото управление може да остави пропуски в отчетността, когато настъпят вреди.

!

Властта може да се концентрира, когато достъпът, прозрачността и контролът са ограничени.

Пътна карта за изпълнение

1

Идентифицирайте засегнатите заинтересовани страни и вредите, които са най-важни.

Идентифицирайте засегнатите заинтересовани страни и вредите, които са най-важни. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Задайте изисквания за прозрачност за данни, модели и решения.

Задайте изисквания за прозрачност за данни, модели и решения. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Добавете независим преглед или тестване от червен екип за системи с висок риск.

Добавете независим преглед или тестване от червен екип за системи с висок риск. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Актуализирайте правилата и контролите с развитието на възможностите и моделите на използване.

Актуализирайте правилата и контролите с развитието на възможностите и моделите на използване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате