Ръководство за отравяне на данни и задни атаки

Преглед

Отравянето на данни разваля модел чрез подправяне на данните за обучението му, а атаките на задната врата крият таен тригер, който кара модела да се държи неправилно при команда. Те имат значение, защото моделите все повече се учат от изчерпани, краудсорсинг данни, които нападателите могат тихо да заразят.

Отравянето на данни и атаките на задната вратичка се намират в пресечната точка на възможностите, властта и обществения избор – където безопасността, управлението и легитимността решават дали усъвършенстваният AI помага или вреди в мащаб.

Дълбоко гмуркане

Атаките с отравяне се разделят на две големи цели. Атаките срещу наличност имат за цел да влошат цялостната точност чрез инжектиране на грешно обозначени или повредени примери. Целевите и задните атаки са по-подъл: моделът се представя перфектно при нормални входове, но произвежда избран от нападателя изход, когато се появи скрит тригер, като например малка пикселна кръпка, конкретна фраза или невидим воден знак. Работата на BadNets показа класификатор на стоп-знаци, който чете маркиран със стикер знак като „ограничение на скоростта“. Съвременните системи са изложени, защото се обучават на данни от уеб мащаб. Изследователите демонстрираха, че закупуването на изтекли домейни зад малка част от URL адреси на набор от данни може да отрови популярни набори от данни за изображения за няколкостотин долара. Езиковите модели могат също така да бъдат бекдорирани чрез отровени данни за фина настройка или примери за инструкции.

Техническа информация

Задната врата с чист етикет е особено опасна: отровените проби запазват правилни етикети и изглеждат нормални за рецензенти, но въпреки това вграждат функция за задействане, която моделът се научава да свързва с целевия клас. При извод представянето на тригера обръща прогнозата, докато чистата точност остава висока, така че стандартното валидиране никога не го улавя. Защитите включват групиране на активиране, спектрални сигнатури, реконструкция на задействане и проверки на произхода на данните.

Овладяване на отравянето на данни и задните атаки

За да изградите дълбоко разбиране, третирайте отравянето на данни и задните атаки като оперативен модел, а не като отделна функция. Дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силните екипи, използващи отравяне на данни и атаки на задната вратичка, свързват растежа на способностите с управление, безопасност и ясни структури за отчетност. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Катастрофалните и ежедневните вреди от ИИ зависят от това кой разбира рисковете и кой може да действа. В същото време Третирането на екзистенциалния риск като научна фантастика, докато способностите се комбинират. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Катастрофалните и ежедневните вреди от ИИ зависят от това кой разбира рисковете и кой може да действа.

Катастрофалните и ежедневните вреди от ИИ зависят от това кой разбира рисковете и кой може да действа. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Обществената и професионалната грамотност определя дали силната политика за безопасност е политически възможна.

Обществената и професионалната грамотност определя дали силната политика за безопасност е политически възможна. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Ясните обяснения намаляват улавянето от шум, лабораторен PR и неясен етичен театър.

Ясните обяснения намаляват улавянето от шум, лабораторен PR и неясен етичен театър. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на отравянето на данни и задните атаки

Тъй като веригите за доставки разчитат на изчерпани данни, предварително обучени тегла и фини настройки от трети страни, отравянето се измества от теория към реална заплаха за веригата за доставки. Очаквайте подписване на набор от данни и стандарти за произход, сертифицирано обучение за устойчивост, което ограничава щетите от фиксиран брой отровени точки и непрекъснато сканиране на задната врата на модели преди внедряване. Регулаторите и структурите за сигурност като MITER ATLAS започват да третират отравянето като първокласен риск от машинно обучение.

Внедряване в реалния свят

Визуален модел за самоуправляващи се автомобили, разчитащи погрешно знак стоп като знак за ограничение на скоростта, когато има малък стикер

Евтино отравяне на публичен набор от данни за изображения чрез отвличане на изтекли домейни, които хостват част от URL адресите на изображения

Backdooring на модел за завършване на код, така че скрита подканваща фраза го кара да вмъкне несигурен код

Повреда на обратната връзка за обучение на спам филтъра, така че конкретни злонамерени имейли да се промъкнат

Модели на изпълнение

Отравяне на данни и бекдор атаки на практика

Визуален модел за самоуправляващи се автомобили, които неправилно разчитат знака за спиране като знак за ограничение на скоростта, когато има малък задействащ стикер.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Отравяне на данни и бекдор атаки на практика

Евтино отравяне на публичен набор от данни за изображения чрез отвличане на изтекли домейни, които хостват част от URL адресите на изображенията.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Отравяне на данни и бекдор атаки на практика

Backdooring на модел за завършване на код, така че скрита подканваща фраза го кара да вмъкне несигурен код.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Отравяне на данни и бекдор атаки на практика

Повреда на обратната връзка за обучение на спам филтъра, така че конкретни злонамерени имейли да се промъкнат.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Третирането на екзистенциалния риск като научна фантастика, докато способностите се смесват.

!

Объркваща безопасност на повърхностния продукт с подравняване при висока автономност.

!

Оставяйки неанглийската и неекспертната публика само с източници с ниско качество.

Пътна карта за изпълнение

1

Отделете рисковете от увреждане на продукта, неправилна употреба и загуба на контрол/неправилно подравняване.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Попитайте кои доказателства биха променили мнението ви за сроковете и тежестта.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Предпочитайте първичните източници и конкретните оценки пред маркетинговите твърдения.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Определете един път на действие: кариера, политика, финансиране или умения - не само информираност.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Отравяне на данни и задни атаки

Преглед

Дълбоко гмуркане

Техническа информация

Овладяване на отравянето на данни и задните атаки

Стратегическо въздействие

Бъдещето на отравянето на данни и задните атаки

Внедряване в реалния свят

Модели на изпълнение

Отравяне на данни и бекдор атаки на практика

Отравяне на данни и бекдор атаки на практика

Отравяне на данни и бекдор атаки на практика

Отравяне на данни и бекдор атаки на практика

Рискове и предпазни огради

Пътна карта за изпълнение

Продължете да изследвате

AI Безопасност

AI подравняване

AGI

AI управление

Related guides