HƯỚNG DẪN xã hội

Ngộ độc dữ liệu và tấn công cửa sau

Việc đầu độc dữ liệu làm hỏng một mô hình bằng cách giả mạo dữ liệu huấn luyện của nó và các cuộc tấn công cửa sau che giấu một yếu tố kích hoạt bí mật khiến mô hình hoạt động sai lệnh.

Tổng quan

Việc đầu độc dữ liệu làm hỏng một mô hình bằng cách giả mạo dữ liệu huấn luyện của nó và các cuộc tấn công cửa sau che giấu một yếu tố kích hoạt bí mật khiến mô hình hoạt động sai lệnh. Chúng quan trọng vì các mô hình ngày càng học hỏi từ dữ liệu được thu thập từ cộng đồng mà những kẻ tấn công có thể âm thầm lây nhiễm.

Ngộ độc dữ liệu và tấn công cửa sau thuộc lớp xã hội và quản trị của AI, nơi chính sách, trách nhiệm giải trình và niềm tin của công chúng định hình tác động lâu dài.

Lặn sâu

Các cuộc tấn công đầu độc được chia thành hai mục tiêu lớn. Các cuộc tấn công vào tính khả dụng nhằm mục đích làm giảm độ chính xác tổng thể bằng cách đưa vào các ví dụ bị gắn nhãn sai hoặc bị hỏng. Các cuộc tấn công có mục tiêu và cửa sau lén lút hơn: mô hình hoạt động hoàn hảo trên các đầu vào thông thường nhưng tạo ra đầu ra do kẻ tấn công chọn bất cứ khi nào một trình kích hoạt ẩn xuất hiện, chẳng hạn như một bản vá pixel nhỏ, một cụm từ cụ thể hoặc hình mờ vô hình. Tác phẩm của BadNets hiển thị một bộ phân loại biển báo dừng đọc biển báo được đánh dấu bằng nhãn dán là 'giới hạn tốc độ'. Các hệ thống hiện đại bị lộ vì chúng đào tạo trên dữ liệu quy mô web. Các nhà nghiên cứu đã chứng minh rằng việc mua các tên miền hết hạn đằng sau một phần nhỏ URL của tập dữ liệu có thể đầu độc các tập dữ liệu hình ảnh phổ biến với giá vài trăm đô la. Các mô hình ngôn ngữ cũng có thể bị cài cửa sau thông qua các ví dụ hướng dẫn hoặc dữ liệu tinh chỉnh bị nhiễm độc.

Hiểu biết kỹ thuật

Cửa sau có nhãn sạch đặc biệt nguy hiểm: các mẫu bị nhiễm độc giữ nhãn chính xác và trông bình thường đối với người đánh giá, tuy nhiên chúng lại nhúng một tính năng kích hoạt mà mô hình học cách liên kết với lớp mục tiêu. Khi suy luận, việc đưa ra trình kích hoạt sẽ đảo ngược dự đoán trong khi độ chính xác rõ ràng vẫn ở mức cao, do đó việc xác thực tiêu chuẩn không bao giờ nắm bắt được nó. Các biện pháp bảo vệ bao gồm phân cụm kích hoạt, chữ ký quang phổ, tái thiết kích hoạt và kiểm tra nguồn gốc dữ liệu.

Làm chủ các cuộc tấn công đầu độc dữ liệu và cửa sau

Việc đầu độc dữ liệu làm hỏng một mô hình bằng cách giả mạo dữ liệu huấn luyện của nó và các cuộc tấn công cửa sau che giấu một yếu tố kích hoạt bí mật khiến mô hình hoạt động sai lệnh. Chúng quan trọng vì các mô hình ngày càng học hỏi từ dữ liệu được thu thập từ cộng đồng mà những kẻ tấn công có thể âm thầm lây nhiễm. Ngộ độc dữ liệu và tấn công cửa sau thuộc lớp xã hội và quản trị của AI, nơi chính sách, trách nhiệm giải trình và niềm tin của công chúng định hình tác động lâu dài. Để xây dựng sự hiểu biết sâu sắc, hãy coi Ngộ độc dữ liệu và Tấn công cửa sau như một mô hình hoạt động chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Ngộ độc dữ liệu và Tấn công cửa sau kết hợp tăng trưởng năng lực với cơ cấu quản trị, an toàn và trách nhiệm giải trình rõ ràng. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Các quyết định của xã hội quyết định ai được lợi và ai chịu rủi ro. Đồng thời, các tuyên bố của Broad có thể lan truyền nhanh hơn bằng chứng và sự giám sát có trách nhiệm. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Các quyết định của xã hội quyết định ai được lợi và ai chịu rủi ro.

Các quyết định của xã hội quyết định ai được lợi và ai chịu rủi ro. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các tổ chức công, trường học và doanh nghiệp đều dựa vào quản trị AI rõ ràng.

Các tổ chức công, trường học và doanh nghiệp đều dựa vào quản trị AI rõ ràng. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Thiết kế chính sách tốt có thể cải thiện sự an toàn mà không cản trở sự đổi mới hữu ích.

Thiết kế chính sách tốt có thể cải thiện sự an toàn mà không cản trở sự đổi mới hữu ích. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của ngộ độc dữ liệu và tấn công cửa sau

Do chuỗi cung ứng dựa vào dữ liệu đã được thu thập, trọng lượng đã được sàng lọc trước và sự tinh chỉnh của bên thứ ba, nên việc đầu độc đang chuyển từ lý thuyết sang mối đe dọa thực sự đối với chuỗi cung ứng. Yêu cầu các tiêu chuẩn về ký và xuất xứ dữ liệu, đào tạo về độ mạnh được chứng nhận nhằm hạn chế thiệt hại từ một số điểm bị nhiễm độc cố định và quét cửa sau liên tục các mô hình trước khi triển khai. Các cơ quan quản lý và khuôn khổ bảo mật như MITER ATLAS đang bắt đầu coi ngộ độc là rủi ro học máy hạng nhất.

Triển khai trong thế giới thực

Mô hình trực quan dành cho ô tô tự lái đọc nhầm biển báo dừng là biển báo giới hạn tốc độ khi có một nhãn dán kích hoạt nhỏ

Đầu độc một tập dữ liệu hình ảnh công khai với giá rẻ bằng cách chiếm đoạt các miền đã hết hạn lưu trữ một phần URL hình ảnh của nó

Tạo cửa sau cho mô hình hoàn thiện mã để cụm từ nhắc nhở ẩn khiến mô hình này chèn mã không an toàn

Làm hỏng phản hồi đào tạo có nguồn lực từ cộng đồng của bộ lọc thư rác để các email độc hại cụ thể lọt qua

Các mẫu triển khai

Ngộ độc dữ liệu và tấn công cửa sau trong thực tế

Mô hình trực quan dành cho ô tô tự lái đọc nhầm biển báo dừng là biển báo giới hạn tốc độ khi có một nhãn dán kích hoạt nhỏ.

Mô hình tầm nhìn dành cho ô tô tự lái đọc nhầm biển báo dừng là biển báo giới hạn tốc độ khi có một nhãn dán kích hoạt nhỏ. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Ngộ độc dữ liệu và tấn công cửa sau trong thực tế

Đầu độc một tập dữ liệu hình ảnh công khai với giá rẻ bằng cách chiếm đoạt các miền đã hết hạn lưu trữ một phần URL hình ảnh của nó.

Đầu độc một tập dữ liệu hình ảnh công khai với giá rẻ bằng cách chiếm đoạt các miền đã hết hạn lưu trữ một phần URL hình ảnh của nó. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Ngộ độc dữ liệu và tấn công cửa sau trong thực tế

Tạo cửa sau cho mô hình hoàn thiện mã để cụm từ nhắc nhở ẩn khiến mô hình này chèn mã không an toàn.

Tạo cửa sau cho mô hình hoàn thiện mã để cụm từ nhắc ẩn khiến mô hình chèn mã không an toàn. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp phức tạp và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Ngộ độc dữ liệu và tấn công cửa sau trong thực tế

Làm hỏng phản hồi đào tạo có nguồn lực từ cộng đồng của bộ lọc thư rác để các email độc hại cụ thể lọt qua.

Làm hỏng phản hồi đào tạo được huy động từ cộng đồng của bộ lọc thư rác để các email độc hại cụ thể lọt qua. Các Nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Rủi ro & lan can

!

Những tuyên bố rộng rãi có thể lan truyền nhanh hơn bằng chứng và sự giám sát có trách nhiệm.

!

Quản trị yếu kém có thể để lại lỗ hổng về trách nhiệm giải trình khi tác hại xảy ra.

!

Quyền lực có thể tập trung khi khả năng tiếp cận, tính minh bạch và sự giám sát bị hạn chế.

Lộ trình thực hiện

1

Xác định các bên liên quan bị ảnh hưởng và những tác hại quan trọng nhất.

Xác định các bên liên quan bị ảnh hưởng và những tác hại quan trọng nhất. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Đặt yêu cầu về tính minh bạch cho dữ liệu, mô hình và quyết định.

Đặt yêu cầu về tính minh bạch cho dữ liệu, mô hình và quyết định. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Thêm đánh giá độc lập hoặc thử nghiệm của nhóm đỏ cho các hệ thống có rủi ro cao.

Thêm đánh giá độc lập hoặc thử nghiệm của nhóm đỏ cho các hệ thống có rủi ro cao. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Cập nhật chính sách và biện pháp kiểm soát khi khả năng và cách sử dụng phát triển.

Cập nhật chính sách và biện pháp kiểm soát khi khả năng và cách sử dụng phát triển. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá