HƯỚNG DẪN xã hội

Tấn công khai thác và đánh cắp mô hình

Các cuộc tấn công trích xuất mô hình cho phép kẻ thù sao chép một mô hình AI độc quyền chỉ bằng cách truy vấn API công khai của nó và huấn luyện kẻ bắt chước các câu trả lời.

Tổng quan

Các cuộc tấn công trích xuất mô hình cho phép kẻ thù sao chép một mô hình AI độc quyền chỉ bằng cách truy vấn API công khai của nó và huấn luyện kẻ bắt chước các câu trả lời. Điều này quan trọng vì các công ty chi hàng triệu mô hình đào tạo có thể xấp xỉ với mức giá vài nghìn lệnh gọi API.

Các cuộc tấn công khai thác và đánh cắp mô hình thuộc lớp xã hội và quản trị của AI, nơi chính sách, trách nhiệm giải trình và niềm tin của công chúng định hình tác động lâu dài.

Lặn sâu

Một cuộc tấn công trích xuất mô hình (hoặc đánh cắp mô hình) coi mô hình được triển khai như một lời tiên tri. Kẻ tấn công gửi đầu vào, ghi lại đầu ra và huấn luyện một mô hình thay thế để bắt chước hành vi. Bởi vì bản thân mô hình đích là một hàm đã học ánh xạ đầu vào thành đầu ra, nên việc sao chép đủ các cặp đầu vào-đầu ra có thể tái tạo lại giá trị gần đúng mà không cần nhìn thấy trọng số hoặc dữ liệu huấn luyện ban đầu. Các nhà nghiên cứu đã đánh cắp ranh giới quyết định của bộ phân loại hình ảnh và thậm chí còn khôi phục được trọng số chính xác của các lớp nhỏ. Vào năm 2024, một nhóm đã cho thấy các phần của lớp nhúng mô hình sản xuất OpenAI và Google có thể được trích xuất với chi phí dưới vài trăm đô la. Các bản sao bị đánh cắp đã cắt giảm các dịch vụ phải trả phí, bỏ qua các bộ lọc an toàn và cho phép các cuộc tấn công hộp trắng tiếp theo như tạo ra các ví dụ đối nghịch.

Hiểu biết kỹ thuật

Phản hồi API càng phong phú thì hành vi trộm cắp càng rẻ. Việc trả về các vectơ hoặc nhật ký xác suất đầy đủ sẽ làm rò rỉ nhiều thông tin cho mỗi truy vấn hơn so với một nhãn top 1 duy nhất, vì vậy những kẻ tấn công sẽ xây dựng lại ranh giới với ít truy vấn hơn. Chiến lược học tập tích cực chọn các truy vấn có nhiều thông tin nhất gần ranh giới quyết định. Một kết quả mang tính bước ngoặt cho thấy rằng việc truy vấn chỉ qua số thứ nguyên đầu ra có thể khôi phục lớp chiếu tuyến tính cuối cùng một cách chính xác thông qua đại số tuyến tính, vì lớp đó thực sự là một ma trận có phạm vi phản hồi.

Làm chủ các cuộc tấn công khai thác và đánh cắp mô hình

Các cuộc tấn công trích xuất mô hình cho phép kẻ thù sao chép một mô hình AI độc quyền chỉ bằng cách truy vấn API công khai của nó và huấn luyện kẻ bắt chước các câu trả lời. Điều này quan trọng vì các công ty chi hàng triệu mô hình đào tạo có thể xấp xỉ với mức giá vài nghìn lệnh gọi API. Các cuộc tấn công khai thác và đánh cắp mô hình thuộc lớp xã hội và quản trị của AI, nơi chính sách, trách nhiệm giải trình và niềm tin của công chúng định hình tác động lâu dài. Để xây dựng sự hiểu biết sâu sắc, hãy coi các cuộc tấn công trích xuất và đánh cắp mô hình như một mô hình hoạt động chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể làm một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng các cuộc tấn công Khai thác mô hình và Đánh cắp mô hình sẽ kết hợp sự tăng trưởng năng lực với cơ cấu quản trị, an toàn và trách nhiệm giải trình rõ ràng. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Các quyết định của xã hội quyết định ai được lợi và ai chịu rủi ro. Đồng thời, các tuyên bố của Broad có thể lan truyền nhanh hơn bằng chứng và sự giám sát có trách nhiệm. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Các quyết định của xã hội quyết định ai được lợi và ai chịu rủi ro.

Các quyết định của xã hội quyết định ai được lợi và ai chịu rủi ro. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các tổ chức công, trường học và doanh nghiệp đều dựa vào quản trị AI rõ ràng.

Các tổ chức công, trường học và doanh nghiệp đều dựa vào quản trị AI rõ ràng. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Thiết kế chính sách tốt có thể cải thiện sự an toàn mà không cản trở sự đổi mới hữu ích.

Thiết kế chính sách tốt có thể cải thiện sự an toàn mà không cản trở sự đổi mới hữu ích. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của các cuộc tấn công khai thác và đánh cắp mô hình

Các biện pháp phòng vệ đang chuyển từ chặn sang phát hiện và suy giảm: giới hạn tốc độ, trả về kết quả đầu ra được làm tròn hoặc chỉ trên 1, thêm nhiễu đã hiệu chỉnh, hoạt động của mô hình hình mờ để các bản sao bị đánh cắp có thể được lấy dấu vân tay và giám sát các mẫu truy vấn để tìm chữ ký trích xuất. Mong đợi các điều khoản về quy định và cấp phép coi việc trích xuất là hành vi trộm cắp, cộng với nghiên cứu tích cực về các kiến ​​trúc được chứng minh là khó trích xuất. Khi các mô hình ngày càng lớn hơn, việc chiết xuất toàn bộ vẫn tốn kém, nhưng việc chiết xuất một phần các thành phần có giá trị và nhân bản theo kiểu chưng cất sẽ vẫn là mối đe dọa an ninh và thương mại dai dẳng.

Triển khai trong thế giới thực

Một công ty khởi nghiệp truy vấn API nhận dạng hình ảnh phải trả phí của đối thủ cạnh tranh hàng nghìn lần và đào tạo một bản sao miễn phí sao chép độ chính xác của nó.

Các nhà nghiên cứu bảo mật trích xuất lớp nhúng-chiếu cuối cùng của mô hình ngôn ngữ sản xuất bằng cách sử dụng các truy vấn API được chế tạo cẩn thận với chi phí chỉ vài trăm đô la.

Kẻ tấn công sao chép cục bộ bộ phân loại thư rác hoặc gian lận để chúng có thể thăm dò nó ngoại tuyến và tạo ra các dữ liệu đầu vào có khả năng tránh bị phát hiện một cách đáng tin cậy.

Nhà cung cấp đám mây bổ sung tính năng giám sát tốc độ truy vấn để gắn cờ tài khoản có mẫu truy cập phù hợp với quá trình trích xuất học tập tích cực và điều chỉnh phản hồi của tài khoản đó.

Các mẫu triển khai

Các cuộc tấn công khai thác và đánh cắp mô hình trong thực tế

Một công ty khởi nghiệp truy vấn API nhận dạng hình ảnh phải trả phí của đối thủ cạnh tranh hàng nghìn lần và đào tạo một bản sao miễn phí sao chép độ chính xác của nó.

Một công ty khởi nghiệp truy vấn API nhận dạng hình ảnh phải trả phí của đối thủ cạnh tranh hàng nghìn lần và đào tạo một bản sao miễn phí sao chép độ chính xác của nó. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Các cuộc tấn công khai thác và đánh cắp mô hình trong thực tế

Các nhà nghiên cứu bảo mật trích xuất lớp nhúng-chiếu cuối cùng của mô hình ngôn ngữ sản xuất bằng cách sử dụng các truy vấn API được chế tạo cẩn thận với chi phí chỉ vài trăm đô la.

Các nhà nghiên cứu bảo mật trích xuất lớp chiếu nhúng cuối cùng của mô hình ngôn ngữ sản xuất bằng cách sử dụng các truy vấn API được chế tạo cẩn thận với chi phí chỉ vài trăm đô la. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Các cuộc tấn công khai thác và đánh cắp mô hình trong thực tế

Kẻ tấn công sao chép cục bộ bộ phân loại thư rác hoặc gian lận để chúng có thể thăm dò nó ngoại tuyến và tạo ra các dữ liệu đầu vào có khả năng tránh bị phát hiện một cách đáng tin cậy.

Kẻ tấn công sao chép cục bộ một trình phân loại thư rác hoặc gian lận để chúng có thể thăm dò nó ngoại tuyến và tạo ra các dữ liệu đầu vào có khả năng tránh bị phát hiện một cách đáng tin cậy. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Các cuộc tấn công khai thác và đánh cắp mô hình trong thực tế

Nhà cung cấp đám mây bổ sung tính năng giám sát tốc độ truy vấn để gắn cờ tài khoản có mẫu truy cập phù hợp với quá trình trích xuất học tập tích cực và điều chỉnh phản hồi của tài khoản đó.

Nhà cung cấp đám mây bổ sung tính năng giám sát tốc độ truy vấn để gắn cờ tài khoản có mẫu truy cập phù hợp với quá trình trích xuất học tập tích cực và điều chỉnh phản hồi của tài khoản đó. Các nhóm thường nhận được kết quả tốt hơn khi xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Những tuyên bố rộng rãi có thể lan truyền nhanh hơn bằng chứng và sự giám sát có trách nhiệm.

!

Quản trị yếu kém có thể để lại lỗ hổng về trách nhiệm giải trình khi tác hại xảy ra.

!

Quyền lực có thể tập trung khi khả năng tiếp cận, tính minh bạch và sự giám sát bị hạn chế.

Lộ trình thực hiện

1

Xác định các bên liên quan bị ảnh hưởng và những tác hại quan trọng nhất.

Xác định các bên liên quan bị ảnh hưởng và những tác hại quan trọng nhất. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Đặt yêu cầu về tính minh bạch cho dữ liệu, mô hình và quyết định.

Đặt yêu cầu về tính minh bạch cho dữ liệu, mô hình và quyết định. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Thêm đánh giá độc lập hoặc thử nghiệm của nhóm đỏ cho các hệ thống có rủi ro cao.

Thêm đánh giá độc lập hoặc thử nghiệm của nhóm đỏ cho các hệ thống có rủi ro cao. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Cập nhật chính sách và biện pháp kiểm soát khi khả năng và cách sử dụng phát triển.

Cập nhật chính sách và biện pháp kiểm soát khi khả năng và cách sử dụng phát triển. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá