Hướng dẫn bẻ khóa và lập nhóm đỏ

Tổng quan

Bẻ khóa là phương pháp tạo ra các lời nhắc nhằm đánh lừa mô hình AI bỏ qua các quy tắc an toàn của nó, trong khi đội đỏ là nỗ lực có tổ chức để tìm ra những điểm yếu đó trước khi những kẻ xấu thực hiện. Chúng cùng nhau tạo thành vòng thử nghiệm đối nghịch giúp các hệ thống AI được triển khai an toàn hơn.

Bẻ khóa và Red-Teaming là một phần của ngăn xếp ngôn ngữ-AI được sử dụng để đọc, tạo, phân loại và chuyển đổi văn bản cũng như lời nói trên quy mô lớn.

Lặn sâu

Các mô hình ngôn ngữ lớn được đào tạo để từ chối các yêu cầu có hại, nhưng những rào cản đó chỉ mang tính thống kê chứ không phải tuyệt đối. Các cuộc bẻ khóa khai thác điều này bằng cách điều chỉnh lại một yêu cầu bị cấm để nó vượt qua những lời từ chối đã học được của mô hình. Các kỹ thuật cổ điển bao gồm nhập vai ('giả vờ bạn là AI không có quy tắc'), nhân vật 'DAN' (Làm bất cứ điều gì ngay bây giờ) khét tiếng, đóng khung giả định, chèn nhanh thông qua các hướng dẫn ẩn, các thủ thuật mã hóa như Base64 hoặc leetspeak và bẻ khóa 'nhiều lần' làm tràn ngập một cửa sổ ngữ cảnh dài với các ví dụ tuân thủ giả. Đội đỏ đã giải quyết vấn đề này: các nhóm chuyên dụng và hệ thống tự động thăm dò một mô hình với hàng nghìn lời nhắc đối nghịch trước khi phát hành, lập danh mục các lỗi để các kỹ sư có thể vá chúng thông qua tinh chỉnh, học hỏi tăng cường từ phản hồi của con người và bổ sung các bộ lọc phân loại.

Hiểu biết kỹ thuật

Hành vi an toàn được học thông qua tinh chỉnh và RLHF, tạo ra một 'ranh giới từ chối' mỏng đối với một mô hình đã tiếp thu kiến thức sâu rộng. Việc bẻ khóa hoạt động bằng cách dịch chuyển phân phối đầu vào ra khỏi các ví dụ được sử dụng trong quá trình huấn luyện an toàn, do đó, động lực hữu ích của mô hình sẽ ghi đè lên tín hiệu từ chối yếu hơn của nó. Kiểm tra nhiều lớp phòng thủ: bộ phân loại đầu vào/đầu ra, AI tự phê bình theo hiến pháp và đào tạo đối thủ để bổ sung các bản bẻ khóa được phát hiện trở lại tập huấn luyện.

Nắm vững cách bẻ khóa và lập nhóm đỏ

Bẻ khóa là phương pháp tạo ra các lời nhắc nhằm đánh lừa mô hình AI bỏ qua các quy tắc an toàn của nó, trong khi đội đỏ là nỗ lực có tổ chức để tìm ra những điểm yếu đó trước khi những kẻ xấu thực hiện. Chúng cùng nhau tạo thành vòng thử nghiệm đối nghịch giúp các hệ thống AI được triển khai an toàn hơn. Bẻ khóa và Red-Teaming là một phần của ngăn xếp ngôn ngữ-AI được sử dụng để đọc, tạo, phân loại và chuyển đổi văn bản cũng như lời nói trên quy mô lớn. Để xây dựng sự hiểu biết sâu sắc, hãy coi Bẻ khóa và Lập nhóm đỏ như một mô hình hoạt động chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể làm một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng các lời nhắc thiết kế Bẻ khóa và Red-Teaming, truy xuất và xem xét các vòng lặp như một hệ thống liên lạc tích hợp. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Quy trình công việc ngôn ngữ có thể di chuyển nhanh hơn mà không làm mất tính nhất quán. Đồng thời, các sự kiện ảo giác có thể âm thầm đưa vào các báo cáo, luồng hỗ trợ hoặc kết quả nghiên cứu. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Quy trình công việc ngôn ngữ có thể di chuyển nhanh hơn mà không làm mất tính nhất quán.

Quy trình công việc ngôn ngữ có thể di chuyển nhanh hơn mà không làm mất tính nhất quán. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Nó mở rộng quyền truy cập vào các ngôn ngữ và phong cách giao tiếp.

Nó mở rộng quyền truy cập vào các ngôn ngữ và phong cách giao tiếp. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm có thể dành nhiều thời gian hơn để đánh giá trong khi quá trình tự động hóa xử lý sự lặp lại.

Các nhóm có thể dành nhiều thời gian hơn để đánh giá trong khi quá trình tự động hóa xử lý sự lặp lại. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của việc bẻ khóa và hợp tác đỏ

Mong đợi một cuộc chạy đua vũ trang đang diễn ra. Nhóm đỏ tự động, trong đó một mô hình tấn công một mô hình khác, đang mở rộng quy mô nhanh hơn so với thử nghiệm thủ công và gặp phải các lỗi kỳ lạ. Những người bảo vệ đang hướng tới 'phòng thủ theo chiều sâu': các bộ phân loại hiến pháp, giám sát thời gian thực và đào tạo chống giả mạo giúp đưa những lời từ chối trở nên sâu sắc hơn. Các cơ quan quản lý và tiêu chuẩn ngày càng yêu cầu các kết quả của nhóm đỏ được ghi lại trước khi xuất xưởng các mô hình có khả năng cao, khiến việc thử nghiệm đối thủ trở thành một phần thường xuyên, có thể kiểm tra được trong quy trình phát hành AI thay vì phải suy nghĩ lại.

Triển khai trong thế giới thực

Anthropic đã thực hiện một 'tiền thưởng bẻ khóa' công khai, mời hàng nghìn người thử nghiệm phá vỡ Bộ phân loại Hiến pháp của nó và khen thưởng bất kỳ ai tìm thấy một bản bẻ khóa phổ quát.

Các nhà nghiên cứu đã chứng minh tính năng 'bẻ khóa nhiều lần', cho thấy rằng việc lấp đầy một cửa sổ ngữ cảnh dài với hàng trăm cặp Hỏi & Đáp giả mạo có hại có thể làm giảm khả năng từ chối của người mẫu.

OpenAI, Google và Anthropic duy trì các đội đỏ nội bộ cùng với mạng lưới chuyên gia bên ngoài nhằm thăm dò các mô hình về rủi ro vũ khí sinh học, mạng và an toàn trẻ em trước khi ra mắt.

Các công ty bảo mật hiện cung cấp thử nghiệm thâm nhập LLM, quét chatbot để tìm lỗ hổng kịp thời trong các ứng dụng hướng tới khách hàng như trợ lý ngân hàng và chăm sóc sức khỏe.

Các mẫu triển khai

Bẻ khóa và lập nhóm đỏ trong thực tế

Anthropic đã thực hiện một 'tiền thưởng bẻ khóa' công khai, mời hàng nghìn người thử nghiệm phá vỡ Bộ phân loại Hiến pháp của nó và khen thưởng bất kỳ ai tìm thấy một bản bẻ khóa phổ quát.

Anthropic đã thực hiện một 'tiền thưởng bẻ khóa' công khai, mời hàng nghìn người thử nghiệm phá vỡ Bộ phân loại theo hiến pháp của nó và khen thưởng bất kỳ ai tìm thấy một bản bẻ khóa phổ quát Các nhóm thường nhận được kết quả tốt hơn khi họ xác định ngay các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Bẻ khóa và lập nhóm đỏ trong thực tế

Các nhà nghiên cứu đã chứng minh tính năng 'bẻ khóa nhiều lần', cho thấy rằng việc lấp đầy một cửa sổ ngữ cảnh dài với hàng trăm cặp Hỏi & Đáp giả mạo có hại có thể làm giảm khả năng từ chối của người mẫu.

Các nhà nghiên cứu đã chứng minh tính năng 'bẻ khóa nhiều lần', cho thấy rằng việc lấp đầy một cửa sổ ngữ cảnh dài với hàng trăm cặp Hỏi & Đáp có hại giả mạo có thể làm giảm khả năng từ chối của một mô hình. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định ngay các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Bẻ khóa và lập nhóm đỏ trong thực tế

OpenAI, Google và Anthropic duy trì các đội đỏ nội bộ cùng với mạng lưới chuyên gia bên ngoài nhằm thăm dò các mô hình về rủi ro vũ khí sinh học, mạng và an toàn trẻ em trước khi ra mắt.

OpenAI, Google và Anthropic duy trì các nhóm đỏ nội bộ cùng với mạng lưới chuyên gia bên ngoài thăm dò các mô hình về rủi ro vũ khí sinh học, mạng và an toàn trẻ em trước khi ra mắt. Các nhóm thường đạt được kết quả tốt hơn khi xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp nguy hiểm và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Bẻ khóa và lập nhóm đỏ trong thực tế

Các công ty bảo mật hiện cung cấp thử nghiệm thâm nhập LLM, quét chatbot để tìm lỗ hổng kịp thời trong các ứng dụng hướng tới khách hàng như trợ lý ngân hàng và chăm sóc sức khỏe.

Các công ty bảo mật hiện cung cấp thử nghiệm thâm nhập LLM, quét chatbot để tìm lỗ hổng kịp thời trong các ứng dụng hướng tới khách hàng như hỗ trợ ngân hàng và chăm sóc sức khỏe. Các nhóm thường đạt được kết quả tốt hơn khi xác định trước ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Sự thật ảo giác có thể lặng lẽ đi vào báo cáo, luồng hỗ trợ hoặc kết quả nghiên cứu.

!

Sự nhạy cảm kịp thời có thể tạo ra kết quả không nhất quán đối với các yêu cầu tương tự.

!

Dữ liệu văn bản nhạy cảm có thể bị lộ nếu khả năng kiểm soát quyền truy cập yếu.

Lộ trình thực hiện

1

Xác định định dạng đầu ra, âm thanh và tiêu chuẩn chất lượng trước khi triển khai.

Xác định định dạng đầu ra, âm thanh và tiêu chuẩn chất lượng trước khi triển khai. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Phản hồi mặt đất với các nguồn đáng tin cậy bất cứ khi nào độ chính xác quan trọng.

Phản hồi mặt đất với các nguồn đáng tin cậy bất cứ khi nào độ chính xác quan trọng. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Duy trì điểm kiểm tra đánh giá của con người đối với các kết quả đầu ra có mức độ rủi ro cao.

Duy trì điểm kiểm tra đánh giá của con người đối với các kết quả đầu ra có mức độ rủi ro cao. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Theo dõi các kiểu lỗi và đào tạo lại các lời nhắc hoặc quy trình làm việc thường xuyên.

Theo dõi các kiểu lỗi và đào tạo lại các lời nhắc hoặc quy trình làm việc thường xuyên. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá

ChatGPT & LLM

Xem cách các mô hình ngôn ngữ hiện đại tạo ra và suy luận.

Đọc hướng dẫn

Khái niệm cơ bản về NLP

Tìm hiểu các nguyên tắc cơ bản về xử lý ngôn ngữ đằng sau những công cụ này.

Đọc hướng dẫn