HƯỚNG DẪN ứng dụng

Đại lý con người trong vòng lặp

Tác nhân con người trong vòng lặp (HITL) là các hệ thống AI tạm dừng để nhận được sự chấp thuận, chỉnh sửa hoặc thông tin đầu vào của một người trước khi thực hiện các hành động tiếp theo.

Tổng quan

Tác nhân con người trong vòng lặp (HITL) là các hệ thống AI tạm dừng để nhận được sự chấp thuận, chỉnh sửa hoặc thông tin đầu vào của một người trước khi thực hiện các hành động tiếp theo. Họ buộc con người phải chịu trách nhiệm về những quyết định mang tính rủi ro cao trong khi vẫn để tự động hóa thực hiện những công việc nặng nhọc.

Đại lý con người trong vòng lặp tập trung vào việc triển khai thực tế: biến khả năng của mô hình thành quy trình công việc hàng ngày đáng tin cậy mang lại giá trị có thể đo lường được.

Lặn sâu

Một tác nhân hoàn toàn tự chủ quyết định và hành động theo cách riêng của mình; một tác nhân trong vòng lặp chèn một điểm kiểm tra trong đó một người xem xét hành động được đề xuất của tác nhân trước khi nó thực thi. Các mô hình phổ biến bao gồm cổng phê duyệt (nhân viên soạn thảo email hoặc tiền hoàn lại và chờ nhấp chuột để gửi), leo thang dựa trên độ tin cậy (nó chỉ làm gián đoạn con người khi độ chắc chắn của nó giảm xuống dưới ngưỡng) và học tập tích cực (các trường hợp không chắc chắn được chuyển đến mọi người, những câu trả lời của họ sẽ trở thành dữ liệu đào tạo trong tương lai). Mục tiêu là kết hợp tốc độ và quy mô tự động hóa với khả năng phán đoán, trách nhiệm giải trình và khả năng phát hiện lỗi của con người trước khi chúng gây hại. Đối với một tổ chức phi lợi nhuận, điều này có thể có nghĩa là một đại diện soạn thảo các phản hồi cấp phép nhưng không bao giờ gửi một phản hồi không liên kết với sự phê duyệt của nhân viên.

Hiểu biết kỹ thuật

Về mặt kỹ thuật, HITL được triển khai như một cổng ngắt hoặc cổng gọi công cụ trong vòng điều khiển của tác nhân. Khi tác nhân đề xuất một hành động nhạy cảm, người điều phối sẽ tạm dừng việc thực thi, sắp xếp theo thứ tự trạng thái của tác nhân và đưa ra yêu cầu để con người xem xét. Một người phê duyệt, chỉnh sửa hoặc từ chối; phản hồi đó được phản hồi lại dưới dạng ngữ cảnh và vòng lặp tiếp tục. Điểm tin cậy, ước tính độ không chắc chắn hoặc quy tắc chính sách sẽ quyết định hành động nào sẽ kích hoạt tạm dừng so với hành động chạy tự động.

Làm chủ các tác nhân trong vòng lặp

Tác nhân con người trong vòng lặp (HITL) là các hệ thống AI tạm dừng để nhận được sự chấp thuận, chỉnh sửa hoặc thông tin đầu vào của một người trước khi thực hiện các hành động tiếp theo. Họ buộc con người phải chịu trách nhiệm về những quyết định mang tính rủi ro cao trong khi vẫn để tự động hóa thực hiện những công việc nặng nhọc. Đại lý con người trong vòng lặp tập trung vào việc triển khai thực tế: biến khả năng của mô hình thành quy trình công việc hàng ngày đáng tin cậy mang lại giá trị có thể đo lường được. Để xây dựng sự hiểu biết sâu sắc, hãy coi Đại lý con người trong vòng lặp như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Tác nhân con người trong vòng lặp tập trung vào kết quả của quy trình làm việc chứ không phải các bản trình diễn mô hình và xác định sớm các điểm kiểm tra của con người. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Thiết kế cấp ứng dụng xác định liệu AI có cải thiện kết quả thực tế hay không. Đồng thời, Tự động hóa một quy trình bị hỏng có thể khuếch đại các vấn đề hiện có. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Thiết kế cấp ứng dụng xác định liệu AI có cải thiện kết quả thực tế hay không.

Thiết kế cấp ứng dụng xác định liệu AI có cải thiện kết quả thực tế hay không. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tích hợp quy trình làm việc tốt sẽ giúp tăng năng suất mà người dùng có thể tin tưởng.

Tích hợp quy trình làm việc tốt sẽ giúp tăng năng suất mà người dùng có thể tin tưởng. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các trường hợp sử dụng có phạm vi phù hợp giúp giảm bớt sự mệt mỏi khi thay đổi và rủi ro triển khai.

Các trường hợp sử dụng có phạm vi phù hợp giúp giảm bớt sự mệt mỏi khi thay đổi và rủi ro triển khai. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của các đại lý con người trong vòng lặp

Mong đợi sự kiểm soát nhiều sắc thái hơn so với phê duyệt/từ chối nhị phân. Các đại lý sẽ ngày càng đặt ra những câu hỏi làm rõ, đưa ra một số lựa chọn có sự đánh đổi và tìm hiểu khả năng chấp nhận rủi ro của từng người dùng để họ ít bị gián đoạn hơn theo thời gian. Các quy định như Đạo luật AI của EU thúc đẩy sự giám sát của con người đối với các mục đích sử dụng có rủi ro cao, vì vậy các điểm kiểm tra HITL đang trở thành một yêu cầu tuân thủ chứ không chỉ là một lựa chọn thiết kế. Công cụ phê duyệt không đồng bộ, quy trình kiểm tra và trạng thái tác nhân 'tạm dừng và tiếp tục' đang hoàn thiện nhanh chóng.

Triển khai trong thế giới thực

Nhân viên hỗ trợ khách hàng soạn thảo các phê duyệt hoàn tiền nhưng gửi bất kỳ khoản hoàn trả nào trên 500 USD cho người quản lý con người để đăng xuất chỉ bằng một cú nhấp chuột.

AI mã hóa y tế gắn cờ chẩn đoán mơ hồ để lập trình viên được chứng nhận xác nhận thay vì đoán.

Hệ thống kiểm duyệt nội dung tự động loại bỏ thư rác rõ ràng nhưng chuyển các bài đăng gần ranh giới vi phạm chính sách đến người đánh giá.

Tác nhân mã hóa đề xuất di chuyển cơ sở dữ liệu và chờ nhà phát triển phê duyệt trước khi chạy nó trong sản xuất.

Các mẫu triển khai

Đại lý con người trong vòng lặp trong thực tế

Nhân viên hỗ trợ khách hàng soạn thảo các phê duyệt hoàn tiền nhưng gửi bất kỳ khoản hoàn trả nào trên 500 USD cho người quản lý con người để đăng xuất chỉ bằng một cú nhấp chuột.

Nhân viên hỗ trợ khách hàng soạn thảo các phê duyệt hoàn tiền nhưng gửi bất kỳ khoản hoàn trả nào trên 500 USD đến người quản lý con người để đăng xuất chỉ bằng một cú nhấp chuột. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Đại lý con người trong vòng lặp trong thực tế

AI mã hóa y tế gắn cờ chẩn đoán mơ hồ để lập trình viên được chứng nhận xác nhận thay vì đoán.

AI mã hóa y tế gắn cờ các chẩn đoán mơ hồ để lập trình viên được chứng nhận xác nhận thay vì đoán. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Đại lý con người trong vòng lặp trong thực tế

Hệ thống kiểm duyệt nội dung tự động loại bỏ thư rác rõ ràng nhưng chuyển các bài đăng gần ranh giới vi phạm chính sách đến người đánh giá.

Hệ thống kiểm duyệt nội dung tự động loại bỏ thư rác rõ ràng nhưng chuyển các bài đăng gần ranh giới tới người đánh giá. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Đại lý con người trong vòng lặp trong thực tế

Tác nhân mã hóa đề xuất di chuyển cơ sở dữ liệu và chờ nhà phát triển phê duyệt trước khi chạy nó trong sản xuất.

Tác nhân mã hóa đề xuất di chuyển cơ sở dữ liệu và chờ nhà phát triển phê duyệt trước khi chạy nó trong sản xuất. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Tự động hóa một quy trình bị hỏng có thể khuếch đại các vấn đề hiện có.

!

Các nhóm có thể tự động hóa quá mức và loại bỏ sự phán xét cần thiết của con người.

!

Chất lượng có thể thay đổi nếu kết quả đầu ra không được đánh giá liên tục.

Lộ trình thực hiện

1

Lập sơ đồ quy trình làm việc hiện tại và xác định bước có mức độ ma sát cao nhất.

Lập sơ đồ quy trình làm việc hiện tại và xác định bước có mức độ ma sát cao nhất. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Xác định các điểm kiểm tra của con người trước khi tự động hóa hoàn toàn.

Xác định các điểm kiểm tra của con người trước khi tự động hóa hoàn toàn. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Đào tạo người dùng về lời nhắc, đường dẫn leo thang và tiêu chuẩn chất lượng.

Đào tạo người dùng về lời nhắc, đường dẫn leo thang và tiêu chuẩn chất lượng. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Theo dõi kết quả ở cấp độ nhiệm vụ để xác nhận giá trị bền vững.

Theo dõi kết quả ở cấp độ nhiệm vụ để xác nhận giá trị bền vững. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá