Tổng quan
Các tác nhân sử dụng máy tính vận hành máy tính theo cách con người thực hiện: xem màn hình, di chuyển con trỏ, nhấp chuột và gõ. Điều này cho phép AI sử dụng bất kỳ phần mềm nào có giao diện đồ họa, ngay cả những ứng dụng không có API.
Tác nhân sử dụng máy tính tập trung vào triển khai thực tế: biến khả năng của mô hình thành quy trình công việc hàng ngày đáng tin cậy mang lại giá trị có thể đo lường được.
Lặn sâu
Tác nhân sử dụng máy tính (CUA) điều khiển máy tính để bàn thực hoặc ảo thông qua màn hình và thiết bị đầu vào thay vì thông qua API cấp mã. Mô hình nhận được ảnh chụp màn hình của màn hình, lý do về những gì nó nhìn thấy và đưa ra các hành động cấp thấp như 'nhấp vào tọa độ (412, 230)', 'nhập văn bản này' hoặc 'cuộn xuống'. Vòng lặp nhận thức-hành động này lặp lại: hành động, chụp ảnh màn hình mới, quyết định bước đi tiếp theo. Bởi vì nó hoạt động ở cấp độ pixel và tổ hợp phím, CUA có thể điều khiển trình duyệt web, điền vào biểu mẫu, điều hướng menu và sử dụng các ứng dụng cũ không có giao diện lập trình. Các ví dụ bao gồm việc sử dụng máy tính Claude của Anthropic và Toán tử của OpenAI. Sự đánh đổi là có thật: việc đọc màn hình có thể chậm, nhấp chuột có thể bị lỡ và việc trao quyền kiểm soát cho một tác nhân đối với máy sẽ làm tăng mối lo ngại về an toàn, vì vậy hầu hết đều chạy trong môi trường hộp cát hoặc được giám sát.
Hiểu biết kỹ thuật
Tác nhân được cung cấp một ảnh chụp màn hình cùng với nhiệm vụ và một mô hình có khả năng hiển thị căn cứ các phần tử (nút, trường) thành tọa độ pixel. Nó phát ra một hành động có cấu trúc mà lớp tự động hóa thực thi đối với hệ điều hành hoặc trình duyệt. Sau mỗi hành động, một ảnh chụp màn hình mới sẽ đóng vòng lặp để nhân viên hỗ trợ nhận thức được hậu quả trước khi hành động lại. Độ tin cậy phụ thuộc rất nhiều vào nền tảng trực quan chính xác và logic thử lại hoặc xác minh khi một cú nhấp chuột chạm vào phần tử sai.
Làm chủ các tác nhân sử dụng máy tính
Các tác nhân sử dụng máy tính vận hành máy tính theo cách con người thực hiện: xem màn hình, di chuyển con trỏ, nhấp chuột và gõ. Điều này cho phép AI sử dụng bất kỳ phần mềm nào có giao diện đồ họa, ngay cả những ứng dụng không có API. Tác nhân sử dụng máy tính tập trung vào triển khai thực tế: biến khả năng của mô hình thành quy trình công việc hàng ngày đáng tin cậy mang lại giá trị có thể đo lường được. Để xây dựng sự hiểu biết sâu sắc, hãy coi Tác nhân sử dụng máy tính như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.
Trong thực tế, các nhóm mạnh sử dụng Tác nhân sử dụng máy tính tập trung vào kết quả của quy trình làm việc chứ không phải các bản trình diễn mô hình và xác định sớm các điểm kiểm tra của con người. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.
Thiết kế cấp ứng dụng xác định liệu AI có cải thiện kết quả thực tế hay không. Đồng thời, Tự động hóa một quy trình bị hỏng có thể khuếch đại các vấn đề hiện có. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.
Tác động chiến lược
Thiết kế cấp ứng dụng xác định liệu AI có cải thiện kết quả thực tế hay không.
Thiết kế cấp ứng dụng xác định liệu AI có cải thiện kết quả thực tế hay không. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.
Tích hợp quy trình làm việc tốt sẽ giúp tăng năng suất mà người dùng có thể tin tưởng.
Tích hợp quy trình làm việc tốt sẽ giúp tăng năng suất mà người dùng có thể tin tưởng. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.
Các trường hợp sử dụng có phạm vi phù hợp giúp giảm bớt sự mệt mỏi khi thay đổi và rủi ro triển khai.
Các trường hợp sử dụng có phạm vi phù hợp giúp giảm bớt sự mệt mỏi khi thay đổi và rủi ro triển khai. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.
Triển khai trong thế giới thực
Một đại lý đặt chỗ nhà hàng bằng cách mở trình duyệt, điều hướng trang web đặt chỗ, chọn thời gian và nhập chi tiết liên hệ.
Tự động hóa báo cáo chi phí bằng cách đọc biên lai trên màn hình và nhập giá trị vào ứng dụng kế toán trên máy tính để bàn không có API.
Kiểm tra QA trong đó nhân viên nhấp qua luồng đăng ký của ứng dụng web để xác nhận mọi nút và biểu mẫu đều hoạt động.
Điền vào các biểu mẫu web bảo hiểm hoặc chính phủ lặp đi lặp lại bằng cách đọc từng nhãn trường và nhập thông tin chính xác.
Các mẫu triển khai
Tác nhân sử dụng máy tính trong thực tế
Một đại lý đặt chỗ nhà hàng bằng cách mở trình duyệt, điều hướng trang web đặt chỗ, chọn thời gian và nhập chi tiết liên hệ.
Nhân viên đặt chỗ nhà hàng bằng cách mở trình duyệt, điều hướng trang web đặt chỗ, chọn thời gian và nhập chi tiết liên hệ Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.
Tác nhân sử dụng máy tính trong thực tế
Tự động hóa báo cáo chi phí bằng cách đọc biên lai trên màn hình và nhập giá trị vào ứng dụng kế toán trên máy tính để bàn không có API.
Tự động hóa báo cáo chi phí bằng cách đọc biên lai trên màn hình và nhập giá trị vào ứng dụng kế toán trên máy tính để bàn không có API. Nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.
Tác nhân sử dụng máy tính trong thực tế
Kiểm tra QA trong đó nhân viên nhấp qua luồng đăng ký của ứng dụng web để xác nhận mọi nút và biểu mẫu đều hoạt động.
Thử nghiệm QA trong đó nhân viên hỗ trợ nhấp qua luồng đăng ký của ứng dụng web để xác nhận mọi nút và biểu mẫu đều hoạt động. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.
Tác nhân sử dụng máy tính trong thực tế
Điền vào các biểu mẫu web bảo hiểm hoặc chính phủ lặp đi lặp lại bằng cách đọc từng nhãn trường và nhập thông tin chính xác.
Điền vào các biểu mẫu web bảo hiểm hoặc chính phủ lặp đi lặp lại bằng cách đọc từng nhãn trường và nhập thông tin chính xác Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.
Rủi ro & lan can
Tự động hóa một quy trình bị hỏng có thể khuếch đại các vấn đề hiện có.
Các nhóm có thể tự động hóa quá mức và loại bỏ sự phán xét cần thiết của con người.
Chất lượng có thể thay đổi nếu kết quả đầu ra không được đánh giá liên tục.
Lộ trình thực hiện
Lập sơ đồ quy trình làm việc hiện tại và xác định bước có mức độ ma sát cao nhất.
Lập sơ đồ quy trình làm việc hiện tại và xác định bước có mức độ ma sát cao nhất. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.
Xác định các điểm kiểm tra của con người trước khi tự động hóa hoàn toàn.
Xác định các điểm kiểm tra của con người trước khi tự động hóa hoàn toàn. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.
Đào tạo người dùng về lời nhắc, đường dẫn leo thang và tiêu chuẩn chất lượng.
Đào tạo người dùng về lời nhắc, đường dẫn leo thang và tiêu chuẩn chất lượng. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.
Theo dõi kết quả ở cấp độ nhiệm vụ để xác nhận giá trị bền vững.
Theo dõi kết quả ở cấp độ nhiệm vụ để xác nhận giá trị bền vững. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.