HƯỚNG DẪN công ty

Thấm nhuần các tác nhân lý luận

Imbue là tác nhân xây dựng phòng thí nghiệm AI có thể suy luận, viết mã và hành động đủ mạnh để được tin cậy thực hiện các nhiệm vụ thực tế.

Tổng quan

Imbue là tác nhân xây dựng phòng thí nghiệm AI có thể suy luận, viết mã và hành động đủ mạnh để được tin cậy thực hiện các nhiệm vụ thực tế. Điều này quan trọng vì độ tin cậy — không chỉ trí thông minh thô — là nút thắt cổ chai ngăn cản các tác nhân AI thực hiện công việc gồm nhiều bước hữu ích mà không có sự giám sát liên tục.

Imbue Reasoning Agent được hiểu rõ nhất trong bối cảnh chiến lược, quyền truy cập mô hình, quyết định nền tảng và quan hệ đối tác trong hệ sinh thái.

Lặn sâu

Imbue, trước đây gọi là General Intelligence, được lãnh đạo bởi Giám đốc điều hành Kanjun Qiu và huy động được hơn 200 triệu đô la vào năm 2023 với mức định giá khoảng một tỷ đô la, được hỗ trợ bởi các nhà đầu tư bao gồm Nvidia. Thay vì theo đuổi mô hình lớn nhất có thể, Imbue tập trung vào các đại lý có lý luận đáng tin cậy và có thể xác minh công việc của chính họ. Công ty nổi tiếng đã đào tạo một mô hình 70 tỷ tham số ngay từ đầu trên cụm máy tính của riêng mình và xuất bản các ghi chú kỹ thuật chi tiết bất thường về trải nghiệm. Nghiên cứu của nó nhấn mạnh đến lý luận, tính chắc chắn và các công cụ cho phép các đặc vụ kiểm tra xem hành động của họ có thực sự thành công hay không. Mục tiêu dài hạn là các tác nhân AI cá nhân mà mọi người có thể tin tưởng để xử lý các nhiệm vụ sau đó, với sự nhấn mạnh rõ ràng vào cơ quan người dùng và khả năng xác minh thay vì tự động hóa không rõ ràng.

Hiểu biết kỹ thuật

Imbue đặt cược rằng các tác nhân lý luận cần phải được kiểm chứng chứ không chỉ thông thạo. Điều đó có nghĩa là tạo ra các bước trung gian, thực thi lệnh gọi mã hoặc công cụ, quan sát kết quả thực và tự sửa khi một hành động không thành công — đóng vòng lặp thay vì tạo ra câu trả lời nghe có vẻ hợp lý trong một lần. Quá trình đào tạo 70B ngay từ đầu của họ một phần là về việc kiểm soát toàn bộ ngăn xếp để họ có thể tối ưu hóa cụ thể cho lý do cẩn thận, có thể kiểm tra được thay vì dựa vào mô hình nền tảng chung.

Làm chủ các tác nhân lý luận thấm nhuần

Imbue là tác nhân xây dựng phòng thí nghiệm AI có thể suy luận, viết mã và hành động đủ mạnh để được tin cậy thực hiện các nhiệm vụ thực tế. Điều này quan trọng vì độ tin cậy — không chỉ trí thông minh thô — là nút thắt cổ chai ngăn cản các tác nhân AI thực hiện công việc gồm nhiều bước hữu ích mà không có sự giám sát liên tục. Imbue Reasoning Agent được hiểu rõ nhất trong bối cảnh chiến lược, quyền truy cập mô hình, quyết định nền tảng và quan hệ đối tác trong hệ sinh thái. Để xây dựng sự hiểu biết sâu sắc, hãy coi Imbue Reasoning Agent như một mô hình hoạt động chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Imbue Reasoning Agent đánh giá chiến lược của nhà cung cấp, độ tin cậy của lộ trình và rủi ro bị khóa trước khi cam kết. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Lộ trình của nhà cung cấp ảnh hưởng đến những tính năng mà nhóm của bạn có thể xây dựng tiếp theo. Đồng thời, các thông báo Khởi động có thể vượt xa sự ổn định trong quy trình sản xuất thực tế. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Lộ trình của nhà cung cấp ảnh hưởng đến những tính năng mà nhóm của bạn có thể xây dựng tiếp theo.

Lộ trình của nhà cung cấp ảnh hưởng đến những tính năng mà nhóm của bạn có thể xây dựng tiếp theo. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các điều khoản thương mại và các lựa chọn triển khai ảnh hưởng đến chi phí và rủi ro dài hạn.

Các điều khoản thương mại và các lựa chọn triển khai ảnh hưởng đến chi phí và rủi ro dài hạn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các biện pháp khuyến khích của công ty định hình các tình trạng vỡ nợ của sản phẩm, trạng thái an toàn và tính cởi mở.

Các biện pháp khuyến khích của công ty định hình các tình trạng vỡ nợ của sản phẩm, trạng thái an toàn và tính cởi mở. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của các tác nhân lý luận thấm nhuần

Biên giới dành cho các tổng đài viên đang chuyển từ các câu trả lời một lần sang độ tin cậy lâu dài: các tổng đài viên lập kế hoạch, hành động qua nhiều bước, khắc phục lỗi và biết khi nào nên hỏi con người. Mong đợi sự chú trọng nhiều hơn đến việc xác minh, sử dụng công cụ hộp cát và tính minh bạch để người dùng có thể kiểm tra những gì đại lý đã làm. Nếu các phòng thí nghiệm như Imbue thành công, các đại lý cá nhân đáng tin cậy có thể xử lý các công việc nghiên cứu, mã hóa và hành chính, nhưng phần khó khăn vẫn là tránh những sai lầm tự tin trong các hành động dẫn đến hậu quả.

Triển khai trong thế giới thực

Một tác nhân viết mã, chạy bộ thử nghiệm, đọc các lỗi và sửa các lỗi của chính nó trước khi bàn giao lại công việc.

Trợ lý nghiên cứu chia một yêu cầu mơ hồ thành các câu hỏi phụ, thu thập bằng chứng và xác minh từng phát hiện thay vì đoán mò.

Người đại diện cá nhân soạn thảo và điều chỉnh một kế hoạch gồm nhiều bước phức tạp, đánh dấu những điểm chưa chắc chắn và cần có sự phê duyệt của con người.

Công cụ nội bộ cho phép tác nhân xác nhận xem mỗi hành động có thực sự thay đổi trạng thái hệ thống hay không, thay vì giả định thành công.

Các mẫu triển khai

Đưa tác nhân suy luận vào thực tế

Một tác nhân viết mã, chạy bộ thử nghiệm, đọc các lỗi và sửa các lỗi của chính nó trước khi bàn giao lại công việc.

Một tác nhân viết mã, chạy bộ kiểm tra, đọc lỗi và sửa lỗi của chính nó trước khi bàn giao lại công việc. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Đưa tác nhân suy luận vào thực tế

Trợ lý nghiên cứu chia một yêu cầu mơ hồ thành các câu hỏi phụ, thu thập bằng chứng và xác minh từng phát hiện thay vì đoán mò.

Trợ lý nghiên cứu chia một yêu cầu mơ hồ thành các câu hỏi phụ, thu thập bằng chứng và xác minh từng phát hiện thay vì đoán. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Đưa tác nhân suy luận vào thực tế

Người đại diện cá nhân soạn thảo và điều chỉnh một kế hoạch gồm nhiều bước phức tạp, đánh dấu những điểm chưa chắc chắn và cần có sự phê duyệt của con người.

Một nhân viên cá nhân soạn thảo và điều chỉnh một kế hoạch gồm nhiều bước phức tạp, đánh dấu những điểm chưa chắc chắn và cần có sự phê duyệt của con người. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Đưa tác nhân suy luận vào thực tế

Công cụ nội bộ cho phép tác nhân xác nhận xem mỗi hành động có thực sự thay đổi trạng thái hệ thống hay không, thay vì giả định thành công.

Công cụ nội bộ cho phép tổng đài viên xác nhận xem mỗi hành động có thực sự thay đổi trạng thái hệ thống hay không, thay vì giả định thành công. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Thông báo ra mắt có thể vượt xa sự ổn định trong quy trình sản xuất thực tế.

!

Việc định giá API hoặc thay đổi chính sách có thể phá vỡ các giả định chỉ sau một đêm.

!

Sự phụ thuộc vào một nhà cung cấp làm tăng chi phí khóa và di chuyển.

Lộ trình thực hiện

1

Đánh giá các nhà cung cấp bằng cách sử dụng các nhiệm vụ và bộ dữ liệu của riêng bạn.

Đánh giá các nhà cung cấp bằng cách sử dụng các nhiệm vụ và bộ dữ liệu của riêng bạn. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Xem lại các điều khoản về quyền riêng tư, bảo mật và pháp lý trước khi tích hợp.

Xem lại các điều khoản về quyền riêng tư, bảo mật và pháp lý trước khi tích hợp. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Duy trì kế hoạch dự phòng giữa các mô hình hoặc nhà cung cấp.

Duy trì kế hoạch dự phòng giữa các mô hình hoặc nhà cung cấp. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Theo dõi ghi chú phát hành để những thay đổi về lộ trình không gây ngạc nhiên cho các nhóm.

Theo dõi ghi chú phát hành để những thay đổi về lộ trình không gây ngạc nhiên cho các nhóm. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá