Tổng quan
Voyager là một tác nhân được hỗ trợ bởi LLM năm 2023, chơi Minecraft một cách tự động, liên tục học hỏi bằng cách viết các kỹ năng mã có thể tái sử dụng và lưu trữ chúng trong một thư viện đang phát triển. Nó cho thấy rằng một tác nhân có thể thực hiện việc học tập mở, suốt đời mà không cần bất kỳ cập nhật độ dốc nào, chỉ bằng cách tích lũy và tái sử dụng các chương trình.
Voyager và Skill-Library Agents là một khối xây dựng kỹ thuật ảnh hưởng đến chất lượng mô hình, chi phí cơ sở hạ tầng, độ trễ và độ tin cậy trên quy mô lớn.
Lặn sâu
Được xây dựng bởi NVIDIA, Caltech và các cộng tác viên (Wang và cộng sự), Voyager sử dụng GPT-4 làm bộ não và xử lý các kỹ năng dưới dạng mã JavaScript thực thi điều khiển bot Minecraft. Nó chạy ba thành phần tương tác: một chương trình giảng dạy tự động đề xuất các mục tiêu ngày càng khó khăn để tối đa hóa khả năng khám phá, một cơ chế nhắc nhở lặp đi lặp lại viết mã, chạy mã trong trò chơi, đọc lỗi và phản hồi môi trường cũng như tự sửa lỗi cho đến khi kỹ năng hoạt động và thư viện kỹ năng trong đó mỗi kỹ năng đã được xác minh được lưu trữ và lập chỉ mục bằng cách nhúng mô tả bằng ngôn ngữ tự nhiên. Bởi vì các kỹ năng mới được hình thành từ những kỹ năng đã được lưu trữ trước đó nên khả năng sẽ tăng dần theo thời gian. Du hành thu được nhiều vật phẩm độc đáo hơn, di chuyển quãng đường dài hơn và mở khóa các cột mốc của cây công nghệ nhanh hơn nhiều so với các đặc vụ trước đó và các kỹ năng học được của nó được chuyển sang thế giới mới.
Hiểu biết kỹ thuật
Du hành học trong bối cảnh chứ không phải bằng cách thay đổi trọng số mô hình. Kỹ năng là một đoạn mã đã được xác minh; nó được lưu bằng cách nhúng mô tả của nó để khi một nhiệm vụ mới phát sinh, các kỹ năng liên quan đến ngữ nghĩa sẽ được truy xuất và cung cấp dưới dạng các khối xây dựng. Vòng lặp tự cải tiến là: tạo mã, thực thi, quan sát lỗi và trạng thái trò chơi, yêu cầu mô hình sửa lỗi, lặp lại. Điều này biến việc thử và sai thành các chương trình bền bỉ, có thể kết hợp được thay vì lập luận phù du.
Làm chủ Du hành và Thư viện Kỹ năng
Voyager là một tác nhân được hỗ trợ bởi LLM năm 2023, chơi Minecraft một cách tự động, liên tục học hỏi bằng cách viết các kỹ năng mã có thể tái sử dụng và lưu trữ chúng trong một thư viện đang phát triển. Nó cho thấy rằng một tác nhân có thể thực hiện việc học tập mở, suốt đời mà không cần bất kỳ cập nhật độ dốc nào, chỉ bằng cách tích lũy và tái sử dụng các chương trình. Voyager và Skill-Library Agents là một khối xây dựng kỹ thuật ảnh hưởng đến chất lượng mô hình, chi phí cơ sở hạ tầng, độ trễ và độ tin cậy trên quy mô lớn. Để xây dựng sự hiểu biết sâu sắc, hãy coi Du hành và Đại lý Thư viện Kỹ năng như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể làm một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.
Trong thực tế, các nhóm mạnh sử dụng Voyager và Skill-Library Agent sẽ tối ưu hóa các lựa chọn về kiến trúc, dữ liệu và cơ sở hạ tầng theo độ tin cậy và chi phí. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.
Các quyết định về kiến trúc sẽ thúc đẩy hiệu suất và chi phí vận hành trong nhiều năm. Đồng thời, Tối ưu hóa một điểm chuẩn có thể che giấu những điểm yếu lớn hơn của hệ thống. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.
Tác động chiến lược
Các quyết định về kiến trúc sẽ thúc đẩy hiệu suất và chi phí vận hành trong nhiều năm.
Các quyết định về kiến trúc sẽ thúc đẩy hiệu suất và chi phí vận hành trong nhiều năm. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.
Giáo dục kỹ thuật giúp các nhóm chọn nhóm phù hợp chứ không chỉ nhóm mới nhất.
Giáo dục kỹ thuật giúp các nhóm chọn nhóm phù hợp chứ không chỉ nhóm mới nhất. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.
Lựa chọn kỹ thuật tốt hơn làm giảm sự cố về độ tin cậy trong sản xuất.
Lựa chọn kỹ thuật tốt hơn làm giảm sự cố về độ tin cậy trong sản xuất. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.
Triển khai trong thế giới thực
Tự động phát triển thông qua cây công nghệ của Minecraft (các công cụ từ gỗ đến đá, sắt đến kim cương) bằng cách tổng hợp các kỹ năng đã học.
Viết và tự sửa lỗi kỹ năng mã 'khai thác và chế tạo', sau đó sử dụng lại nó bất cứ khi nào nhiệm vụ phụ đó tái diễn.
Lấy lại kỹ năng 'chiến đấu với zombie' đã được lưu trữ trước đó thông qua việc nhúng mô tả của nó khi mối đe dọa tương tự xuất hiện.
Chuyển thư viện kỹ năng đã học sang thế giới Minecraft mới được tạo để khởi động các nhiệm vụ mới nhanh hơn.
Các mẫu triển khai
Nhà du hành và Thư viện kỹ năng trong thực tế
Tự động phát triển thông qua cây công nghệ của Minecraft (các công cụ từ gỗ đến đá, sắt đến kim cương) bằng cách tổng hợp các kỹ năng đã học.
Phát triển tự động thông qua cây công nghệ của Minecraft (các công cụ từ gỗ đến đá, từ sắt đến kim cương) bằng cách kết hợp các kỹ năng đã học Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.
Nhà du hành và Thư viện kỹ năng trong thực tế
Viết và tự sửa lỗi kỹ năng mã 'khai thác và chế tạo', sau đó sử dụng lại nó bất cứ khi nào nhiệm vụ phụ đó tái diễn.
Viết và tự gỡ lỗi kỹ năng mã 'khai thác và chế tạo', sau đó sử dụng lại nó bất cứ khi nào nhiệm vụ phụ đó tái diễn. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.
Nhà du hành và Thư viện kỹ năng trong thực tế
Lấy lại kỹ năng 'chiến đấu với zombie' đã được lưu trữ trước đó thông qua việc nhúng mô tả của nó khi mối đe dọa tương tự xuất hiện.
Truy xuất kỹ năng 'chiến đấu với thây ma' được lưu trữ trước đó thông qua tính năng nhúng mô tả khi xuất hiện mối đe dọa tương tự. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.
Nhà du hành và Thư viện kỹ năng trong thực tế
Chuyển thư viện kỹ năng đã học sang thế giới Minecraft mới được tạo để khởi động các nhiệm vụ mới nhanh hơn.
Chuyển thư viện kỹ năng đã học sang thế giới Minecraft mới được tạo để khởi động các nhiệm vụ mới nhanh hơn Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.
Rủi ro & lan can
Tối ưu hóa một điểm chuẩn có thể che giấu những điểm yếu của hệ thống rộng hơn.
Chi phí cơ sở hạ tầng và bảo trì thường được đánh giá thấp.
Khoảng cách về bảo mật và khả năng quan sát có thể tăng lên khi hệ thống trở nên phức tạp hơn.
Lộ trình thực hiện
Xác định các mục tiêu về độ trễ, chất lượng và chi phí trước khi triển khai.
Xác định các mục tiêu về độ trễ, chất lượng và chi phí trước khi triển khai. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.
Điểm chuẩn trong điều kiện tải và dữ liệu thực tế.
Điểm chuẩn trong điều kiện tải và dữ liệu thực tế. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.
Giám sát thiết bị về lỗi, độ lệch và tác động của người dùng.
Giám sát thiết bị về lỗi, độ lệch và tác động của người dùng. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.
Chuẩn bị đường dẫn khôi phục và ứng phó sự cố trước khi mở rộng quy mô.
Chuẩn bị đường dẫn khôi phục và ứng phó sự cố trước khi mở rộng quy mô. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.