HƯỚNG DẪN KỸ THUẬT

Kubeflow và dàn nhạc đường ống ML

Kubeflow là một bộ công cụ nguồn mở chạy các quy trình học máy trên Kubernetes, biến việc đào tạo và triển khai mô hình thành các quy trình có thể tái tạo, được đóng gói trong container.

Tổng quan

Kubeflow là một bộ công cụ nguồn mở chạy các quy trình học máy trên Kubernetes, biến việc đào tạo và triển khai mô hình thành các quy trình có thể tái tạo, được đóng gói trong container. Điều này quan trọng vì nó cho phép các nhóm mở rộng quy mô ML giống như cách họ mở rộng phần mềm đám mây hiện đại.

Kubeflow và ML Pipeline Orchestration là một khối xây dựng kỹ thuật ảnh hưởng đến chất lượng mô hình, chi phí cơ sở hạ tầng, độ trễ và độ tin cậy trên quy mô lớn.

Lặn sâu

Kubeflow bắt đầu tại Google như một cách để chạy TensorFlow trên Kubernetes, sau đó phát triển thành một nền tảng rộng hơn. Ý tưởng cốt lõi của nó là mỗi bước của quy trình làm việc ML như chuẩn bị dữ liệu, đào tạo, đánh giá và phân phối sẽ chạy như một thành phần được chứa bên trong nhóm Kubernetes. Kubeflow Pipelines (KFP) cho phép bạn thể hiện các bước này dưới dạng biểu đồ chu kỳ có hướng (DAG): mỗi nút là một vùng chứa độc lập và các cạnh xác định các phần phụ thuộc dữ liệu. Vì Kubernetes xử lý việc lập lịch, mở rộng quy mô và phân bổ tài nguyên nên một quy trình có thể yêu cầu GPU để đào tạo và phát hành chúng sau đó. Các thành phần khác bao gồm Katib để điều chỉnh siêu tham số, KServe để phân phối mô hình và máy chủ sổ tay. Phần thưởng là khả năng tái tạo, tính di động trên các đám mây và khả năng mở rộng quy mô từng bước một cách độc lập.

Hiểu biết kỹ thuật

Quy trình Kubeflow biên dịch DSL Python thành thông số YAML của Argo Workflows. Mỗi thành phần trở thành một vùng chứa đọc đầu vào và ghi đầu ra dưới dạng tạo phẩm, được chuyển giữa các bước thông qua kho lưu trữ đối tượng dùng chung như MinIO hoặc S3. Kubernetes lên lịch cho từng nhóm, gắn tài nguyên GPU hoặc CPU theo yêu cầu của thành phần. Mặt phẳng điều khiển lưu trữ các đầu ra theo bước, do đó các bước không thay đổi sẽ bị bỏ qua khi chạy lại, tiết kiệm điện toán và làm cho DAG lớn trở nên hiệu quả.

Làm chủ Kubeflow và dàn nhạc đường ống ML

Kubeflow là một bộ công cụ nguồn mở chạy các quy trình học máy trên Kubernetes, biến việc đào tạo và triển khai mô hình thành các quy trình có thể tái tạo, được đóng gói trong container. Điều này quan trọng vì nó cho phép các nhóm mở rộng quy mô ML giống như cách họ mở rộng phần mềm đám mây hiện đại. Kubeflow và ML Pipeline Orchestration là một khối xây dựng kỹ thuật ảnh hưởng đến chất lượng mô hình, chi phí cơ sở hạ tầng, độ trễ và độ tin cậy trên quy mô lớn. Để xây dựng sự hiểu biết sâu sắc, hãy coi Kubeflow và ML Pipeline Orchestration như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Kubeflow và ML Pipeline Orchestration sẽ tối ưu hóa các lựa chọn về kiến ​​trúc, dữ liệu và cơ sở hạ tầng theo độ tin cậy và chi phí. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Các quyết định về kiến ​​trúc sẽ thúc đẩy hiệu suất và chi phí vận hành trong nhiều năm. Đồng thời, Tối ưu hóa một điểm chuẩn có thể che giấu những điểm yếu lớn hơn của hệ thống. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Các quyết định về kiến ​​trúc sẽ thúc đẩy hiệu suất và chi phí vận hành trong nhiều năm.

Các quyết định về kiến ​​trúc sẽ thúc đẩy hiệu suất và chi phí vận hành trong nhiều năm. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Giáo dục kỹ thuật giúp các nhóm chọn nhóm phù hợp chứ không chỉ nhóm mới nhất.

Giáo dục kỹ thuật giúp các nhóm chọn nhóm phù hợp chứ không chỉ nhóm mới nhất. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Lựa chọn kỹ thuật tốt hơn làm giảm sự cố về độ tin cậy trong sản xuất.

Lựa chọn kỹ thuật tốt hơn làm giảm sự cố về độ tin cậy trong sản xuất. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của Kubeflow và dàn nhạc đường ống ML

Kubeflow đang hợp nhất xung quanh KFP v2 và tích hợp chặt chẽ hơn với KServe để phân phối và Katib để điều chỉnh, cùng với sự hỗ trợ tốt hơn cho việc đào tạo phân tán các mô hình lớn trên nhiều GPU. Mong đợi những mối liên kết sâu sắc hơn với các cửa hàng tính năng, cơ quan đăng ký mô hình và quy trình tinh chỉnh LLM. Khi dự án hoàn thiện theo CNCF, xu hướng hướng tới việc cài đặt đơn giản hơn, nhiều bên thuê cho các nhóm và các định nghĩa quy trình được tiêu chuẩn hóa chuyển giao rõ ràng giữa các nhà cung cấp đám mây lớn và tại chỗ.

Triển khai trong thế giới thực

Một nhà bán lẻ lên lịch quy trình Kubeflow hàng đêm để thu thập dữ liệu bán hàng, đào tạo lại mô hình dự báo nhu cầu và đẩy mô hình đó tới KServe để suy luận.

Phòng thí nghiệm nghiên cứu sử dụng Katib để chạy hàng trăm thử nghiệm siêu tham số song song trên cụm GPU, tự động chọn cấu hình tốt nhất.

Một ngân hàng xây dựng một quy trình phát hiện gian lận có thể tái tạo, trong đó mỗi cuộc kiểm tra tuân thủ có thể chạy lại các bước đào tạo chính xác từ các tạo phẩm được lưu trong bộ nhớ đệm.

Một công ty khởi nghiệp sử dụng máy chủ máy tính xách tay trên Kubeflow để các nhà khoa học dữ liệu tạo ra các mô hình nguyên mẫu trực tiếp vào quy trình sản xuất mà không cần viết lại mã.

Các mẫu triển khai

Kubeflow và điều phối đường ống ML trong thực tế

Một nhà bán lẻ lên lịch quy trình Kubeflow hàng đêm để thu thập dữ liệu bán hàng, đào tạo lại mô hình dự báo nhu cầu và đẩy mô hình đó tới KServe để suy luận.

Nhà bán lẻ lên lịch quy trình Kubeflow hàng đêm để nhập dữ liệu bán hàng, đào tạo lại mô hình dự báo nhu cầu và đẩy mô hình đó đến KServe để suy luận. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Kubeflow và điều phối đường ống ML trong thực tế

Phòng thí nghiệm nghiên cứu sử dụng Katib để chạy hàng trăm thử nghiệm siêu tham số song song trên cụm GPU, tự động chọn cấu hình tốt nhất.

Một phòng thí nghiệm nghiên cứu sử dụng Katib để chạy hàng trăm thử nghiệm siêu tham số song song trên một cụm GPU, tự động chọn cấu hình tốt nhất. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp phức tạp và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Kubeflow và điều phối đường ống ML trong thực tế

Một ngân hàng xây dựng một quy trình phát hiện gian lận có thể tái tạo, trong đó mỗi cuộc kiểm tra tuân thủ có thể chạy lại các bước đào tạo chính xác từ các tạo phẩm được lưu trong bộ nhớ đệm.

Một ngân hàng xây dựng một quy trình phát hiện gian lận có thể tái tạo, trong đó mỗi cuộc kiểm tra tuân thủ có thể chạy lại các bước đào tạo chính xác từ các tạo phẩm được lưu trong bộ nhớ đệm. Các nhóm thường nhận được kết quả tốt hơn khi xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Kubeflow và điều phối đường ống ML trong thực tế

Một công ty khởi nghiệp sử dụng máy chủ máy tính xách tay trên Kubeflow để các nhà khoa học dữ liệu tạo ra các mô hình nguyên mẫu trực tiếp vào quy trình sản xuất mà không cần viết lại mã.

Một công ty khởi nghiệp sử dụng máy chủ sổ tay trên Kubeflow để các mô hình nguyên mẫu của nhà khoa học dữ liệu được chuyển thẳng vào quy trình sản xuất mà không cần viết lại mã. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Tối ưu hóa một điểm chuẩn có thể che giấu những điểm yếu của hệ thống rộng hơn.

!

Chi phí cơ sở hạ tầng và bảo trì thường được đánh giá thấp.

!

Khoảng cách về bảo mật và khả năng quan sát có thể tăng lên khi hệ thống trở nên phức tạp hơn.

Lộ trình thực hiện

1

Xác định các mục tiêu về độ trễ, chất lượng và chi phí trước khi triển khai.

Xác định các mục tiêu về độ trễ, chất lượng và chi phí trước khi triển khai. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Điểm chuẩn trong điều kiện tải và dữ liệu thực tế.

Điểm chuẩn trong điều kiện tải và dữ liệu thực tế. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Giám sát thiết bị về lỗi, độ lệch và tác động của người dùng.

Giám sát thiết bị về lỗi, độ lệch và tác động của người dùng. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Chuẩn bị đường dẫn khôi phục và ứng phó sự cố trước khi mở rộng quy mô.

Chuẩn bị đường dẫn khôi phục và ứng phó sự cố trước khi mở rộng quy mô. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá