HƯỚNG DẪN cơ bản

Xác thực chéo

Xác thực chéo là một kỹ thuật lấy mẫu lại để ước tính mức độ khái quát của một mô hình đối với dữ liệu không nhìn thấy được.

Tổng quan

Xác thực chéo là một kỹ thuật lấy mẫu lại để ước tính mức độ khái quát của một mô hình đối với dữ liệu không nhìn thấy được. Nó tận dụng tốt hơn dữ liệu hạn chế và đưa ra ước tính hiệu suất đáng tin cậy hơn so với việc phân chia đào tạo/kiểm tra đơn lẻ.

Xác thực chéo nằm trong bộ công cụ AI cốt lõi. Khi bạn hiểu nó, các chủ đề AI khác sẽ trở nên dễ dàng hơn để đánh giá và so sánh.

Lặn sâu

Việc phân chia đoàn tàu/kiểm tra đơn lẻ rất mong manh: điểm bạn nhận được phụ thuộc rất nhiều vào hàng nào tình cờ xuất hiện trong tập kiểm tra. Xác thực chéo khắc phục điều này bằng cách luân phiên vai trò của bộ kiểm tra. Trong xác thực chéo k-fold, bạn phân vùng dữ liệu thành k nếp gấp bằng nhau, huấn luyện k-1 trong số đó, đánh giá trên nếp gấp được giữ và lặp lại k lần để mỗi hàng được kiểm tra chính xác một lần. Tính trung bình điểm k mang lại ước tính ổn định hơn cộng với thước đo độ biến thiên. Các lựa chọn phổ biến là gấp 5 hoặc 10 lần. Các biến thể bao gồm k-fold phân tầng (bảo toàn tỷ lệ lớp cho dữ liệu không cân bằng), loại bỏ một lần (k bằng số lượng mẫu) và phân tách chuỗi thời gian không bao giờ đào tạo về tương lai để dự đoán quá khứ.

Hiểu biết kỹ thuật

Xác thực chéo có tác dụng mạnh mẽ nhất đối với việc lựa chọn mô hình và điều chỉnh siêu tham số: bạn so sánh các cấu hình theo điểm xác thực trung bình của chúng thay vì trang bị quá mức cho một phần tách. Một cạm bẫy nghiêm trọng là rò rỉ dữ liệu - bất kỳ quá trình tiền xử lý nào 'nhìn thấy' toàn bộ tập dữ liệu (chia tỷ lệ, lựa chọn tính năng, cắt bỏ) phải vừa khít trong mỗi màn hình, không phải trước khi phân tách, nếu không ước tính của bạn sẽ bị sai lệch lạc quan. Xác thực chéo lồng nhau tách việc điều chỉnh khỏi đánh giá cuối cùng để tránh rò rỉ này.

Nắm vững xác thực chéo

Xác thực chéo là một kỹ thuật lấy mẫu lại để ước tính mức độ khái quát của một mô hình đối với dữ liệu không nhìn thấy được. Nó tận dụng tốt hơn dữ liệu hạn chế và đưa ra ước tính hiệu suất đáng tin cậy hơn so với việc phân chia đào tạo/kiểm tra đơn lẻ. Xác thực chéo nằm trong bộ công cụ AI cốt lõi. Khi bạn hiểu nó, các chủ đề AI khác sẽ trở nên dễ dàng hơn để đánh giá và so sánh. Để xây dựng sự hiểu biết sâu sắc, hãy coi Xác thực chéo như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Xác thực chéo trước tiên sẽ xây dựng các mô hình khái niệm mạnh, sau đó ánh xạ các mô hình đó tới các giới hạn sản xuất thực tế. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị. Đồng thời, các nhóm khác nhau có thể sử dụng cùng một thuật ngữ một cách khác nhau, vì vậy hãy sớm xác định phạm vi. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị.

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Bạn có thể đặt các câu hỏi triển khai tốt hơn trước khi chi tiền hoặc thời gian.

Bạn có thể đặt các câu hỏi triển khai tốt hơn trước khi chi tiền hoặc thời gian. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm có sự hiểu biết chung sẽ đưa ra các quyết định về sản phẩm, chính sách và học tập tốt hơn.

Các nhóm có sự hiểu biết chung sẽ đưa ra các quyết định về sản phẩm, chính sách và học tập tốt hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của xác thực chéo

Khi các tập dữ liệu và mô hình phát triển, việc thực hiện k chu trình đào tạo đầy đủ trở nên đắt đỏ, do đó, những người thực hành ngày càng ưa chuộng một bộ xác thực lớn duy nhất được tổ chức cho học sâu trong khi dành việc xác thực chéo cho các tập dữ liệu nhỏ hoặc dạng bảng. ML tự động và các công cụ như GridSearchCV và Optuna của scikit-learn đưa xác thực chéo vào tìm kiếm siêu tham số theo mặc định. Nghiên cứu tiếp tục dựa trên các giá trị gần đúng rẻ hơn, đường ống chống rò rỉ và xác thực thích hợp cho dữ liệu được nhóm, phân cấp và phụ thuộc vào thời gian.

Triển khai trong thế giới thực

Sử dụng xác thực chéo 5 lần để so sánh hồi quy logistic, rừng ngẫu nhiên và tăng cường độ dốc trước khi áp dụng một mô hình.

Áp dụng nếp gấp k phân tầng trên tập dữ liệu phát hiện gian lận không cân bằng để mỗi nếp gấp giữ tỷ lệ loại hiếm gần như nhau.

Chạy GridSearchCV hoặc RandomizedSearchCV, xác thực chéo mọi kết hợp siêu tham số để chọn cài đặt tốt nhất.

Sử dụng xác thực chéo chuỗi thời gian (cuộn/chuỗi tiếp) để đánh giá người dự báo tồn kho hoặc nhu cầu mà không cần đào tạo về dữ liệu trong tương lai.

Các mẫu triển khai

Xác thực chéo trong thực tế

Sử dụng xác thực chéo 5 lần để so sánh hồi quy logistic, rừng ngẫu nhiên và tăng cường độ dốc trước khi áp dụng một mô hình.

Sử dụng xác thực chéo 5 lần để so sánh hồi quy logistic, rừng ngẫu nhiên và tăng cường độ dốc trước khi cam kết với một mô hình Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Xác thực chéo trong thực tế

Áp dụng nếp gấp k phân tầng trên tập dữ liệu phát hiện gian lận không cân bằng để mỗi nếp gấp giữ tỷ lệ loại hiếm gần như nhau.

Áp dụng nếp gấp k phân tầng trên tập dữ liệu phát hiện gian lận không cân bằng để mỗi nếp gấp giữ tỷ lệ loại hiếm gần giống nhau. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Xác thực chéo trong thực tế

Chạy GridSearchCV hoặc RandomizedSearchCV, xác thực chéo mọi kết hợp siêu tham số để chọn cài đặt tốt nhất.

Chạy GridSearchCV hoặc RandomizedSearchCV, xác thực chéo mọi kết hợp siêu tham số để chọn cài đặt tốt nhất Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Xác thực chéo trong thực tế

Sử dụng xác thực chéo chuỗi thời gian (cuộn/chuỗi tiếp) để đánh giá người dự báo tồn kho hoặc nhu cầu mà không cần đào tạo về dữ liệu trong tương lai.

Sử dụng xác thực chéo theo chuỗi thời gian (cuộn/chuỗi tiếp) để đánh giá người dự báo tồn kho hoặc nhu cầu mà không cần đào tạo về dữ liệu trong tương lai. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người cho các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Các nhóm khác nhau có thể sử dụng cùng một thuật ngữ một cách khác nhau, vì vậy hãy sớm xác định phạm vi.

!

Điểm chuẩn có thể trông mạnh mẽ trong khi hiệu suất trong thế giới thực không đồng đều.

!

Việc bỏ qua các kế hoạch đánh giá và chất lượng dữ liệu thường tạo ra những kết quả mong manh.

Lộ trình thực hiện

1

Bắt đầu với một định nghĩa đơn giản về kết quả bạn cần.

Bắt đầu với một định nghĩa đơn giản về kết quả bạn cần. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Chọn một số liệu thành công và một điều kiện thất bại trước khi thử nghiệm.

Chọn một số liệu thành công và một điều kiện thất bại trước khi thử nghiệm. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Chạy một thử nghiệm nhỏ với dữ liệu đại diện chứ không phải một bản demo bóng bẩy.

Chạy một thử nghiệm nhỏ với dữ liệu đại diện chứ không phải một bản demo bóng bẩy. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Tài liệu nơi Xác thực chéo hữu ích và nơi các phương pháp đơn giản hơn sẽ tốt hơn.

Tài liệu nơi Xác thực chéo hữu ích và nơi các phương pháp đơn giản hơn sẽ tốt hơn. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá