Hướng dẫn về các phương pháp Ensemble và tăng cường độ dốc

Tổng quan

Phương pháp tập hợp kết hợp nhiều mô hình đơn giản nên nhóm đưa ra dự đoán tốt hơn bất kỳ mô hình đơn lẻ nào. Tăng cường độ dốc là tính năng mạnh mẽ nhất trong số này — nó xây dựng từng cây một, mỗi cây sửa lỗi của cây cuối cùng và chiếm ưu thế trong việc học máy dạng bảng trong thế giới thực.

Phương thức tập hợp và Tăng cường độ dốc nằm trong bộ công cụ AI cốt lõi. Khi bạn hiểu nó, các chủ đề AI khác sẽ trở nên dễ dàng hơn để đánh giá và so sánh.

Lặn sâu

Nhóm học tập dựa trên một ý tưởng đơn giản: nhiều học viên yếu kết hợp lại có thể tạo thành một học viên mạnh. Hai gia đình dẫn đầu. Đóng bao (ví dụ: Rừng ngẫu nhiên) đào tạo song song nhiều cây trên các mẫu ngẫu nhiên và tính trung bình cho chúng, điều này chủ yếu làm giảm phương sai. Tăng cường các mô hình đào tạo một cách tuần tự, mỗi mô hình tập trung vào những sai lầm mà mô hình trước đã mắc phải, điều này chủ yếu làm giảm sai lệch. Tăng cường độ dốc đóng khung mỗi cây mới dưới dạng một bước phù hợp với độ dốc âm - các lỗi còn lại - của hàm mất mát cho đến nay. Các thư viện như XGBoost, LightGBM và CatBoost bổ sung thêm các thủ thuật chính quy hóa, phân chia thông minh và tốc độ. Trên dữ liệu có cấu trúc/dạng bảng — phát hiện gian lận, định giá, xếp hạng — các phương pháp này thường xuyên đánh bại deep learning và giành chiến thắng trong phần lớn các cuộc thi Kaggle.

Hiểu biết kỹ thuật

Trong quá trình tăng cường độ dốc, bạn bắt đầu với một dự đoán thô và liên tục thêm một cây nhỏ phù hợp vào phần dư - độ dốc của tổn thất so với các dự đoán hiện tại. Đóng góp của mỗi cây được tính theo tỷ lệ học tập (độ co rút), do đó mô hình sẽ cải thiện theo từng bước nhỏ. Bởi vì các lỗi sẽ tăng lên nếu bạn khớp quá mức, nên việc chính quy hóa (giới hạn độ sâu của cây, các hàng và tính năng lấy mẫu con, hình phạt L1/L2 đối với trọng số của lá) là điều cần thiết để giữ cho tập hợp không bị ghi nhớ tiếng ồn.

Nắm vững các phương pháp tập hợp và tăng cường độ dốc

Để xây dựng sự hiểu biết sâu sắc, hãy coi Phương thức Ensemble và Tăng cường độ dốc như một mô hình hoạt động chứ không phải một tính năng duy nhất. Xác định các kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Phương pháp Ensemble và Tăng cường độ dốc trước tiên sẽ xây dựng các mô hình khái niệm mạnh mẽ, sau đó ánh xạ các mô hình đó tới các giới hạn sản xuất thực tế. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị. Đồng thời, các nhóm khác nhau có thể sử dụng cùng một thuật ngữ một cách khác nhau, vì vậy hãy sớm xác định phạm vi. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị.

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Bạn có thể đặt các câu hỏi triển khai tốt hơn trước khi chi tiền hoặc thời gian.

Bạn có thể đặt các câu hỏi triển khai tốt hơn trước khi chi tiền hoặc thời gian. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm có sự hiểu biết chung sẽ đưa ra các quyết định về sản phẩm, chính sách và học tập tốt hơn.

Các nhóm có sự hiểu biết chung sẽ đưa ra các quyết định về sản phẩm, chính sách và học tập tốt hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của các phương pháp Ensemble và tăng cường độ dốc

Cây được tăng cường độ dốc vẫn là mặc định cho dữ liệu dạng bảng và không có dấu hiệu bị hạ bệ ở đó, ngay cả khi học sâu tiến bộ ở những nơi khác. Mong đợi sự gia tăng liên tục về tốc độ và khả năng tăng tốc GPU, khả năng xử lý gốc tốt hơn đối với dữ liệu được phân loại và dữ liệu bị thiếu cũng như tích hợp chặt chẽ hơn với các quy trình máy học tự động (AutoML). Nghiên cứu kết hợp việc tăng cường với mạng lưới thần kinh và các biến thể nhanh hơn, dễ hiểu hơn đang được thực hiện. Đối với những người thực hành, việc tăng cường thư viện sẽ vẫn là lựa chọn hàng đầu đáng tin cậy, có độ chính xác cao cho các bài toán dạng bảng tính.

Triển khai trong thế giới thực

Các ngân hàng và bộ xử lý thanh toán sử dụng XGBoost để gắn cờ các giao dịch gian lận từ các tính năng dạng bảng như số tiền, địa điểm và thời gian.

Công cụ tìm kiếm và cửa hàng trực tuyến xếp hạng kết quả bằng mô hình 'học để xếp hạng' được tăng cường độ dốc.

Các công ty bảo hiểm và cho vay dự đoán rủi ro và định giá từ dữ liệu khách hàng có cấu trúc.

Các đối thủ của Kaggle giành chiến thắng trong các cuộc thi dữ liệu dạng bảng bằng cách xếp chồng các mô hình LightGBM và CatBoost lại với nhau.

Các mẫu triển khai

Phương pháp tập hợp và tăng cường độ dốc trong thực tế

Các ngân hàng và bộ xử lý thanh toán sử dụng XGBoost để gắn cờ các giao dịch gian lận từ các tính năng dạng bảng như số tiền, địa điểm và thời gian.

Các nhóm thường nhận được kết quả tốt hơn khi họ xác định ngay từ đầu các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất cũng như chi phí do lỗi theo thời gian.

Phương pháp tập hợp và tăng cường độ dốc trong thực tế

Công cụ tìm kiếm và cửa hàng trực tuyến xếp hạng kết quả bằng mô hình 'học để xếp hạng' được tăng cường độ dốc.

Các nhóm thường nhận được kết quả tốt hơn khi họ xác định ngay từ đầu các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất cũng như chi phí do lỗi theo thời gian.

Phương pháp tập hợp và tăng cường độ dốc trong thực tế

Các công ty bảo hiểm và cho vay dự đoán rủi ro và định giá từ dữ liệu khách hàng có cấu trúc.

Các nhóm thường nhận được kết quả tốt hơn khi họ xác định ngay từ đầu các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất cũng như chi phí do lỗi theo thời gian.

Phương pháp tập hợp và tăng cường độ dốc trong thực tế

Các đối thủ của Kaggle giành chiến thắng trong các cuộc thi dữ liệu dạng bảng bằng cách xếp chồng các mô hình LightGBM và CatBoost lại với nhau.

Các nhóm thường nhận được kết quả tốt hơn khi họ xác định ngay từ đầu các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất cũng như chi phí do lỗi theo thời gian.

Rủi ro & lan can

!

Các nhóm khác nhau có thể sử dụng cùng một thuật ngữ một cách khác nhau, vì vậy hãy sớm xác định phạm vi.

!

Điểm chuẩn có thể trông mạnh mẽ trong khi hiệu suất trong thế giới thực không đồng đều.

!

Việc bỏ qua các kế hoạch đánh giá và chất lượng dữ liệu thường tạo ra những kết quả mong manh.

Lộ trình thực hiện

1

Bắt đầu với một định nghĩa đơn giản về kết quả bạn cần.

Hãy coi đây như một cổng bằng chứng: nếu không đáp ứng các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Chọn một số liệu thành công và một điều kiện thất bại trước khi thử nghiệm.

Hãy coi đây như một cổng bằng chứng: nếu không đáp ứng các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Chạy một thử nghiệm nhỏ với dữ liệu đại diện chứ không phải một bản demo bóng bẩy.

Hãy coi đây như một cổng bằng chứng: nếu không đáp ứng các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Tài liệu nơi các Phương thức tập hợp và Tăng cường độ dốc giúp ích và nơi các phương pháp đơn giản hơn sẽ tốt hơn.

Hãy coi đây như một cổng bằng chứng: nếu không đáp ứng các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá

AI là gì?

Nhận các khái niệm cần thiết trước khi đi sâu hơn.

Đọc hướng dẫn

AI học như thế nào

Hiểu quá trình đào tạo đằng sau các hệ thống hiện đại.

Đọc hướng dẫn

Phương pháp tập hợp và tăng cường độ dốc

Tổng quan

Lặn sâu

Hiểu biết kỹ thuật

Nắm vững các phương pháp tập hợp và tăng cường độ dốc

Tác động chiến lược

Tương lai của các phương pháp Ensemble và tăng cường độ dốc

Triển khai trong thế giới thực

Các mẫu triển khai

Phương pháp tập hợp và tăng cường độ dốc trong thực tế

Phương pháp tập hợp và tăng cường độ dốc trong thực tế

Phương pháp tập hợp và tăng cường độ dốc trong thực tế

Phương pháp tập hợp và tăng cường độ dốc trong thực tế

Rủi ro & lan can

Lộ trình thực hiện

Tiếp tục khám phá

AI là gì?

AI học như thế nào

Related guides