HƯỚNG DẪN cơ bản

Mô hình phần thưởng Bradley-Terry

Mô hình Bradley-Terry là một phương pháp thống kê có tuổi đời hàng thế kỷ để biến các so sánh theo cặp (A nhịp B) thành điểm số.

Tổng quan

Mô hình Bradley-Terry là một phương pháp thống kê có tuổi đời hàng thế kỷ để biến các so sánh theo cặp (A nhịp B) thành điểm số. Trong AI hiện đại, nó hỗ trợ các mô hình khen thưởng tìm hiểu sở thích của con người từ 'câu trả lời nào tốt hơn?' nhãn, xương sống của RLHF.

Mô hình phần thưởng Bradley-Terry nằm trong bộ công cụ AI cốt lõi. Khi bạn hiểu nó, các chủ đề AI khác sẽ trở nên dễ dàng hơn để đánh giá và so sánh.

Lặn sâu

Bradley-Terry, được giới thiệu vào năm 1952, giả định mọi vật phẩm đều có điểm sức mạnh tiềm ẩn và xác suất vật phẩm A đánh bại vật phẩm B là hàm logistic của chênh lệch điểm số của chúng. Trong quá trình căn chỉnh AI, điều này ánh xạ gọn gàng vào dữ liệu ưu tiên: người gắn nhãn nhìn thấy hai phản hồi mô hình và chọn phản hồi tốt hơn thay vì đưa ra xếp hạng tuyệt đối khó hiệu chỉnh. Một mô hình phần thưởng, thường là mô hình ngôn ngữ có đầu ra vô hướng, được đào tạo để phản hồi mà con người ưa thích sẽ nhận được phần thưởng vô hướng cao hơn. Phần thua là khả năng ghi nhật ký âm của xác suất Bradley-Terry: tối đa hóa log-sigmoid của (phần thưởng của phần thưởng được chọn trừ phần thưởng của phần bị từ chối). Sau đó, mô hình phần thưởng thu được sẽ cho điểm các kết quả đầu ra tùy ý, cung cấp tín hiệu cho thấy các thuật toán học tăng cường như PPO sẽ tối ưu hóa để làm cho các mô hình trở nên hữu ích và phù hợp hơn.

Hiểu biết kỹ thuật

Tổn thất huấn luyện cho phép so sánh chỉ đơn giản là trừ log-sigmoid của (r_chosen − r_rejected), do đó mô hình chỉ học được những khác biệt tương đối. Điều này có nghĩa là phần thưởng chỉ có thể được xác định khi có hằng số cộng; quy mô tuyệt đối là tùy ý. Vì việc so sánh đối với con người dễ dàng và nhất quán hơn so với điểm số từ 1 đến 10 nên dữ liệu của Bradley-Terry ít nhiễu hơn. Tối ưu hóa tùy chọn trực tiếp sau đó cho thấy bạn có thể bỏ qua mô hình phần thưởng riêng biệt và tối ưu hóa mục tiêu Bradley-Terry trực tiếp trên chính sách.

Nắm vững mô hình phần thưởng Bradley-Terry

Mô hình Bradley-Terry là một phương pháp thống kê có tuổi đời hàng thế kỷ để biến các so sánh theo cặp (A nhịp B) thành điểm số. Trong AI hiện đại, nó hỗ trợ các mô hình khen thưởng tìm hiểu sở thích của con người từ 'câu trả lời nào tốt hơn?' nhãn, xương sống của RLHF. Mô hình phần thưởng Bradley-Terry nằm trong bộ công cụ AI cốt lõi. Khi bạn hiểu nó, các chủ đề AI khác sẽ trở nên dễ dàng hơn để đánh giá và so sánh. Để xây dựng sự hiểu biết sâu sắc, hãy coi Mô hình phần thưởng Bradley-Terry như một mô hình hoạt động chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể làm một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Mô hình phần thưởng Bradley-Terry trước tiên sẽ xây dựng các mô hình khái niệm mạnh mẽ, sau đó ánh xạ các mô hình đó tới các giới hạn sản xuất thực tế. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị. Đồng thời, các nhóm khác nhau có thể sử dụng cùng một thuật ngữ một cách khác nhau, vì vậy hãy sớm xác định phạm vi. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị.

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Bạn có thể đặt các câu hỏi triển khai tốt hơn trước khi chi tiền hoặc thời gian.

Bạn có thể đặt các câu hỏi triển khai tốt hơn trước khi chi tiền hoặc thời gian. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm có sự hiểu biết chung sẽ đưa ra các quyết định về sản phẩm, chính sách và học tập tốt hơn.

Các nhóm có sự hiểu biết chung sẽ đưa ra các quyết định về sản phẩm, chính sách và học tập tốt hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của mô hình phần thưởng Bradley-Terry

Bradley-Terry giả định một thứ hạng nhất quán duy nhất và các sở thích bắc cầu, sẽ bị phá vỡ khi con người không đồng ý hoặc theo chu kỳ sở thích. Nghiên cứu đang hướng tới các mô hình nắm bắt sự phân bổ sở thích, phần thưởng đa chiều (sự hữu ích, an toàn, trung thực được tính điểm riêng) và các phương pháp như Nash học hỏi từ phản hồi của con người loại bỏ giả định về một điểm số. DPO và các biến thể của nó ngày càng đưa mục tiêu Bradley-Terry trực tiếp vào đào tạo chính sách. Mong đợi các kế hoạch so sánh phong phú hơn, bao gồm thứ hạng của nhiều hơn hai mục và các ưu tiên dựa trên mức độ tin cậy, để giảm việc hack phần thưởng.

Triển khai trong thế giới thực

Huấn luyện mô hình phần thưởng trong RLHF để xếp hạng hai phản hồi của chatbot và cung cấp tín hiệu tốt hơn-xấu hơn để tinh chỉnh PPO.

Tối ưu hóa tùy chọn trực tiếp tinh chỉnh mô hình trực tiếp trên các cặp câu trả lời được chọn so với bị từ chối bằng cách sử dụng mất log-sigmoid Bradley-Terry.

Xếp hạng người chơi cờ vua hoặc thể thao điện tử thông qua Elo, về mặt toán học, mô hình này gần giống với mô hình Bradley-Terry về kết quả trò chơi.

Xây dựng trình xếp hạng đề xuất nội dung từ dữ liệu nhấp chuột 'người dùng ưa thích A hơn B' thay vì xếp hạng theo sao tuyệt đối.

Các mẫu triển khai

Mô hình phần thưởng Bradley-Terry trong thực tế

Huấn luyện mô hình phần thưởng trong RLHF để xếp hạng hai phản hồi của chatbot và cung cấp tín hiệu tốt hơn-xấu hơn để tinh chỉnh PPO.

Đào tạo mô hình khen thưởng trong RLHF để xếp hạng hai phản hồi của chatbot và cung cấp tín hiệu tốt hơn-tệ hơn cho việc tinh chỉnh PPO Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Mô hình phần thưởng Bradley-Terry trong thực tế

Tối ưu hóa tùy chọn trực tiếp tinh chỉnh mô hình trực tiếp trên các cặp câu trả lời được chọn so với bị từ chối bằng cách sử dụng mất log-sigmoid Bradley-Terry.

Tối ưu hóa tùy chọn trực tiếp tinh chỉnh mô hình trực tiếp trên các cặp câu trả lời được chọn so với bị từ chối bằng cách sử dụng mất log-sigmoid Bradley-Terry Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Mô hình phần thưởng Bradley-Terry trong thực tế

Xếp hạng người chơi cờ vua hoặc thể thao điện tử thông qua Elo, về mặt toán học, mô hình này gần giống với mô hình Bradley-Terry về kết quả trò chơi.

Xếp hạng người chơi cờ vua hoặc thể thao điện tử thông qua Elo, về mặt toán học là họ hàng gần của mô hình Bradley-Terry về kết quả trận đấu. Các đội thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Mô hình phần thưởng Bradley-Terry trong thực tế

Xây dựng trình xếp hạng đề xuất nội dung từ dữ liệu nhấp chuột 'người dùng ưa thích A hơn B' thay vì xếp hạng theo sao tuyệt đối.

Xây dựng trình xếp hạng đề xuất nội dung từ dữ liệu nhấp chuột 'người dùng ưa thích A hơn B' thay vì xếp hạng sao tuyệt đối Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Các nhóm khác nhau có thể sử dụng cùng một thuật ngữ một cách khác nhau, vì vậy hãy sớm xác định phạm vi.

!

Điểm chuẩn có thể trông mạnh mẽ trong khi hiệu suất trong thế giới thực không đồng đều.

!

Việc bỏ qua các kế hoạch đánh giá và chất lượng dữ liệu thường tạo ra những kết quả mong manh.

Lộ trình thực hiện

1

Bắt đầu với một định nghĩa đơn giản về kết quả bạn cần.

Bắt đầu với một định nghĩa đơn giản về kết quả bạn cần. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Chọn một số liệu thành công và một điều kiện thất bại trước khi thử nghiệm.

Chọn một số liệu thành công và một điều kiện thất bại trước khi thử nghiệm. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Chạy một thử nghiệm nhỏ với dữ liệu đại diện chứ không phải một bản demo bóng bẩy.

Chạy một thử nghiệm nhỏ với dữ liệu đại diện chứ không phải một bản demo bóng bẩy. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Tài liệu về việc Mô hình phần thưởng Bradley-Terry hữu ích và nơi các phương pháp đơn giản hơn sẽ tốt hơn.

Tài liệu về việc Mô hình phần thưởng Bradley-Terry hữu ích và nơi các phương pháp đơn giản hơn sẽ tốt hơn. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá