Quay lại tất cả các câu đốBài kiểm tra có liên kết hướng dẫnTrung bình Cấp độ6 Câu hỏi

DPO lặp lại và bài kiểm tra điều chỉnh sở thích trực tuyến

Kiểm tra mức độ hiểu biết của bạn về cách tối ưu hóa tùy chọn lặp lại và trực tuyến cải thiện các mô hình ngôn ngữ.

Câu hỏi 1 của 6Đúng: 0

DPO tránh yêu cầu RLHF (PPO) truyền thống đó là gì?