Quay lại tất cả các câu đốBài kiểm tra có liên kết hướng dẫnTrung bình Cấp độ6 Câu hỏi

Câu đố Q-Learning

Kiểm tra sự hiểu biết của bạn về cách Q-Learning ước tính các giá trị hành động và hội tụ thành hành vi tối ưu.

Đường dẫn hướng dẫn liên quan

Câu hỏi 1 của 6Đúng: 0

Giá trị Q Q(s, a) đại diện cho điều gì?