← Kembali ke semua kuisKuis terkait panduan • Sedang Tingkat • 6 Pertanyaan
Kuis Optimasi Kebijakan Proksimal
Uji pemahaman Anda tentang bagaimana PPO menstabilkan pembelajaran penguatan dan perannya dalam RLHF.
Pertanyaan 1 dari 6Benar: 0
Uji pemahaman Anda tentang bagaimana PPO menstabilkan pembelajaran penguatan dan perannya dalam RLHF.