Kembali ke semua kuisKuis terkait panduanSedang Tingkat6 Pertanyaan

Kuis Optimasi Kebijakan Proksimal

Uji pemahaman Anda tentang bagaimana PPO menstabilkan pembelajaran penguatan dan perannya dalam RLHF.

Pertanyaan 1 dari 6Benar: 0

Masalah apa yang terutama diatasi oleh 'kliping' PPO?