← Kembali ke semua kuisKuis terkait panduan • Keras Tingkat • 6 Pertanyaan
Kuis Optimasi Kebijakan Relatif Grup
Uji pemahaman Anda tentang bagaimana GRPO melatih model bahasa dengan pembelajaran penguatan.
Pertanyaan 1 dari 6Benar: 0
Uji pemahaman Anda tentang bagaimana GRPO melatih model bahasa dengan pembelajaran penguatan.