← Tillbaka till alla frågesporterGuidelänkat frågesport • Hårt Nivå • 6 Frågor
Frågesport för optimering av grupprelativ policy
Testa din förståelse för hur GRPO tränar språkmodeller med förstärkningsinlärning.
Fråga 1 av 6Rätt: 0
Testa din förståelse för hur GRPO tränar språkmodeller med förstärkningsinlärning.