← Tillbaka till alla frågesporterGuidelänkat frågesport • Hårt Nivå • 6 Frågor

Frågesport för optimering av grupprelativ policy

Testa din förståelse för hur GRPO tränar språkmodeller med förstärkningsinlärning.

Relaterade ledstråk

Fråga 1 av 6Rätt: 0

Vilken huvudkomponent av PPO eliminerar GRPO?