Tillbaka till alla frågesporterGuidelänkat frågesportHårt Nivå6 Frågor

Frågesport för optimering av grupprelativ policy

Testa din förståelse för hur GRPO tränar språkmodeller med förstärkningsinlärning.

Relaterade ledstråk

Fråga 1 av 6Rätt: 0

Vilken huvudkomponent av PPO eliminerar GRPO?