← Tillbaka till alla frågesporterGuidelänkat frågesport • Hårt Nivå • 6 Frågor
Grupperad belöningsnormalisering i RLHF Quiz
Testa din förståelse för normalisering av grupperad belöning och GRPO-algoritmen.
Fråga 1 av 6Rätt: 0
Testa din förståelse för normalisering av grupperad belöning och GRPO-algoritmen.