Tillbaka till alla frågesporterGuidelänkat frågesportHårt Nivå6 Frågor

Grupperad belöningsnormalisering i RLHF Quiz

Testa din förståelse för normalisering av grupperad belöning och GRPO-algoritmen.

Fråga 1 av 6Rätt: 0

Vad är belöningen för varje svar jämfört med vid normalisering av grupperad belöning?