Înapoi la toate chestionareleTest legat de ghidGreu Nivel6 Întrebări

Normalizarea recompenselor grupate în testul RLHF

Testați-vă înțelegerea normalizării recompenselor grupate și a algoritmului GRPO.

Întrebare 1 de 6Corect: 0

În normalizarea recompenselor grupate, cu ce este comparată recompensa fiecărui răspuns?