← Înapoi la toate chestionareleTest legat de ghid • Greu Nivel • 6 Întrebări
Normalizarea recompenselor grupate în testul RLHF
Testați-vă înțelegerea normalizării recompenselor grupate și a algoritmului GRPO.
Întrebare 1 de 6Corect: 0
Testați-vă înțelegerea normalizării recompenselor grupate și a algoritmului GRPO.