← Înapoi la toate chestionareleTest legat de ghid • Greu Nivel • 6 Întrebări
Test de optimizare a politicilor relative de grup
Testați-vă înțelegerea modului în care GRPO antrenează modele lingvistice cu învățare prin consolidare.
Întrebare 1 de 6Corect: 0