Înapoi la toate chestionareleTest legat de ghidGreu Nivel6 Întrebări

Test de optimizare a politicilor relative de grup

Testați-vă înțelegerea modului în care GRPO antrenează modele lingvistice cu învățare prin consolidare.

Întrebare 1 de 6Corect: 0

Ce componentă majoră a PPO elimină GRPO?