Zpět ke všem kvízůmKvíz spojený s průvodcemTěžko úroveň6 Otázky

Normalizace skupinových odměn v kvízu RLHF

Otestujte si své porozumění normalizaci seskupených odměn a algoritmu GRPO.

Související vodicí cesty

Otázka 1 z 6správně: 0

Jaká je při normalizaci seskupených odměn odměna jednotlivých odpovědí porovnána?