Vissza az összes kvízhezÚtmutatóhoz kapcsolódó kvízKemény Szint6 Kérdések

Csoportosított jutalom normalizálása RLHF kvízben

Tesztelje, hogy megértette a csoportos jutalom normalizálását és a GRPO algoritmust.

kérdés 1 -ból 6Helyes: 0

A csoportos jutalomnormalizálás során mihez viszonyítjuk az egyes válaszok jutalmát?