Vissza az összes kvízhezÚtmutatóhoz kapcsolódó kvízKözepes Szint6 Kérdések

Iteratív adatvédelmi tisztviselő és online preferenciahangoló kvíz

Ellenőrizze, hogy az iteratív és online preferenciaoptimalizálás hogyan javítja a nyelvi modelleket.

kérdés 1 a 6Helyes: 0

Mit kerüljön el az adatvédelmi tisztviselő, amit a hagyományos RLHF (PPO) megkövetel?