Powrót do wszystkich quizówQuiz połączony z przewodnikiemŚredni Poziom6 Pytania

Quiz dotyczący optymalizacji polityki proksymalnej

Sprawdź, czy rozumiesz, w jaki sposób PPO stabilizuje uczenie się przez wzmacnianie i jego rolę w RLHF.

Powiązane ścieżki prowadzące

Pytanie 1 z 6Poprawnie: 0

Jaki problem rozwiązuje przede wszystkim „obcinanie” PPO?