Zurück zu allen QuizzenMit dem Guide verknüpftes QuizSchwer Ebene6 Fragen

Quiz zur Gruppenrelativen Richtlinienoptimierung

Testen Sie Ihr Verständnis dafür, wie GRPO Sprachmodelle mit Reinforcement Learning trainiert.

Frage 1 von 6Richtig: 0

Welche Hauptkomponente von PPO eliminiert GRPO?