← Zurück zu allen QuizzenMit dem Guide verknüpftes Quiz • Schwer Ebene • 6 Fragen

Quiz zur Gruppenrelativen Richtlinienoptimierung

Testen Sie Ihr Verständnis dafür, wie GRPO Sprachmodelle mit Reinforcement Learning trainiert.

Verwandte Führungspfade

Frage 1 von 6Richtig: 0

Welche Hauptkomponente von PPO eliminiert GRPO?