Zurück zu allen QuizzenMit dem Guide verknüpftes QuizSchwer Ebene6 Fragen

Gruppierte Belohnungsnormalisierung im RLHF-Quiz

Testen Sie Ihr Verständnis der Normalisierung gruppierter Belohnungen und des GRPO-Algorithmus.

Frage 1 von 6Richtig: 0

Womit wird bei der gruppierten Belohnungsnormalisierung die Belohnung jeder Antwort verglichen?