Tilbake til alle quizerGuide-lenket quizHardt Nivå6 Spørsmål

Optimaliseringsquiz for grupperelativ policy

Test din forståelse av hvordan GRPO trener språkmodeller med forsterkende læring.

Spørsmål 1 av 6Riktig: 0

Hvilken hovedkomponent av PPO eliminerer GRPO?