Tillbaka till alla frågesporterGuidelänkat frågesportMedium Nivå6 Frågor

Frågesport för proximal policyoptimering

Testa din förståelse för hur PPO stabiliserar förstärkningsinlärning och dess roll i RLHF.

Relaterade ledstråk

Fråga 1 av 6Rätt: 0

Vilket problem tar PPO:s "klippning" främst upp?