← Tillbaka till alla frågesporterGuidelänkat frågesport • Medium Nivå • 6 Frågor
Frågesport för proximal policyoptimering
Testa din förståelse för hur PPO stabiliserar förstärkningsinlärning och dess roll i RLHF.
Fråga 1 av 6Rätt: 0
Testa din förståelse för hur PPO stabiliserar förstärkningsinlärning och dess roll i RLHF.