Voltar para todos os questionáriosQuestionário vinculado ao guiaMédio Nível6 Perguntas

Questionário de otimização de preferência direta

Teste sua compreensão de como funciona a Otimização de Preferência Direta e por que ela simplifica o alinhamento.

Caminhos de guia relacionados

Pergunta 1 de 6Correto: 0

O que o DPO elimina em comparação com o RLHF tradicional?