Voltar para todos os questionáriosQuestionário vinculado ao guiaMédio Nível6 Perguntas

DPO iterativo e questionário de ajuste de preferências on-line

Verifique se você entende como a otimização iterativa e de preferências on-line melhora os modelos de linguagem.

Pergunta 1 de 6Correto: 0

O que o DPO evita que o RLHF tradicional (PPO) exige?