← Voltar para todos os questionáriosQuestionário vinculado ao guia • Médio Nível • 6 Perguntas

DPO iterativo e questionário de ajuste de preferências on-line

Verifique se você entende como a otimização iterativa e de preferências on-line melhora os modelos de linguagem.

Caminhos de guia relacionados

Pergunta 1 de 6Correto: 0

O que o DPO evita que o RLHF tradicional (PPO) exige?