Назад към всички викториниТест, свързан с ръководствоСреден Ниво6 Въпроси

Итеративно DPO и онлайн тест за настройка на предпочитанията

Проверете разбирането си как итеративната и онлайн оптимизацията на предпочитанията подобряват езиковите модели.

Въпрос 1 на 6Правилно: 0

Какво избягва DPO, което изисква традиционният RLHF (PPO)?