← Назад към всички викториниТест, свързан с ръководство • Среден Ниво • 6 Въпроси

Итеративно DPO и онлайн тест за настройка на предпочитанията

Проверете разбирането си как итеративната и онлайн оптимизацията на предпочитанията подобряват езиковите модели.

Свързани ръководни пътеки

Въпрос 1 на 6Правилно: 0

Какво избягва DPO, което изисква традиционният RLHF (PPO)?