Назад към всички викториниТест, свързан с ръководствоСреден Ниво6 Въпроси

Тест за оптимизиране на директни предпочитания

Тествайте разбирането си за това как работи директната оптимизация на предпочитанията и защо опростява подравняването.

Въпрос 1 на 6Правилно: 0

Какво елиминира DPO в сравнение с традиционния RLHF?