Назад до всіх тестівВікторина, пов’язана з посібникомСередній Рівень6 Питання

Ітеративний DPO та онлайн-тест із налаштування параметрів

Перевірте своє розуміння того, як ітераційна оптимізація та онлайн-оптимізація налаштувань покращують мовні моделі.

Питання 1 з 6Правильно: 0

Чого уникає DPO, а що вимагає традиційний RLHF (PPO)?