← Назад до всіх тестівВікторина, пов’язана з посібником • Середній Рівень • 6 Питання

Ітеративний DPO та онлайн-тест із налаштування параметрів

Перевірте своє розуміння того, як ітераційна оптимізація та онлайн-оптимізація налаштувань покращують мовні моделі.

Пов'язані напрямні шляхи

Питання 1 з 6Правильно: 0

Чого уникає DPO, а що вимагає традиційний RLHF (PPO)?