Powrót do wszystkich quizówQuiz połączony z przewodnikiemŚredni Poziom6 Pytania

Iteracyjny DPO i quiz dotyczący dostrajania preferencji online

Sprawdź, jak rozumiesz, w jaki sposób iteracyjna optymalizacja preferencji online poprawia modele językowe.

Powiązane ścieżki prowadzące

Pytanie 1 z 6Poprawnie: 0

Czego DPO unika, czego wymaga tradycyjny RLHF (PPO)?