Powrót do wszystkich quizówQuiz połączony z przewodnikiemŚredni Poziom6 Pytania

Quiz dotyczący optymalizacji preferencji bezpośrednich

Sprawdź, czy rozumiesz, jak działa bezpośrednia optymalizacja preferencji i dlaczego upraszcza ona dopasowanie.

Powiązane ścieżki prowadzące

Pytanie 1 z 6Poprawnie: 0

Co eliminuje DPO w porównaniu z tradycyjnym RLHF?