← Powrót do wszystkich quizówQuiz połączony z przewodnikiem • Średni Poziom • 6 Pytania

Iteracyjny inspektor ochrony danych i quiz dotyczący dostrajania preferencji online

Sprawdź, jak rozumiesz, w jaki sposób iteracyjna optymalizacja preferencji online poprawia modele językowe.

Powiązane ścieżki prowadzące

Pytanie 1 z 6Poprawnie: 0

Czego DPO unika, czego wymaga tradycyjny RLHF (PPO)?