Επιστροφή σε όλα τα κουίζΚουίζ που συνδέεται με οδηγόΜεσαίο Επίπεδο6 Ερωτήσεις

Επαναληπτικό κουίζ DPO και Online Preference Tuning

Ελέγξτε τον τρόπο με τον οποίο η επαναληπτική και διαδικτυακή βελτιστοποίηση προτιμήσεων βελτιώνει τα μοντέλα γλώσσας.

Ερώτηση 1 του 6Σωστό: 0

Τι αποφεύγει ο DPO που απαιτεί το παραδοσιακό RLHF (PPO);