← Επιστροφή σε όλα τα κουίζΚουίζ που συνδέεται με οδηγό • Μεσαίο Επίπεδο • 6 Ερωτήσεις

Επαναληπτικό κουίζ DPO και Online Preference Tuning

Ελέγξτε τον τρόπο με τον οποίο η επαναληπτική και διαδικτυακή βελτιστοποίηση προτιμήσεων βελτιώνει τα μοντέλα γλώσσας.

Σχετικές διαδρομές οδηγών

Ερώτηση 1 του 6Σωστό: 0

Τι αποφεύγει ο DPO που απαιτεί το παραδοσιακό RLHF (PPO);