← Επιστροφή σε όλα τα κουίζΚουίζ που συνδέεται με οδηγό • Μεσαίο Επίπεδο • 6 Ερωτήσεις
Επαναληπτικό κουίζ DPO και Online Preference Tuning
Ελέγξτε τον τρόπο με τον οποίο η επαναληπτική και διαδικτυακή βελτιστοποίηση προτιμήσεων βελτιώνει τα μοντέλα γλώσσας.
Ερώτηση 1 του 6Σωστό: 0