ΟΔΗΓΟΣ ΓΛΩΣΣΑΣ AI

Βελτιστοποίηση άμεσης προτίμησης

Το Direct Preference Optimization (DPO) είναι ένας τρόπος για να ευθυγραμμιστούν τα μοντέλα γλώσσας με τις ανθρώπινες προτιμήσεις χωρίς να εκπαιδεύσετε ένα ξεχωριστό μοντέλο ανταμοιβής ή να εκτελέσετε ενισχυτική μάθηση.

Επισκόπηση

Το Direct Preference Optimization (DPO) είναι ένας τρόπος για να ευθυγραμμιστούν τα μοντέλα γλώσσας με τις ανθρώπινες προτιμήσεις χωρίς να εκπαιδεύσετε ένα ξεχωριστό μοντέλο ανταμοιβής ή να εκτελέσετε ενισχυτική μάθηση. Καταρρέει έναν σύνθετο αγωγό πολλαπλών σταδίων σε μια ενιαία, σταθερή απώλεια προπόνησης.

Το Direct Preference Optimization είναι μέρος της στοίβας γλώσσας-AI που χρησιμοποιείται για την ανάγνωση, τη δημιουργία, την ταξινόμηση και τη μετατροπή κειμένου και ομιλίας σε κλίμακα.

Βαθιά κατάδυση

Το DPO, που εισήχθη από τον Rafailov και τους συνεργάτες του στο Stanford το 2023, επανεξετάζει πώς διδάσκουμε σε ένα μοντέλο τι προτιμούν οι άνθρωποι. Η παραδοσιακή προσέγγιση (RLHF) εκπαιδεύει ένα μοντέλο ανταμοιβής σε ανθρώπινες συγκρίσεις και στη συνέχεια χρησιμοποιεί ενισχυτική μάθηση για να μεγιστοποιήσει αυτή την ανταμοιβή. Η βασική γνώση του DPO είναι μαθηματική: η βέλτιστη πολιτική βάσει αυτού του στόχου RLHF έχει μια σχέση κλειστής μορφής με την ανταμοιβή, ώστε να μπορείτε να αναδιατάξετε τις εξισώσεις και να βελτιστοποιήσετε το γλωσσικό μοντέλο απευθείας στα ζεύγη προτιμήσεων. Του δίνετε μια προτροπή, μια «επιλεγμένη» (προτιμώμενη) απάντηση και μια απάντηση «απορρίφθηκε», και μια απλή απώλεια τύπου ταξινόμησης ωθεί το μοντέλο να κάνει την επιλεγμένη απάντηση σχετικά πιο πιθανή. Χωρίς μοντέλο ανταμοιβής, χωρίς βρόχο δειγματοληψίας, χωρίς hacking ανταμοιβής. Είναι πολύ πιο απλό και πιο σταθερό στη λειτουργία.

Τεχνική διορατικότητα

Το DPO χρησιμοποιεί μια δυαδική απώλεια διασταυρούμενης εντροπίας σε σχέση με τα ζεύγη προτιμήσεων. Αυξάνει την αναλογία λογαριθμικής πιθανότητας της επιλεγμένης απόκρισης σε σχέση με την απορριφθείσα, καθεμία μετρούμενη σε σχέση με ένα παγωμένο μοντέλο αναφοράς (συνήθως το σημείο εκκίνησης με εποπτευόμενο-λεπτοσυντονισμένο). Μια παράμετρος θερμοκρασίας beta ελέγχει πόσο μακριά μπορεί να απομακρυνθεί η πολιτική από αυτήν την αναφορά, επιβάλλοντας σιωπηρά τον περιορισμό KL που εφαρμόζει ρητά το RLHF. Η ανταμοιβή δεν υλοποιείται ποτέ. είναι σιωπηρή στις λογιστικές πιθανότητες της ίδιας της πολιτικής.

Κατακτήστε τη βελτιστοποίηση άμεσης προτίμησης

Το Direct Preference Optimization (DPO) είναι ένας τρόπος για να ευθυγραμμιστούν τα μοντέλα γλώσσας με τις ανθρώπινες προτιμήσεις χωρίς να εκπαιδεύσετε ένα ξεχωριστό μοντέλο ανταμοιβής ή να εκτελέσετε ενισχυτική μάθηση. Καταρρέει έναν σύνθετο αγωγό πολλαπλών σταδίων σε μια ενιαία, σταθερή απώλεια προπόνησης. Το Direct Preference Optimization είναι μέρος της στοίβας γλώσσας-AI που χρησιμοποιείται για την ανάγνωση, τη δημιουργία, την ταξινόμηση και τη μετατροπή κειμένου και ομιλίας σε κλίμακα. Για να δημιουργήσετε βαθιά κατανόηση, αντιμετωπίστε τη Βελτιστοποίηση Άμεσης Προτίμησης ως λειτουργικό μοντέλο, όχι ως ένα μεμονωμένο χαρακτηριστικό: ορίστε τα επιθυμητά αποτελέσματα, διευκρινίστε τις υποθέσεις και διαχωρίστε τι μπορεί να κάνει το σύστημα με αξιοπιστία από αυτό που εξακολουθεί να απαιτεί την κρίση των ειδικών.

Στην πράξη, ισχυρές ομάδες που χρησιμοποιούν τη Βελτιστοποίηση Άμεσης Προτίμησης σχεδιάζουν βρόχους προτροπών, ανάκτησης και επανεξέτασης ως ένα ολοκληρωμένο σύστημα επικοινωνίας. Τεκμηριώνουν ρητά κριτήρια επιτυχίας, δοκιμάζουν με ρεαλιστικά δεδομένα και ροές εργασίας και επαναλαμβάνουν με βάση τα παρατηρούμενα μοτίβα αποτυχίας και όχι τις εφάπαξ νίκες αναφοράς. Αυτό είναι όπου η θεωρητική κατανόηση μετατρέπεται σε ανθεκτική ικανότητα σε όλα τα προϊόντα, την πολιτική και τις λειτουργίες.

Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια. Ταυτόχρονα, τα ψευδαισθησιακά γεγονότα μπορούν να εισάγουν αθόρυβα αναφορές, να υποστηρίζουν ροές ή ερευνητικά αποτελέσματα. Η πιο ανθεκτική προσέγγιση είναι ο συνδυασμός της ταχύτητας πειραματισμού με την πειθαρχία διακυβέρνησης: εκτέλεση πιλότων, λήψη στοιχείων, δημοσίευση αρχείων καταγραφής αποφάσεων και συνεχής ενημέρωση των διασφαλίσεων καθώς εξελίσσονται η συμπεριφορά του μοντέλου, οι προσδοκίες των χρηστών και οι ρυθμιστικές απαιτήσεις.

Στρατηγικός αντίκτυπος

Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια.

Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Επεκτείνει την πρόσβαση σε όλες τις γλώσσες και τα στυλ επικοινωνίας.

Επεκτείνει την πρόσβαση σε όλες τις γλώσσες και τα στυλ επικοινωνίας. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Οι ομάδες μπορούν να αφιερώσουν περισσότερο χρόνο στην κρίση, ενώ ο αυτοματισμός χειρίζεται την επανάληψη.

Οι ομάδες μπορούν να αφιερώσουν περισσότερο χρόνο στην κρίση, ενώ ο αυτοματισμός χειρίζεται την επανάληψη. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Το μέλλον της βελτιστοποίησης άμεσης προτίμησης

Η DPO έχει γίνει μια προεπιλεγμένη μέθοδος ευθυγράμμισης επειδή είναι φθηνή και αναπαραγώγιμη και δημιούργησε μια οικογένεια παραλλαγών: η IPO διορθώνει την υπερπροσαρμογή σε σχεδόν ντετερμινιστικές προτιμήσεις, η KTO μαθαίνει από μεμονωμένες ετικέτες καλές ή κακές αντί για ζεύγη και το ORPO διπλώνει την εκμάθηση προτιμήσεων σε τελειοποίηση χωρίς μοντέλο αναφοράς. Αναμένετε τη συνέχιση των εργασιών για το συνδυασμό DPO με δεδομένα σχετικά με την πολιτική και απόκλιση μήκους/ποιότητας, μειώνοντας το κενό που απομένει με το πλήρες διαδικτυακό RLHF.

Υλοποίηση σε πραγματικό κόσμο

Βελτιστοποιήστε τα ανοιχτά μοντέλα συνομιλίας όπως το Zephyr και πολλά παράγωγα Llama και Mistral, τα οποία ευθυγραμμίστηκαν με το DPO σε σύνολα δεδομένων προτιμήσεων

Μείωση επιβλαβών ή μη χρήσιμων αποτελεσμάτων χρησιμοποιώντας ζεύγη όπου η ασφαλής, χρήσιμη απάντηση «επιλέγεται» έναντι μιας προβληματικής

Διδάσκοντας έναν βοηθό κωδικοποίησης να προτιμά τις σωστές, καλά τεκμηριωμένες λύσεις σε σχέση με τις λύσεις με buggy χρησιμοποιώντας συγκρίσεις με βαθμολογία προγραμματιστή

Συντονίστε το στυλ σύνοψης, έτσι ώστε τα μοντέλα να προτιμούν τις συνοπτικές, πιστές περιλήψεις σε σχέση με τις περιγραφικές ή τις παραισθήσεις

Πρότυπα Υλοποίησης

Βελτιστοποίηση Άμεσης Προτίμησης στην πράξη

Βελτιώστε τα ανοιχτά μοντέλα συνομιλίας, όπως το Zephyr και πολλά παράγωγα Llama και Mistral, τα οποία ευθυγραμμίστηκαν με το DPO σε σύνολα δεδομένων προτιμήσεων.

Βελτιστοποιώντας ανοιχτά μοντέλα συνομιλίας όπως το Zephyr και πολλά παράγωγα Llama και Mistral, τα οποία ευθυγραμμίστηκαν με το DPO σε σύνολα δεδομένων προτιμήσεων.

Βελτιστοποίηση Άμεσης Προτίμησης στην πράξη

Μείωση επιβλαβών ή μη χρήσιμων αποτελεσμάτων χρησιμοποιώντας ζεύγη όπου η ασφαλής, χρήσιμη απάντηση «επιλέγεται» έναντι μιας προβληματικής.

Μείωση των επιβλαβών ή μη χρήσιμων αποτελεσμάτων χρησιμοποιώντας ζεύγη όπου η ασφαλής, χρήσιμη απάντηση «επιλέγεται» έναντι μιας προβληματικής.

Βελτιστοποίηση Άμεσης Προτίμησης στην πράξη

Διδάσκοντας έναν βοηθό κωδικοποίησης να προτιμά σωστές, καλά τεκμηριωμένες λύσεις έναντι σφαλμάτων χρησιμοποιώντας συγκρίσεις με βαθμολογία προγραμματιστή.

Διδάσκοντας έναν βοηθό κωδικοποίησης να προτιμά σωστές, καλά τεκμηριωμένες λύσεις έναντι λύσεων με buggy, χρησιμοποιώντας συγκρίσεις με αξιολόγηση προγραμματιστή.

Βελτιστοποίηση Άμεσης Προτίμησης στην πράξη

Συντονίστε το στυλ σύνοψης, έτσι ώστε τα μοντέλα να προτιμούν τις συνοπτικές, πιστές περιλήψεις σε σχέση με τις περιληπτικές ή τις παραισθήσεις.

Συντονίζοντας το στυλ σύνοψης, έτσι ώστε τα μοντέλα να προτιμούν τις συνοπτικές, πιστές περιλήψεις σε σχέση με τις περίπλοκες ή με παραισθήσεις.

Κίνδυνοι & προστατευτικά κιγκλιδώματα

!

Τα παραισθησιακά γεγονότα μπορούν να εισάγουν αθόρυβα αναφορές, να υποστηρίζουν ροές ή αποτελέσματα έρευνας.

!

Η άμεση ευαισθησία μπορεί να δημιουργήσει ασυνεπή αποτελέσματα σε παρόμοια αιτήματα.

!

Τα ευαίσθητα δεδομένα κειμένου ενδέχεται να εκτεθούν εάν τα στοιχεία ελέγχου πρόσβασης είναι αδύναμα.

Οδικός Χάρτης Εφαρμογής

1

Καθορίστε τη μορφή εξόδου, τον τόνο και τα πρότυπα ποιότητας πριν από την κυκλοφορία.

Καθορίστε τη μορφή εξόδου, τον τόνο και τα πρότυπα ποιότητας πριν από την κυκλοφορία. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

2

Επίγειες απαντήσεις με αξιόπιστες πηγές όποτε έχει σημασία η ακρίβεια.

Επίγειες απαντήσεις με αξιόπιστες πηγές όποτε έχει σημασία η ακρίβεια. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

3

Διατηρήστε ένα σημείο ελέγχου ανθρώπινης αξιολόγησης για αποτελέσματα υψηλού πονταρίσματος.

Διατηρήστε ένα σημείο ελέγχου ανθρώπινης αξιολόγησης για αποτελέσματα υψηλού πονταρίσματος. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

4

Παρακολουθήστε τα μοτίβα αποτυχίας και επανεκπαιδεύστε τις προτροπές ή τις ροές εργασίας τακτικά.

Παρακολουθήστε τα μοτίβα αποτυχίας και επανεκπαιδεύστε τις προτροπές ή τις ροές εργασίας τακτικά. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

Συνεχίστε την εξερεύνηση