Τεχνικός ΟΔΗΓΟΣ

Ενισχυτική μάθηση από την ανθρώπινη ανατροφοδότηση

Το RLHF είναι η τεχνική που μετατρέπει ένα μοντέλο ακατέργαστης γλώσσας σε χρήσιμο, ευγενικό βοηθό εκπαιδεύοντάς το στις ανθρώπινες προτιμήσεις.

Επισκόπηση

Το RLHF είναι η τεχνική που μετατρέπει ένα μοντέλο ακατέργαστης γλώσσας σε χρήσιμο, ευγενικό βοηθό εκπαιδεύοντάς το στις ανθρώπινες προτιμήσεις. Έχει σημασία γιατί ευθυγραμμίζει τη συμπεριφορά του μοντέλου με αυτό που πραγματικά θέλουν οι άνθρωποι, όχι μόνο με αυτό που είναι στατιστικά πιθανό.

Το Reinforcement Learning From Human Feedback είναι ένα τεχνικό δομικό στοιχείο που επηρεάζει την ποιότητα του μοντέλου, το κόστος υποδομής, τον λανθάνοντα χρόνο και την αξιοπιστία σε κλίμακα.

Βαθιά κατάδυση

Ένα προκαταρτισμένο γλωσσικό μοντέλο προβλέπει εύλογο κείμενο, αλλά το αληθοφανές δεν είναι το ίδιο με το χρήσιμο, ειλικρινές ή ασφαλές. Το RLHF το διορθώνει σταδιακά. Πρώτον, η εποπτευόμενη λεπτομέρεια διδάσκει στο μοντέλο να ακολουθεί οδηγίες χρησιμοποιώντας παραδείγματα απαντήσεων που έχουν γραφτεί από άνθρωπο. Στη συνέχεια, οι άνθρωποι συγκρίνουν ζεύγη αποκρίσεων μοντέλου με την ίδια προτροπή και επιλέγουν την καλύτερη. Αυτές οι συγκρίσεις εκπαιδεύουν ένα ξεχωριστό μοντέλο ανταμοιβής που βαθμολογεί κάθε απάντηση. Τέλος, το γλωσσικό μοντέλο βελτιστοποιείται με ενισχυτική μάθηση για να παράγει απαντήσεις, το μοντέλο ανταμοιβής βαθμολογεί υψηλά. Μια ποινή το εμποδίζει να απομακρυνθεί πολύ από το αρχικό μοντέλο, ώστε να παραμένει άπταιστα και να μην εκμεταλλεύεται τις ιδιορρυθμίες του μοντέλου ανταμοιβής. Το RLHF ήταν κεντρικό για τη χρήση βοηθών τύπου ChatGPT.

Τεχνική διορατικότητα

Το μοντέλο ανταμοιβής συνήθως εκπαιδεύεται σε ζευγάρια προτιμήσεων με απώλεια στυλ Bradley-Terry, μαθαίνοντας να δίνει στην απάντηση που προτιμά ο άνθρωπος υψηλότερη βαθμολογία. Στη συνέχεια, η πολιτική ενημερώνεται με το PPO (Proximal Policy Optimization), το οποίο μεγιστοποιεί την ανταμοιβή, ενώ μια ποινή απόκλισης KL έναντι του μοντέλου αναφοράς αποτρέπει την υπερβολική βελτιστοποίηση και την «παραβίαση ανταμοιβής». Επειδή το PPO είναι δυσνόητο, οι νεότερες μέθοδοι όπως το DPO (Direct Preference Optimization) παρακάμπτουν το ρητό μοντέλο ανταμοιβής και τον βρόχο ενίσχυσης, βελτιστοποιώντας την πολιτική απευθείας από τα ζεύγη προτιμήσεων.

Μάθηση Ενίσχυσης από την Ανθρώπινη Ανατροφοδότηση

Το RLHF είναι η τεχνική που μετατρέπει ένα μοντέλο ακατέργαστης γλώσσας σε χρήσιμο, ευγενικό βοηθό εκπαιδεύοντάς το στις ανθρώπινες προτιμήσεις. Έχει σημασία γιατί ευθυγραμμίζει τη συμπεριφορά του μοντέλου με αυτό που πραγματικά θέλουν οι άνθρωποι, όχι μόνο με αυτό που είναι στατιστικά πιθανό. Το Reinforcement Learning From Human Feedback είναι ένα τεχνικό δομικό στοιχείο που επηρεάζει την ποιότητα του μοντέλου, το κόστος υποδομής, τον λανθάνοντα χρόνο και την αξιοπιστία σε κλίμακα. Για να δημιουργήσετε βαθιά κατανόηση, αντιμετωπίστε το Reinforcement Learning From Human Feedback ως λειτουργικό μοντέλο, όχι ως ένα μεμονωμένο χαρακτηριστικό: ορίστε τα επιθυμητά αποτελέσματα, διευκρινίστε τις υποθέσεις και διαχωρίστε τι μπορεί να κάνει το σύστημα με αξιοπιστία από αυτό που εξακολουθεί να απαιτεί την κρίση των ειδικών.

Στην πράξη, ισχυρές ομάδες που χρησιμοποιούν το Reinforcement Learning From Human Feedback βελτιστοποιούν τις επιλογές αρχιτεκτονικής, δεδομένων και υποδομής έναντι της αξιοπιστίας και του κόστους. Τεκμηριώνουν ρητά κριτήρια επιτυχίας, δοκιμάζουν με ρεαλιστικά δεδομένα και ροές εργασίας και επαναλαμβάνουν με βάση τα παρατηρούμενα μοτίβα αποτυχίας και όχι τις εφάπαξ νίκες αναφοράς. Αυτό είναι όπου η θεωρητική κατανόηση μετατρέπεται σε ανθεκτική ικανότητα σε όλα τα προϊόντα, την πολιτική και τις λειτουργίες.

Οι αποφάσεις για την αρχιτεκτονική καθορίζουν την απόδοση και το λειτουργικό κόστος για χρόνια. Ταυτόχρονα, η Βελτιστοποίηση ενός σημείου αναφοράς μπορεί να κρύψει ευρύτερες αδυναμίες του συστήματος. Η πιο ανθεκτική προσέγγιση είναι ο συνδυασμός της ταχύτητας πειραματισμού με την πειθαρχία διακυβέρνησης: εκτέλεση πιλότων, λήψη στοιχείων, δημοσίευση αρχείων καταγραφής αποφάσεων και συνεχής ενημέρωση των διασφαλίσεων καθώς εξελίσσονται η συμπεριφορά του μοντέλου, οι προσδοκίες των χρηστών και οι ρυθμιστικές απαιτήσεις.

Στρατηγικός αντίκτυπος

Οι αποφάσεις για την αρχιτεκτονική καθορίζουν την απόδοση και το λειτουργικό κόστος για χρόνια.

Οι αποφάσεις για την αρχιτεκτονική καθορίζουν την απόδοση και το λειτουργικό κόστος για χρόνια. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Η τεχνική εκπαίδευση βοηθά τις ομάδες να επιλέξουν τη σωστή στοίβα, όχι μόνο τη νεότερη.

Η τεχνική εκπαίδευση βοηθά τις ομάδες να επιλέξουν τη σωστή στοίβα, όχι μόνο τη νεότερη. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Οι καλύτερες επιλογές μηχανικής μειώνουν τα περιστατικά αξιοπιστίας στην παραγωγή.

Οι καλύτερες επιλογές μηχανικής μειώνουν τα περιστατικά αξιοπιστίας στην παραγωγή. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Το Μέλλον της Ενισχυτικής Μάθησης από την Ανθρώπινη Ανατροφοδότηση

Το RLHF εκσυγχρονίζεται και εν μέρει αυτοματοποιείται. Το DPO και οι σχετικές μέθοδοι άμεσης προτίμησης αντικαθιστούν τον βαρύ αγωγό PPO για πολλές ομάδες και το RLAIF χρησιμοποιεί ανατροφοδότηση που δημιουργείται από την τεχνητή νοημοσύνη (όπως στο Constitutional AI) για να μειώσει το κόστος επισήμανσης. Η έρευνα αντιμετωπίζει το hacking ανταμοιβής, την προκατάληψη των σχολιαστών και τη δυσκολία να κρίνουμε μακροσκελείς ή ειδικές απαντήσεις, με τεχνικές όπως η επίβλεψη διαδικασίας και η συζήτηση. Αναμένετε ευθυγράμμιση για να συνδυάσει ανατροφοδότηση ανθρώπου και τεχνητής νοημοσύνης, πλουσιότερα σήματα ανταμοιβής πέρα ​​από ένα μόνο αντίχειρα και αυξανόμενο έλεγχο του ποιος παρέχει τις προτιμήσεις και ποιες τιμές κωδικοποιούν.

Υλοποίηση σε πραγματικό κόσμο

Συντονίζοντας έναν βοηθό συνομιλίας ώστε να απορρίπτει επιβλαβή αιτήματα και να δίνει χρήσιμες, καλά δομημένες απαντήσεις και όχι απλώς εύλογο κείμενο.

Κατάταξη ζευγών περιλήψεων με βάση την ανθρώπινη προτίμηση για την εκπαίδευση ενός μοντέλου που γράφει περιλήψεις που οι άνθρωποι θεωρούν πραγματικά χρήσιμες.

Μείωση τοξικών ή προκατειλημμένων εκροών επιβραβεύοντας τις απαντήσεις που οι αξιολογητές κρίνουν ότι είναι σεβαστές και ασφαλείς.

Χρήση DPO σε ένα σύνολο δεδομένων προτιμώμενων απαντήσεων έναντι των απορριφθέντων απαντήσεων για την ευθυγράμμιση ενός μοντέλου ανοιχτού κώδικα χωρίς την εκτέλεση πλήρους βρόχου PPO.

Πρότυπα Υλοποίησης

Ενισχυτική μάθηση από την ανθρώπινη ανατροφοδότηση στην πράξη

Συντονίζοντας έναν βοηθό συνομιλίας ώστε να απορρίπτει επιβλαβή αιτήματα και να δίνει χρήσιμες, καλά δομημένες απαντήσεις και όχι απλώς εύλογο κείμενο.

Συντονίζοντας έναν βοηθό συνομιλίας ώστε να απορρίπτει επιβλαβή αιτήματα και να δίνει χρήσιμες, καλά δομημένες απαντήσεις και όχι απλά εύλογο κείμενο.

Ενισχυτική μάθηση από την ανθρώπινη ανατροφοδότηση στην πράξη

Κατάταξη ζευγών περιλήψεων με βάση την ανθρώπινη προτίμηση για την εκπαίδευση ενός μοντέλου που γράφει περιλήψεις που οι άνθρωποι θεωρούν πραγματικά χρήσιμες.

Κατάταξη ζευγών περιλήψεων με βάση την ανθρώπινη προτίμηση για εκπαίδευση ενός μοντέλου που γράφει περιλήψεις οι άνθρωποι βρίσκουν πραγματικά χρήσιμες. Οι ομάδες συνήθως λαμβάνουν καλύτερα αποτελέσματα όταν ορίζουν κατώφλια ποιότητας εκ των προτέρων, διατηρούν μια ανθρώπινη διαδρομή κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.

Ενισχυτική μάθηση από την ανθρώπινη ανατροφοδότηση στην πράξη

Μείωση τοξικών ή προκατειλημμένων εκροών επιβραβεύοντας τις απαντήσεις που οι αξιολογητές κρίνουν ότι είναι σεβαστές και ασφαλείς.

Μείωση τοξικών ή προκατειλημμένων αποτελεσμάτων επιβραβεύοντας απαντήσεις που οι αξιολογητές κρίνουν με σεβασμό και ασφάλεια. Οι ομάδες συνήθως λαμβάνουν καλύτερα αποτελέσματα όταν ορίζουν κατώφλια ποιότητας εκ των προτέρων, διατηρούν μια ανθρώπινη πορεία κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.

Ενισχυτική μάθηση από την ανθρώπινη ανατροφοδότηση στην πράξη

Χρήση DPO σε ένα σύνολο δεδομένων προτιμώμενων απαντήσεων έναντι των απορριφθέντων απαντήσεων για την ευθυγράμμιση ενός μοντέλου ανοιχτού κώδικα χωρίς την εκτέλεση πλήρους βρόχου PPO.

Χρησιμοποιώντας το DPO σε ένα σύνολο δεδομένων προτιμώμενων απαντήσεων έναντι των απορριφθέντων για την ευθυγράμμιση ενός μοντέλου ανοιχτού κώδικα χωρίς την εκτέλεση πλήρους βρόχου PPO Οι ομάδες συνήθως λαμβάνουν καλύτερα αποτελέσματα όταν ορίζουν κατώφλια ποιότητας εκ των προτέρων, διατηρούν μια ανθρώπινη διαδρομή κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.

Κίνδυνοι & προστατευτικά κιγκλιδώματα

!

Η βελτιστοποίηση ενός σημείου αναφοράς μπορεί να κρύψει ευρύτερες αδυναμίες του συστήματος.

!

Το κόστος υποδομής και συντήρησης συχνά υποτιμάται.

!

Τα κενά ασφάλειας και παρατηρητικότητας μπορούν να αυξηθούν καθώς τα συστήματα γίνονται πιο πολύπλοκα.

Οδικός Χάρτης Εφαρμογής

1

Καθορίστε τους στόχους καθυστέρησης, ποιότητας και κόστους πριν από την εφαρμογή.

Καθορίστε τους στόχους καθυστέρησης, ποιότητας και κόστους πριν από την εφαρμογή. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

2

Σημείο αναφοράς υπό ρεαλιστικές συνθήκες φορτίου και δεδομένων.

Σημείο αναφοράς υπό ρεαλιστικές συνθήκες φορτίου και δεδομένων. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

3

Παρακολούθηση οργάνου για σφάλματα, μετατόπιση και επιπτώσεις από τον χρήστη.

Παρακολούθηση οργάνου για σφάλματα, μετατόπιση και επιπτώσεις από τον χρήστη. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

4

Προετοιμάστε διαδρομές επαναφοράς και απόκρισης συμβάντος πριν την κλιμάκωση.

Προετοιμάστε διαδρομές επαναφοράς και απόκρισης συμβάντος πριν την κλιμάκωση. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

Συνεχίστε την εξερεύνηση