Επισκόπηση
Η συνταγματική τεχνητή νοημοσύνη είναι η μέθοδος του Anthropic για την ευθυγράμμιση μοντέλων χρησιμοποιώντας ένα γραπτό σύνολο αρχών — ένα «σύνταγμα» — επομένως το AI επικρίνει και αναθεωρεί τις δικές του απαντήσεις αντί να βασίζεται μόνο σε ανθρώπους για την επισήμανση επιβλαβούς περιεχομένου. Στόχος του είναι να κάνει τα μοντέλα χρήσιμα και αβλαβή με πολύ λιγότερη ανθρώπινη εργασία.
Το συνταγματικό AI είναι μέρος της στοίβας γλώσσας-AI που χρησιμοποιείται για την ανάγνωση, τη δημιουργία, την ταξινόμηση και τη μετατροπή κειμένου και ομιλίας σε κλίμακα.
Βαθιά κατάδυση
Η παραδοσιακή ευθυγράμμιση βασίζεται στην ενισχυτική μάθηση από την ανθρώπινη ανάδραση (RLHF), όπου οι άνθρωποι ταξινομούν πολλά αποτελέσματα μοντέλων, συμπεριλαμβανομένων των ενοχλητικών, για να διδάξουν στο μοντέλο τι να αποφεύγει. Η συνταγματική τεχνητή νοημοσύνη μειώνει αυτόν τον φόρτο δίνοντας στο μοντέλο μια ρητή λίστα γραπτών αρχών που προέρχονται από πηγές όπως η Διακήρυξη των Ανθρωπίνων Δικαιωμάτων του ΟΗΕ και οι βέλτιστες πρακτικές εμπιστοσύνης και ασφάλειας. Η εκπαίδευση έχει δύο στάδια. Πρώτον, ένα εποπτευόμενο στάδιο: το μοντέλο δημιουργεί μια απάντηση, στη συνέχεια το κριτικάρει ενάντια σε μια συνταγματική αρχή και το ξαναγράφει για να είναι καλύτερο. Αυτές οι αυτοβελτιωμένες απαντήσεις χρησιμοποιούνται για τη βελτιστοποίηση του. Δεύτερον, ένα στάδιο ενίσχυσης μάθησης, το RLAIF, όπου το ίδιο το μοντέλο κατατάσσει ζεύγη αποκρίσεων σύμφωνα με το σύνταγμα και ότι τα δεδομένα προτιμήσεων που δημιουργούνται από την τεχνητή νοημοσύνη εκπαιδεύουν ένα μοντέλο ανταμοιβής. Οι αρχές είναι διαφανείς και επεξεργάσιμες, καθιστώντας τις τιμές που καθοδηγούν το μοντέλο επιθεωρήσιμες και όχι κρυμμένες μέσα σε αδιαφανείς ανθρώπινες ετικέτες.
Τεχνική διορατικότητα
Οι δύο φάσεις ονομάζονται συχνά SL-CAI και RL-CAI. Στην εποπτευόμενη μάθηση, ένας βρόχος «κριτική και αναθεώρηση» ωθεί το μοντέλο να βρει πού η δική του απάντηση παραβιάζει μια αρχή του δείγματος και να την ξαναγράψει, δημιουργώντας δεδομένα εκπαίδευσης χωρίς επισήμανση ανθρώπινης βλάβης. Στη φάση RL, ένα δεύτερο μοντέλο κρίνει ποια από τις δύο απαντήσεις ακολουθεί καλύτερα τη σύσταση, παράγοντας ετικέτες προτίμησης AI (RLAIF) που εκπαιδεύουν ένα μοντέλο ανταμοιβής που χρησιμοποιείται στο τυπικό RL. Το σύνταγμα είναι μια καθοδήγηση απλού κειμένου που εισάγεται σε προτροπές, επομένως η αλλαγή της συμπεριφοράς του μοντέλου μπορεί να είναι τόσο άμεση όσο η επεξεργασία των αρχών.
Κατοχή Συνταγματικής ΤΝ
Η συνταγματική τεχνητή νοημοσύνη είναι η μέθοδος του Anthropic για την ευθυγράμμιση μοντέλων χρησιμοποιώντας ένα γραπτό σύνολο αρχών — ένα «σύνταγμα» — επομένως το AI επικρίνει και αναθεωρεί τις δικές του απαντήσεις αντί να βασίζεται μόνο σε ανθρώπους για την επισήμανση επιβλαβούς περιεχομένου. Στόχος του είναι να κάνει τα μοντέλα χρήσιμα και αβλαβή με πολύ λιγότερη ανθρώπινη εργασία. Το συνταγματικό AI είναι μέρος της στοίβας γλώσσας-AI που χρησιμοποιείται για την ανάγνωση, τη δημιουργία, την ταξινόμηση και τη μετατροπή κειμένου και ομιλίας σε κλίμακα. Για να χτίσετε βαθιά κατανόηση, αντιμετωπίστε το Συνταγματικό AI ως μοντέλο λειτουργίας, όχι ως ένα μοναδικό χαρακτηριστικό: ορίστε τα επιθυμητά αποτελέσματα, διευκρινίστε τις υποθέσεις και διαχωρίστε τι μπορεί να κάνει το σύστημα με αξιοπιστία από αυτό που απαιτεί ακόμη την κρίση των ειδικών.
Στην πράξη, ισχυρές ομάδες που χρησιμοποιούν συνταγματικές προτροπές σχεδίασης AI, βρόχους ανάκτησης και επανεξέτασης ως ένα ολοκληρωμένο σύστημα επικοινωνίας. Τεκμηριώνουν ρητά κριτήρια επιτυχίας, δοκιμάζουν με ρεαλιστικά δεδομένα και ροές εργασίας και επαναλαμβάνουν με βάση τα παρατηρούμενα μοτίβα αποτυχίας και όχι τις εφάπαξ νίκες αναφοράς. Αυτό είναι όπου η θεωρητική κατανόηση μετατρέπεται σε ανθεκτική ικανότητα σε όλα τα προϊόντα, την πολιτική και τις λειτουργίες.
Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια. Ταυτόχρονα, τα ψευδαισθησιακά γεγονότα μπορούν να εισάγουν αθόρυβα αναφορές, να υποστηρίζουν ροές ή ερευνητικά αποτελέσματα. Η πιο ανθεκτική προσέγγιση είναι ο συνδυασμός της ταχύτητας πειραματισμού με την πειθαρχία διακυβέρνησης: εκτέλεση πιλότων, λήψη στοιχείων, δημοσίευση αρχείων καταγραφής αποφάσεων και συνεχής ενημέρωση των διασφαλίσεων καθώς εξελίσσονται η συμπεριφορά του μοντέλου, οι προσδοκίες των χρηστών και οι ρυθμιστικές απαιτήσεις.
Στρατηγικός αντίκτυπος
Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια.
Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.
Επεκτείνει την πρόσβαση σε όλες τις γλώσσες και τα στυλ επικοινωνίας.
Επεκτείνει την πρόσβαση σε όλες τις γλώσσες και τα στυλ επικοινωνίας. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.
Οι ομάδες μπορούν να αφιερώσουν περισσότερο χρόνο στην κρίση, ενώ ο αυτοματισμός χειρίζεται την επανάληψη.
Οι ομάδες μπορούν να αφιερώσουν περισσότερο χρόνο στην κρίση, ενώ ο αυτοματισμός χειρίζεται την επανάληψη. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.
Υλοποίηση σε πραγματικό κόσμο
Εκπαίδευση ενός chatbot ώστε να αρνείται να βοηθήσει στην κατασκευή ενός όπλου, ζητώντας του να κριτικάρει το δικό του προσχέδιο απάντησης ενάντια σε μια αρχή αποφυγής βλάβης και να το ξαναγράψει
Αντικατάσταση της δαπανηρής επισήμανσης τοξικών προϊόντων από ανθρώπινη κόκκινη ομάδα με δεδομένα προτιμήσεων που δημιουργούνται από την τεχνητή νοημοσύνη (RLAIF) σύμφωνα με το σύνταγμα
Επεξεργασία μιας γραπτής αρχής για να προσαρμόσετε πόσο προσεκτικό είναι ένα μοντέλο και, στη συνέχεια, παρατηρήστε την αλλαγή συμπεριφοράς χωρίς να επαναπροσδιορίσετε χιλιάδες παραδείγματα
Εκτέλεση συλλογικών ασκήσεων εισαγωγής όπου το κοινό προτείνει αρχές που διαμορφώνουν τη δομή του μοντέλου
Πρότυπα Υλοποίησης
Συνταγματική τεχνητή νοημοσύνη στην πράξη
Εκπαίδευση ενός chatbot ώστε να αρνείται να βοηθήσει στην κατασκευή ενός όπλου, ζητώντας του να κριτικάρει το δικό του σχέδιο απάντησης ενάντια σε μια αρχή αποφυγής βλάβης και να το ξαναγράψει.
Εκπαίδευση ενός chatbot ώστε να αρνείται να βοηθήσει στην κατασκευή ενός όπλου, ζητώντας του να κριτικάρει τη δική του πρόχειρη απάντηση ενάντια σε μια αρχή αποφυγής βλάβης και να την ξαναγράψει.
Συνταγματική τεχνητή νοημοσύνη στην πράξη
Αντικατάσταση της δαπανηρής επισήμανσης τοξικών αποτελεσμάτων από την ανθρώπινη κόκκινη ομάδα με δεδομένα προτιμήσεων που δημιουργούνται από την τεχνητή νοημοσύνη (RLAIF) σύμφωνα με το Σύνταγμα.
Αντικατάσταση της δαπανηρής επισήμανσης τοξικών αποτελεσμάτων από την ανθρώπινη red-team με δεδομένα προτιμήσεων που δημιουργούνται από AI (RLAIF) που καθοδηγούνται από το καταστατικό.
Συνταγματική τεχνητή νοημοσύνη στην πράξη
Επεξεργασία μιας γραπτής αρχής για να προσαρμόσετε πόσο προσεκτικό είναι ένα μοντέλο και, στη συνέχεια, παρατηρήστε την αλλαγή συμπεριφοράς χωρίς να επαναπροσδιορίσετε χιλιάδες παραδείγματα.
Επεξεργασία μιας γραπτής αρχής για να προσαρμόσετε πόσο προσεκτικό είναι ένα μοντέλο και, στη συνέχεια, παρατηρώντας την αλλαγή συμπεριφοράς χωρίς να επαναπροσδιορίσετε χιλιάδες παραδείγματα.
Συνταγματική τεχνητή νοημοσύνη στην πράξη
Εκτέλεση συλλογικών ασκήσεων εισαγωγής όπου το κοινό προτείνει αρχές που διαμορφώνουν τη δομή του μοντέλου.
Εκτέλεση συλλογικών ασκήσεων εισαγωγής όπου το κοινό προτείνει αρχές που διαμορφώνουν τη δομή του μοντέλου. Οι ομάδες συνήθως λαμβάνουν καλύτερα αποτελέσματα όταν ορίζουν εκ των προτέρων όρια ποιότητας, διατηρούν μια ανθρώπινη πορεία κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.
Κίνδυνοι & προστατευτικά κιγκλιδώματα
Τα παραισθησιακά γεγονότα μπορούν να εισάγουν αθόρυβα αναφορές, να υποστηρίζουν ροές ή αποτελέσματα έρευνας.
Η άμεση ευαισθησία μπορεί να δημιουργήσει ασυνεπή αποτελέσματα σε παρόμοια αιτήματα.
Τα ευαίσθητα δεδομένα κειμένου ενδέχεται να εκτεθούν εάν τα στοιχεία ελέγχου πρόσβασης είναι αδύναμα.
Οδικός Χάρτης Εφαρμογής
Καθορίστε τη μορφή εξόδου, τον τόνο και τα πρότυπα ποιότητας πριν από την κυκλοφορία.
Καθορίστε τη μορφή εξόδου, τον τόνο και τα πρότυπα ποιότητας πριν από την κυκλοφορία. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.
Επίγειες απαντήσεις με αξιόπιστες πηγές όποτε έχει σημασία η ακρίβεια.
Επίγειες απαντήσεις με αξιόπιστες πηγές όποτε έχει σημασία η ακρίβεια. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.
Διατηρήστε ένα σημείο ελέγχου ανθρώπινης αξιολόγησης για αποτελέσματα υψηλού πονταρίσματος.
Διατηρήστε ένα σημείο ελέγχου ανθρώπινης αξιολόγησης για αποτελέσματα υψηλού πονταρίσματος. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.
Παρακολουθήστε τα μοτίβα αποτυχίας και επανεκπαιδεύστε τις προτροπές ή τις ροές εργασίας τακτικά.
Παρακολουθήστε τα μοτίβα αποτυχίας και επανεκπαιδεύστε τις προτροπές ή τις ροές εργασίας τακτικά. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.