ΟΔΗΓΟΣ ΓΛΩΣΣΑΣ AI

Νόμοι για την κλιμάκωση των τσιντσιλά

Οι νόμοι κλιμάκωσης Chinchilla, από το DeepMind το 2022, έδειξαν ότι τα περισσότερα μοντέλα μεγάλων γλωσσών δεν ήταν καλά εκπαιδευμένα: για έναν σταθερό υπολογιστικό προϋπολογισμό, θα πρέπει να κλιμακώσετε το μέγεθος του μοντέλου και τα δεδομένα εκπαίδευσης περίπου σε ίση αναλογία.

Επισκόπηση

Οι νόμοι κλιμάκωσης Chinchilla, από το DeepMind το 2022, έδειξαν ότι τα περισσότερα μοντέλα μεγάλων γλωσσών δεν ήταν καλά εκπαιδευμένα: για έναν σταθερό υπολογιστικό προϋπολογισμό, θα πρέπει να κλιμακώσετε το μέγεθος του μοντέλου και τα δεδομένα εκπαίδευσης περίπου σε ίση αναλογία. Έχει σημασία γιατί επαναπροσδιόρισε τι σημαίνει «βέλτιστο» μέγεθος μοντέλου και αναμόρφωσε τον τρόπο με τον οποίο τα εργαστήρια ξοδεύουν τους υπολογισμούς.

Το Chinchilla Scaling Laws είναι μέρος της στοίβας γλώσσας-AI που χρησιμοποιείται για την ανάγνωση, τη δημιουργία, την ταξινόμηση και τη μετατροπή κειμένου και ομιλίας σε κλίμακα.

Βαθιά κατάδυση

Πριν από το Chinchilla, η τάση ήταν να κατασκευάζονται ολοένα μεγαλύτερα μοντέλα (όπως το GPT-3 με παράμετρο 175B) ενώ εκπαιδεύονταν σε σχετικά μέτριες ποσότητες δεδομένων. Η DeepMind εκπαίδευσε πάνω από 400 μοντέλα σε πολλά μεγέθη και προϋπολογισμούς δεδομένων και, στη συνέχεια, προσάρμοσε καμπύλες που προβλέπουν απώλεια ως συνάρτηση παραμέτρων και διακριτικών βάσει προϋπολογισμού σταθερού υπολογισμού (FLOP). Τα ευρήματά τους: οι παράμετροι και τα κουπόνια εκπαίδευσης θα πρέπει να κλιμακώνονται μαζί, περίπου σε αναλογία 1 προς 1, υποδηλώνοντας περίπου 20 μάρκες δεδομένων εκπαίδευσης ανά παράμετρο. Για να το αποδείξουν, εκπαίδευσαν το Chinchilla, ένα μοντέλο παραμέτρων 70B σε 1,4 τρισεκατομμύρια μάρκες, το οποίο ξεπέρασε τις επιδόσεις του πολύ μεγαλύτερου Gopher με παραμέτρους 280B, παρά τη χρήση του ίδιου υπολογισμού, επειδή εκπαιδεύτηκε σε πολύ περισσότερα δεδομένα.

Τεχνική διορατικότητα

Οι νόμοι προέρχονται από την προσαρμογή μιας παραμετρικής συνάρτησης απώλειας L(N, D) όπου το N είναι παράμετροι και το D είναι διακριτικά, συμπεριλαμβανομένων των όρων μη αναγώγιμης απώλειας, μεγέθους μοντέλου και μεγέθους δεδομένων. Η ελαχιστοποίηση της απώλειας που υπόκειται σε έναν περιορισμό υπολογισμού (ο υπολογισμός είναι χονδρικά ανάλογος με το N επί το D) αποδίδει το αποτέλεσμα ότι τα βέλτιστα N και D αυξάνονται και τα δύο ως υπολογιστική ισχύς με παρόμοιους εκθέτες, οπότε ο λόγος υπολογισμού-βέλτιστου παραμένει κοντά στα 20 tokens ανά παράμετρο.

Κατακτώντας τους νόμους της κλιμάκωσης του τσιντσιλά

Οι νόμοι κλιμάκωσης Chinchilla, από το DeepMind το 2022, έδειξαν ότι τα περισσότερα μοντέλα μεγάλων γλωσσών δεν ήταν καλά εκπαιδευμένα: για έναν σταθερό υπολογιστικό προϋπολογισμό, θα πρέπει να κλιμακώσετε το μέγεθος του μοντέλου και τα δεδομένα εκπαίδευσης περίπου σε ίση αναλογία. Έχει σημασία γιατί επαναπροσδιόρισε τι σημαίνει «βέλτιστο» μέγεθος μοντέλου και αναμόρφωσε τον τρόπο με τον οποίο τα εργαστήρια ξοδεύουν τους υπολογισμούς. Το Chinchilla Scaling Laws είναι μέρος της στοίβας γλώσσας-AI που χρησιμοποιείται για την ανάγνωση, τη δημιουργία, την ταξινόμηση και τη μετατροπή κειμένου και ομιλίας σε κλίμακα. Για να αποκτήσετε βαθιά κατανόηση, αντιμετωπίστε τους νόμους της κλιμάκωσης του Chinchilla ως λειτουργικό μοντέλο, όχι ως ένα μοναδικό χαρακτηριστικό: ορίστε τα επιθυμητά αποτελέσματα, διευκρινίστε τις υποθέσεις και διαχωρίστε τι μπορεί να κάνει το σύστημα αξιόπιστα από αυτό που εξακολουθεί να απαιτεί την κρίση των ειδικών.

Στην πράξη, ισχυρές ομάδες που χρησιμοποιούν Chinchilla Scaling Laws σχεδιάζουν βρόχους προτροπών, ανάκτησης και επανεξέτασης ως ένα ολοκληρωμένο σύστημα επικοινωνίας. Τεκμηριώνουν ρητά κριτήρια επιτυχίας, δοκιμάζουν με ρεαλιστικά δεδομένα και ροές εργασίας και επαναλαμβάνουν με βάση τα παρατηρούμενα μοτίβα αποτυχίας και όχι τις εφάπαξ νίκες αναφοράς. Αυτό είναι όπου η θεωρητική κατανόηση μετατρέπεται σε ανθεκτική ικανότητα σε όλα τα προϊόντα, την πολιτική και τις λειτουργίες.

Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια. Ταυτόχρονα, τα ψευδαισθησιακά γεγονότα μπορούν να εισάγουν αθόρυβα αναφορές, να υποστηρίζουν ροές ή ερευνητικά αποτελέσματα. Η πιο ανθεκτική προσέγγιση είναι ο συνδυασμός της ταχύτητας πειραματισμού με την πειθαρχία διακυβέρνησης: εκτέλεση πιλότων, λήψη στοιχείων, δημοσίευση αρχείων καταγραφής αποφάσεων και συνεχής ενημέρωση των διασφαλίσεων καθώς εξελίσσονται η συμπεριφορά του μοντέλου, οι προσδοκίες των χρηστών και οι ρυθμιστικές απαιτήσεις.

Στρατηγικός αντίκτυπος

Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια.

Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Επεκτείνει την πρόσβαση σε όλες τις γλώσσες και τα στυλ επικοινωνίας.

Επεκτείνει την πρόσβαση σε όλες τις γλώσσες και τα στυλ επικοινωνίας. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Οι ομάδες μπορούν να αφιερώσουν περισσότερο χρόνο στην κρίση, ενώ ο αυτοματισμός χειρίζεται την επανάληψη.

Οι ομάδες μπορούν να αφιερώσουν περισσότερο χρόνο στην κρίση, ενώ ο αυτοματισμός χειρίζεται την επανάληψη. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Το μέλλον των νόμων για την κλιμάκωση του τσιντσιλά

Το Chinchilla μετατόπισε το πεδίο από την καταδίωξη μετρήσεων παραμέτρων στην τροφοδοσία μοντέλων με πολύ περισσότερα δεδομένα υψηλής ποιότητας και τα σύγχρονα μοντέλα συχνά περνούν πολύ καλά το σημείο «υπολογιστικού βέλτιστου» για να κάνουν τα συμπεράσματα φθηνότερα. Καθώς το κείμενο ιστού υψηλής ποιότητας γίνεται σπάνιο, η προσοχή στρέφεται στην επιμέλεια δεδομένων, τα συνθετικά δεδομένα, τις πολλαπλές εποχές και τα πολυτροπικά δεδομένα για να συνεχιστεί η κλιμάκωση. Το βασικό μάθημα διαρκεί: τα δεδομένα και οι παράμετροι πρέπει να είναι ισορροπημένα και το ακατέργαστο μέγεθος δεν είναι πλέον ο στόχος.

Υλοποίηση σε πραγματικό κόσμο

Το Chinchilla παραμέτρων 70B της DeepMind κερδίζει το Gopher 280B στα σημεία αναφοράς χρησιμοποιώντας ίσους υπολογισμούς, εκπαιδεύοντας σε πολύ περισσότερα δεδομένα

Καθοδήγηση των ομάδων στον προϋπολογισμό περίπου 20 κουπονιών εκπαίδευσης ανά παράμετρο κατά τον σχεδιασμό ενός μοντέλου από την αρχή

Δικαιολογώντας μικρότερα, πλούσια σε δεδομένα μοντέλα όπως το LLaMA που είναι φθηνότερο να εκτελεστούν σε χρόνο συμπερασμάτων

Εκτίμηση εάν ένα σχεδιασμένο μοντέλο είναι «υποεκπαιδευμένο» και θα ωφεληθεί περισσότερο από επιπλέον δεδομένα παρά από επιπλέον παραμέτρους

Πρότυπα Υλοποίησης

Οι νόμοι για την κλιμάκωση του τσιντσιλά στην πράξη

Το Chinchilla παραμέτρων 70B της DeepMind κερδίζει το Gopher 280B στα σημεία αναφοράς χρησιμοποιώντας ίσους υπολογισμούς, εκπαιδεύοντας σε πολύ περισσότερα δεδομένα.

Το Chinchilla παραμέτρων 70B της DeepMind κερδίζει το Gopher 280B στα σημεία αναφοράς χρησιμοποιώντας ίσους υπολογισμούς, με εκπαίδευση σε πολύ περισσότερα δεδομένα.

Οι νόμοι για την κλιμάκωση του τσιντσιλά στην πράξη

Καθοδήγηση των ομάδων στον προϋπολογισμό περίπου 20 κουπονιών εκπαίδευσης ανά παράμετρο κατά τον σχεδιασμό ενός μοντέλου από την αρχή.

Καθοδήγηση των ομάδων στον προϋπολογισμό περίπου 20 κουπονιών εκπαίδευσης ανά παράμετρο κατά τον σχεδιασμό ενός μοντέλου από το μηδέν.

Οι νόμοι για την κλιμάκωση του τσιντσιλά στην πράξη

Δικαιολογώντας μικρότερα, πλούσια σε δεδομένα μοντέλα όπως το LLaMA που είναι φθηνότερο να εκτελεστούν σε χρόνο συμπερασμάτων.

Δικαιολογώντας μικρότερα, πλούσια σε δεδομένα μοντέλα όπως το LLaMA που είναι φθηνότερα για εκτέλεση σε χρόνο συμπερασμάτων Οι ομάδες συνήθως λαμβάνουν καλύτερα αποτελέσματα όταν ορίζουν εκ των προτέρων όρια ποιότητας, διατηρούν μια ανθρώπινη διαδρομή κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.

Οι νόμοι για την κλιμάκωση του τσιντσιλά στην πράξη

Εκτίμηση εάν ένα σχεδιασμένο μοντέλο είναι «υποεκπαιδευμένο» και θα ωφεληθεί περισσότερο από επιπλέον δεδομένα παρά από επιπλέον παραμέτρους.

Εκτίμηση εάν ένα σχεδιαζόμενο μοντέλο είναι «υποεκπαιδευμένο» και θα επωφεληθεί περισσότερο από επιπλέον δεδομένα παρά από επιπλέον παραμέτρους.

Κίνδυνοι & προστατευτικά κιγκλιδώματα

!

Τα παραισθησιακά γεγονότα μπορούν να εισάγουν αθόρυβα αναφορές, να υποστηρίζουν ροές ή αποτελέσματα έρευνας.

!

Η άμεση ευαισθησία μπορεί να δημιουργήσει ασυνεπή αποτελέσματα σε παρόμοια αιτήματα.

!

Τα ευαίσθητα δεδομένα κειμένου ενδέχεται να εκτεθούν εάν τα στοιχεία ελέγχου πρόσβασης είναι αδύναμα.

Οδικός Χάρτης Εφαρμογής

1

Καθορίστε τη μορφή εξόδου, τον τόνο και τα πρότυπα ποιότητας πριν από την κυκλοφορία.

Καθορίστε τη μορφή εξόδου, τον τόνο και τα πρότυπα ποιότητας πριν από την κυκλοφορία. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

2

Επίγειες απαντήσεις με αξιόπιστες πηγές όποτε έχει σημασία η ακρίβεια.

Επίγειες απαντήσεις με αξιόπιστες πηγές όποτε έχει σημασία η ακρίβεια. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

3

Διατηρήστε ένα σημείο ελέγχου ανθρώπινης αξιολόγησης για αποτελέσματα υψηλού πονταρίσματος.

Διατηρήστε ένα σημείο ελέγχου ανθρώπινης αξιολόγησης για αποτελέσματα υψηλού πονταρίσματος. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

4

Παρακολουθήστε τα μοτίβα αποτυχίας και επανεκπαιδεύστε τις προτροπές ή τις ροές εργασίας τακτικά.

Παρακολουθήστε τα μοτίβα αποτυχίας και επανεκπαιδεύστε τις προτροπές ή τις ροές εργασίας τακτικά. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

Συνεχίστε την εξερεύνηση