ΟΔΗΓΟΣ ΒΑΣΙΚΩΝ

Chinchilla Compute-Optimal Training

Το Chinchilla είναι ένα εύρημα της DeepMind του 2022 ότι τα περισσότερα μοντέλα μεγάλων γλωσσών ήταν κακώς εκπαιδευμένα: για έναν σταθερό υπολογιστικό προϋπολογισμό θα πρέπει να κλιμακώνετε τις παραμέτρους και τα δεδομένα περίπου εξίσου, όχι απλώς να δημιουργείτε ένα μεγαλύτερο μοντέλο.

Επισκόπηση

Το Chinchilla είναι ένα εύρημα της DeepMind του 2022 ότι τα περισσότερα μοντέλα μεγάλων γλωσσών ήταν κακώς εκπαιδευμένα: για έναν σταθερό υπολογιστικό προϋπολογισμό θα πρέπει να κλιμακώνετε τις παραμέτρους και τα δεδομένα περίπου εξίσου, όχι απλώς να δημιουργείτε ένα μεγαλύτερο μοντέλο. Αναδιαμόρφωσε τον τρόπο με τον οποίο ο κλάδος εξισορροπεί το μέγεθος του μοντέλου έναντι των δεδομένων εκπαίδευσης.

Το Chinchilla Compute-Optimal Training βρίσκεται στην βασική εργαλειοθήκη AI. Όταν το καταλαβαίνετε, άλλα θέματα τεχνητής νοημοσύνης γίνονται πιο εύκολο να αξιολογηθούν και να συγκριθούν.

Βαθιά κατάδυση

Το χαρτί Chinchilla της DeepMind επανεξέτασε την κλιμάκωση και εκπαίδευσε πάνω από 400 μοντέλα για να βρει τη βέλτιστη υπολογιστική ισορροπία. Ο εμπειρικός κανόνας της επικεφαλίδας: το μέγεθος του μοντέλου και τα κουπόνια εκπαίδευσης θα πρέπει να αυξάνονται ολοσχερώς, περίπου 20 μάρκες εκπαίδευσης ανά παράμετρο. Για να το αποδείξουν, εκπαίδευσαν το Chinchilla, ένα μοντέλο 70 δισεκατομμυρίων παραμέτρων σε 1,4 τρισεκατομμύρια μάρκες, χρησιμοποιώντας τον ίδιο υπολογισμό με τον Gopher των 280 δισεκατομμυρίων παραμέτρων που εκπαιδεύτηκε σε πολύ λιγότερα token. Το Chinchilla, παρόλο που ήταν τέσσερις φορές μικρότερο, ξεπέρασε τα Gopher, GPT-3 και άλλους γίγαντες σχεδόν σε κάθε σημείο αναφοράς. Το μάθημα ανέτρεψε το προηγούμενο OpenAI συμπέρασμα ότι ευνοούσε το μέγεθος έναντι των δεδομένων, δείχνοντας ότι πολλά μοντέλα ναυαρχίδα αφήνουν την απόδοση στο τραπέζι επειδή ήταν πολύ μεγάλα και υπερβολικά λιγοστά για δεδομένα.

Τεχνική διορατικότητα

Απώλεια προσαρμογής τσιντσιλά ως L(N,D) = E + A·N^(-α) + B·D^(-β), με α και β και τα δύο κοντά στο 0,34, που σημαίνει ότι οι παράμετροι και τα δεδομένα συμβάλλουν σχεδόν συμμετρικά. Η βελτιστοποίηση αυτού υπό έναν σταθερό υπολογιστικό περιορισμό (υπολογισμός ≈ 6·N·D για μετασχηματιστές) αποδίδει το αποτέλεσμα ίσης κλίμακας. Ένα μικρότερο, πλούσιο σε δεδομένα μοντέλο είναι επίσης φθηνότερο στην εκτέλεση συμπερασμάτων, επομένως το πλεονέκτημά του συνδυάζεται στην ανάπτυξη, όχι μόνο στην εκπαίδευση.

Mastering Chinchilla Compute-Optimal Training

Το Chinchilla είναι ένα εύρημα της DeepMind του 2022 ότι τα περισσότερα μοντέλα μεγάλων γλωσσών ήταν κακώς εκπαιδευμένα: για έναν σταθερό υπολογιστικό προϋπολογισμό θα πρέπει να κλιμακώνετε τις παραμέτρους και τα δεδομένα περίπου εξίσου, όχι απλώς να δημιουργείτε ένα μεγαλύτερο μοντέλο. Αναδιαμόρφωσε τον τρόπο με τον οποίο ο κλάδος εξισορροπεί το μέγεθος του μοντέλου έναντι των δεδομένων εκπαίδευσης. Το Chinchilla Compute-Optimal Training βρίσκεται στην βασική εργαλειοθήκη AI. Όταν το καταλαβαίνετε, άλλα θέματα τεχνητής νοημοσύνης γίνονται πιο εύκολο να αξιολογηθούν και να συγκριθούν. Για να αποκτήσετε βαθιά κατανόηση, αντιμετωπίστε το Chinchilla Compute-Optimal Training ως λειτουργικό μοντέλο, όχι ως ένα μοναδικό χαρακτηριστικό: ορίστε τα επιθυμητά αποτελέσματα, διευκρινίστε τις υποθέσεις και διαχωρίστε τι μπορεί να κάνει το σύστημα αξιόπιστα από αυτό που απαιτεί ακόμη την κρίση των ειδικών.

Στην πράξη, ισχυρές ομάδες που χρησιμοποιούν το Chinchilla Compute-Optimal Training χτίζουν πρώτα ισχυρά εννοιολογικά μοντέλα και μετά αντιστοιχίζουν αυτά τα μοντέλα σε πραγματικούς περιορισμούς παραγωγής. Τεκμηριώνουν ρητά κριτήρια επιτυχίας, δοκιμάζουν με ρεαλιστικά δεδομένα και ροές εργασίας και επαναλαμβάνουν με βάση τα παρατηρούμενα μοτίβα αποτυχίας και όχι τις εφάπαξ νίκες αναφοράς. Αυτό είναι όπου η θεωρητική κατανόηση μετατρέπεται σε ανθεκτική ικανότητα σε όλα τα προϊόντα, την πολιτική και τις λειτουργίες.

Σας βοηθά να διαχωρίσετε σαφείς τεχνικούς ισχυρισμούς από τη γλώσσα μάρκετινγκ. Ταυτόχρονα, Διαφορετικές ομάδες μπορεί να χρησιμοποιούν τον ίδιο όρο με διαφορετικό τρόπο, επομένως ορίστε το εύρος νωρίς. Η πιο ανθεκτική προσέγγιση είναι ο συνδυασμός της ταχύτητας πειραματισμού με την πειθαρχία διακυβέρνησης: εκτέλεση πιλότων, λήψη στοιχείων, δημοσίευση αρχείων καταγραφής αποφάσεων και συνεχής ενημέρωση των διασφαλίσεων καθώς εξελίσσονται η συμπεριφορά του μοντέλου, οι προσδοκίες των χρηστών και οι ρυθμιστικές απαιτήσεις.

Στρατηγικός αντίκτυπος

Σας βοηθά να διαχωρίσετε σαφείς τεχνικούς ισχυρισμούς από τη γλώσσα μάρκετινγκ.

Σας βοηθά να διαχωρίσετε σαφείς τεχνικούς ισχυρισμούς από τη γλώσσα μάρκετινγκ. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Μπορείτε να κάνετε καλύτερες ερωτήσεις εφαρμογής προτού ξοδέψετε χρήματα ή χρόνο.

Μπορείτε να κάνετε καλύτερες ερωτήσεις εφαρμογής προτού ξοδέψετε χρήματα ή χρόνο. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Οι ομάδες με κοινή κατανόηση λαμβάνουν καλύτερες αποφάσεις για προϊόντα, πολιτικές και μάθηση.

Οι ομάδες με κοινή κατανόηση λαμβάνουν καλύτερες αποφάσεις για προϊόντα, πολιτικές και μάθηση. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

The Future of Chinchilla Compute-Optimal Training

Τα σύγχρονα μοντέλα όπως το Llama 3 ξεπερνούν σκοπίμως την αναλογία 20 μάρκες ανά παράμετρο του Chinchilla, εκπαιδεύοντας μικρά μοντέλα σε τρισεκατομμύρια μάρκες για να κάνουν τα συμπεράσματα φθηνά, αποδεχόμενοι υπολογισμούς εκπαίδευσης που δεν είναι βέλτιστοι. Καθώς τα καλά δεδομένα σπανίζουν, αυξάνεται το ενδιαφέρον για επαναλαμβανόμενες εποχές, συνθετικά δεδομένα και φιλτράρισμα ποιότητας. Το τσιντσιλά παραμένει το σημείο αναφοράς, αλλά το βέλτιστο εξαρτάται όλο και περισσότερο από το κόστος συμπερασμάτων διάρκειας ζωής, όχι μόνο από τον προϋπολογισμό της εφάπαξ εκπαίδευσης.

Υλοποίηση σε πραγματικό κόσμο

Επιλέγοντας να εκπαιδεύσετε ένα μοντέλο 7 δισεκατομμυρίων παραμέτρων σε 2 τρισεκατομμύρια μάρκες αντί για ένα μοντέλο 30 δισεκατομμυρίων με πολύ λίγα δεδομένα για τον ίδιο προϋπολογισμό.

Υπολογίζοντας ότι ένα μοντέλο 10 δισεκατομμυρίων παραμέτρων θέλει περίπου 200 δισεκατομμύρια μάρκες για να φτάσει στο βέλτιστο για υπολογισμό γλυκό σημείο.

Δικαιολογώντας ένα μικρότερο αναπτυγμένο μοντέλο για να μειώσει το κόστος συμπερασμάτων ανά ερώτημα ενώ ταυτίζεται με την ποιότητα ενός μεγαλύτερου αντιπάλου.

Έλεγχος ενός υπάρχοντος μοντέλου και συμπέρασμα ότι ήταν υποεκπαιδευμένο, και στη συνέχεια προγραμματισμός μεγαλύτερης διάρκειας εκπαίδευσης αντί για αύξηση παραμέτρων.

Πρότυπα Υλοποίησης

Chinchilla Compute-Optimal Training στην πράξη

Επιλέγοντας να εκπαιδεύσετε ένα μοντέλο 7 δισεκατομμυρίων παραμέτρων σε 2 τρισεκατομμύρια μάρκες αντί για ένα μοντέλο 30 δισεκατομμυρίων με πολύ λίγα δεδομένα για τον ίδιο προϋπολογισμό.

Επιλέγοντας να εκπαιδεύσετε ένα μοντέλο 7 δισεκατομμυρίων παραμέτρων σε 2 τρισεκατομμύρια διακριτικά αντί για ένα μοντέλο 30 δισεκατομμυρίων με πολύ λίγα δεδομένα για τον ίδιο προϋπολογισμό.

Chinchilla Compute-Optimal Training στην πράξη

Υπολογίζοντας ότι ένα μοντέλο 10 δισεκατομμυρίων παραμέτρων θέλει περίπου 200 δισεκατομμύρια μάρκες για να φτάσει στο βέλτιστο για υπολογισμό γλυκό σημείο.

Υπολογίζοντας ότι ένα μοντέλο 10 δισεκατομμυρίων παραμέτρων θέλει περίπου 200 δισεκατομμύρια μάρκες για να πετύχει το βέλτιστο για υπολογισμό γλυκό σημείο.

Chinchilla Compute-Optimal Training στην πράξη

Δικαιολογώντας ένα μικρότερο αναπτυγμένο μοντέλο για να μειώσει το κόστος συμπερασμάτων ανά ερώτημα ενώ ταυτίζεται με την ποιότητα ενός μεγαλύτερου αντιπάλου.

Δικαιολογώντας ένα μικρότερο αναπτυγμένο μοντέλο για μείωση του κόστους συμπερασμάτων ανά ερώτημα, ενώ ταιριάζουν με την ποιότητα ενός μεγαλύτερου αντιπάλου.

Chinchilla Compute-Optimal Training στην πράξη

Έλεγχος ενός υπάρχοντος μοντέλου και συμπέρασμα ότι ήταν υποεκπαιδευμένο, και στη συνέχεια προγραμματισμός μεγαλύτερης διάρκειας εκπαίδευσης αντί για αύξηση παραμέτρων.

Έλεγχος ενός υπάρχοντος μοντέλου και συμπέρασμα ότι ήταν υποεκπαιδευμένο και στη συνέχεια προγραμματισμός μεγαλύτερης διάρκειας εκπαίδευσης αντί για αύξηση παραμέτρων.

Κίνδυνοι & προστατευτικά κιγκλιδώματα

!

Διαφορετικές ομάδες μπορεί να χρησιμοποιούν τον ίδιο όρο με διαφορετικό τρόπο, επομένως ορίστε το πεδίο εφαρμογής νωρίς.

!

Τα σημεία αναφοράς μπορεί να φαίνονται ισχυρά ενώ η απόδοση στον πραγματικό κόσμο είναι άνιση.

!

Η αγνόηση της ποιότητας των δεδομένων και των σχεδίων αξιολόγησης δημιουργεί συχνά εύθραυστα αποτελέσματα.

Οδικός Χάρτης Εφαρμογής

1

Ξεκινήστε με έναν ορισμό σε απλή γλώσσα του αποτελέσματος που χρειάζεστε.

Ξεκινήστε με έναν ορισμό σε απλή γλώσσα του αποτελέσματος που χρειάζεστε. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

2

Επιλέξτε μία μέτρηση επιτυχίας και μία συνθήκη αποτυχίας πριν από τη δοκιμή.

Επιλέξτε μία μέτρηση επιτυχίας και μία συνθήκη αποτυχίας πριν από τη δοκιμή. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

3

Εκτελέστε ένα μικρό πιλότο με αντιπροσωπευτικά δεδομένα, όχι ένα εκλεπτυσμένο σετ επίδειξης.

Εκτελέστε ένα μικρό πιλότο με αντιπροσωπευτικά δεδομένα, όχι ένα εκλεπτυσμένο σετ επίδειξης. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

4

Τεκμηριώστε πού βοηθά το Chinchilla Compute-Optimal Training και πού είναι καλύτερες οι απλούστερες μέθοδοι.

Τεκμηριώστε πού βοηθά το Chinchilla Compute-Optimal Training και πού είναι καλύτερες οι απλούστερες μέθοδοι. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

Συνεχίστε την εξερεύνηση