Chinchilla Compute-Optimal Training Guide

Επισκόπηση

Το Chinchilla είναι ένα εύρημα της DeepMind του 2022 ότι τα περισσότερα μοντέλα μεγάλων γλωσσών ήταν κακώς εκπαιδευμένα: για έναν σταθερό υπολογιστικό προϋπολογισμό θα πρέπει να κλιμακώνετε τις παραμέτρους και τα δεδομένα περίπου εξίσου, όχι απλώς να δημιουργείτε ένα μεγαλύτερο μοντέλο. Αναδιαμόρφωσε τον τρόπο με τον οποίο ο κλάδος εξισορροπεί το μέγεθος του μοντέλου έναντι των δεδομένων εκπαίδευσης.

Το Chinchilla Compute-Optimal Training βρίσκεται στην βασική εργαλειοθήκη AI. Όταν το καταλαβαίνετε, άλλα θέματα τεχνητής νοημοσύνης γίνονται πιο εύκολο να αξιολογηθούν και να συγκριθούν.

Βαθιά κατάδυση

Το χαρτί Chinchilla της DeepMind επανεξέτασε την κλιμάκωση και εκπαίδευσε πάνω από 400 μοντέλα για να βρει τη βέλτιστη υπολογιστική ισορροπία. Ο εμπειρικός κανόνας της επικεφαλίδας: το μέγεθος του μοντέλου και τα κουπόνια εκπαίδευσης θα πρέπει να αυξάνονται ολοσχερώς, περίπου 20 μάρκες εκπαίδευσης ανά παράμετρο. Για να το αποδείξουν, εκπαίδευσαν το Chinchilla, ένα μοντέλο 70 δισεκατομμυρίων παραμέτρων σε 1,4 τρισεκατομμύρια μάρκες, χρησιμοποιώντας τον ίδιο υπολογισμό με τον Gopher των 280 δισεκατομμυρίων παραμέτρων που εκπαιδεύτηκε σε πολύ λιγότερα token. Το Chinchilla, παρόλο που ήταν τέσσερις φορές μικρότερο, ξεπέρασε τα Gopher, GPT-3 και άλλους γίγαντες σχεδόν σε κάθε σημείο αναφοράς. Το μάθημα ανέτρεψε το προηγούμενο OpenAI συμπέρασμα ότι ευνοούσε το μέγεθος έναντι των δεδομένων, δείχνοντας ότι πολλά μοντέλα ναυαρχίδα αφήνουν την απόδοση στο τραπέζι επειδή ήταν πολύ μεγάλα και υπερβολικά λιγοστά για δεδομένα.

Τεχνική διορατικότητα

Απώλεια προσαρμογής τσιντσιλά ως L(N,D) = E + A·N^(-α) + B·D^(-β), με α και β και τα δύο κοντά στο 0,34, που σημαίνει ότι οι παράμετροι και τα δεδομένα συμβάλλουν σχεδόν συμμετρικά. Η βελτιστοποίηση αυτού υπό έναν σταθερό υπολογιστικό περιορισμό (υπολογισμός ≈ 6·N·D για μετασχηματιστές) αποδίδει το αποτέλεσμα ίσης κλίμακας. Ένα μικρότερο, πλούσιο σε δεδομένα μοντέλο είναι επίσης φθηνότερο στην εκτέλεση συμπερασμάτων, επομένως το πλεονέκτημά του συνδυάζεται στην ανάπτυξη, όχι μόνο στην εκπαίδευση.

Mastering Chinchilla Compute-Optimal Training

Για να αποκτήσετε βαθιά κατανόηση, αντιμετωπίστε το Chinchilla Compute-Optimal Training ως λειτουργικό μοντέλο και όχι ως ένα μεμονωμένο χαρακτηριστικό. Καθορίστε τα επιθυμητά αποτελέσματα, διευκρινίστε τις υποθέσεις και διαχωρίστε τι μπορεί να κάνει το σύστημα με αξιοπιστία από αυτό που απαιτεί ακόμα την κρίση των ειδικών.

Στην πράξη, ισχυρές ομάδες που χρησιμοποιούν το Chinchilla Compute-Optimal Training χτίζουν πρώτα ισχυρά εννοιολογικά μοντέλα και μετά αντιστοιχίζουν αυτά τα μοντέλα σε πραγματικούς περιορισμούς παραγωγής. Τεκμηριώνουν ρητά κριτήρια επιτυχίας, δοκιμάζουν με ρεαλιστικά δεδομένα και ροές εργασίας και επαναλαμβάνουν με βάση τα παρατηρούμενα μοτίβα αποτυχίας και όχι τις εφάπαξ νίκες αναφοράς. Αυτό είναι όπου η θεωρητική κατανόηση μετατρέπεται σε ανθεκτική ικανότητα σε όλα τα προϊόντα, την πολιτική και τις λειτουργίες.

Σας βοηθά να διαχωρίσετε σαφείς τεχνικούς ισχυρισμούς από τη γλώσσα μάρκετινγκ. Ταυτόχρονα, Διαφορετικές ομάδες μπορεί να χρησιμοποιούν τον ίδιο όρο με διαφορετικό τρόπο, επομένως ορίστε το εύρος νωρίς. Η πιο ανθεκτική προσέγγιση είναι ο συνδυασμός της ταχύτητας πειραματισμού με την πειθαρχία διακυβέρνησης: εκτέλεση πιλότων, λήψη στοιχείων, δημοσίευση αρχείων καταγραφής αποφάσεων και συνεχής ενημέρωση των διασφαλίσεων καθώς εξελίσσονται η συμπεριφορά του μοντέλου, οι προσδοκίες των χρηστών και οι ρυθμιστικές απαιτήσεις.

Στρατηγικός αντίκτυπος

Σας βοηθά να διαχωρίσετε σαφείς τεχνικούς ισχυρισμούς από τη γλώσσα μάρκετινγκ.

Σας βοηθά να διαχωρίσετε σαφείς τεχνικούς ισχυρισμούς από τη γλώσσα μάρκετινγκ. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Μπορείτε να κάνετε καλύτερες ερωτήσεις εφαρμογής προτού ξοδέψετε χρήματα ή χρόνο.

Μπορείτε να κάνετε καλύτερες ερωτήσεις εφαρμογής προτού ξοδέψετε χρήματα ή χρόνο. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Οι ομάδες με κοινή κατανόηση λαμβάνουν καλύτερες αποφάσεις για προϊόντα, πολιτικές και μάθηση.

Οι ομάδες με κοινή κατανόηση λαμβάνουν καλύτερες αποφάσεις για προϊόντα, πολιτικές και μάθηση. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

The Future of Chinchilla Compute-Optimal Training

Τα σύγχρονα μοντέλα όπως το Llama 3 ξεπερνούν σκοπίμως την αναλογία 20 μάρκες ανά παράμετρο του Chinchilla, εκπαιδεύοντας μικρά μοντέλα σε τρισεκατομμύρια μάρκες για να κάνουν τα συμπεράσματα φθηνά, αποδεχόμενοι υπολογισμούς εκπαίδευσης που δεν είναι βέλτιστοι. Καθώς τα καλά δεδομένα σπανίζουν, αυξάνεται το ενδιαφέρον για επαναλαμβανόμενες εποχές, συνθετικά δεδομένα και φιλτράρισμα ποιότητας. Το τσιντσιλά παραμένει το σημείο αναφοράς, αλλά το βέλτιστο εξαρτάται όλο και περισσότερο από το κόστος συμπερασμάτων διάρκειας ζωής, όχι μόνο από τον προϋπολογισμό της εφάπαξ εκπαίδευσης.

Υλοποίηση σε πραγματικό κόσμο

Επιλέγοντας να εκπαιδεύσετε ένα μοντέλο 7 δισεκατομμυρίων παραμέτρων σε 2 τρισεκατομμύρια μάρκες αντί για ένα μοντέλο 30 δισεκατομμυρίων με πολύ λίγα δεδομένα για τον ίδιο προϋπολογισμό.

Υπολογίζοντας ότι ένα μοντέλο 10 δισεκατομμυρίων παραμέτρων θέλει περίπου 200 δισεκατομμύρια μάρκες για να φτάσει στο βέλτιστο για υπολογισμό γλυκό σημείο.

Δικαιολογώντας ένα μικρότερο αναπτυγμένο μοντέλο για να μειώσει το κόστος συμπερασμάτων ανά ερώτημα ενώ ταυτίζεται με την ποιότητα ενός μεγαλύτερου αντιπάλου.

Έλεγχος ενός υπάρχοντος μοντέλου και συμπέρασμα ότι ήταν υποεκπαιδευμένο, και στη συνέχεια προγραμματισμός μεγαλύτερης διάρκειας εκπαίδευσης αντί για αύξηση παραμέτρων.

Πρότυπα Υλοποίησης

Chinchilla Compute-Optimal Training στην πράξη

Επιλέγοντας να εκπαιδεύσετε ένα μοντέλο 7 δισεκατομμυρίων παραμέτρων σε 2 τρισεκατομμύρια μάρκες αντί για ένα μοντέλο 30 δισεκατομμυρίων με πολύ λίγα δεδομένα για τον ίδιο προϋπολογισμό.

Οι ομάδες συνήθως έχουν καλύτερα αποτελέσματα όταν ορίζουν κατώφλια ποιότητας εκ των προτέρων, διατηρούν μια ανθρώπινη πορεία κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.

Chinchilla Compute-Optimal Training στην πράξη

Υπολογίζοντας ότι ένα μοντέλο 10 δισεκατομμυρίων παραμέτρων θέλει περίπου 200 δισεκατομμύρια μάρκες για να φτάσει στο βέλτιστο για υπολογισμό γλυκό σημείο.

Οι ομάδες συνήθως έχουν καλύτερα αποτελέσματα όταν ορίζουν κατώφλια ποιότητας εκ των προτέρων, διατηρούν μια ανθρώπινη πορεία κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.

Chinchilla Compute-Optimal Training στην πράξη

Δικαιολογώντας ένα μικρότερο αναπτυγμένο μοντέλο για να μειώσει το κόστος συμπερασμάτων ανά ερώτημα ενώ ταυτίζεται με την ποιότητα ενός μεγαλύτερου αντιπάλου.

Οι ομάδες συνήθως έχουν καλύτερα αποτελέσματα όταν ορίζουν κατώφλια ποιότητας εκ των προτέρων, διατηρούν μια ανθρώπινη πορεία κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.

Chinchilla Compute-Optimal Training στην πράξη

Έλεγχος ενός υπάρχοντος μοντέλου και συμπέρασμα ότι ήταν υποεκπαιδευμένο, και στη συνέχεια προγραμματισμός μεγαλύτερης διάρκειας εκπαίδευσης αντί για αύξηση παραμέτρων.

Οι ομάδες συνήθως έχουν καλύτερα αποτελέσματα όταν ορίζουν κατώφλια ποιότητας εκ των προτέρων, διατηρούν μια ανθρώπινη πορεία κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.

Κίνδυνοι & προστατευτικά κιγκλιδώματα

!

Διαφορετικές ομάδες μπορεί να χρησιμοποιούν τον ίδιο όρο με διαφορετικό τρόπο, επομένως ορίστε το πεδίο εφαρμογής νωρίς.

!

Τα σημεία αναφοράς μπορεί να φαίνονται ισχυρά ενώ η απόδοση στον πραγματικό κόσμο είναι άνιση.

!

Η αγνόηση της ποιότητας των δεδομένων και των σχεδίων αξιολόγησης δημιουργεί συχνά εύθραυστα αποτελέσματα.

Οδικός Χάρτης Εφαρμογής

1

Ξεκινήστε με έναν ορισμό σε απλή γλώσσα του αποτελέσματος που χρειάζεστε.

Αντιμετωπίστε το ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

2

Επιλέξτε μία μέτρηση επιτυχίας και μία συνθήκη αποτυχίας πριν από τη δοκιμή.

Αντιμετωπίστε το ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

3

Εκτελέστε ένα μικρό πιλότο με αντιπροσωπευτικά δεδομένα, όχι ένα εκλεπτυσμένο σετ επίδειξης.

Αντιμετωπίστε το ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

4

Τεκμηριώστε πού βοηθά το Chinchilla Compute-Optimal Training και πού είναι καλύτερες οι απλούστερες μέθοδοι.

Αντιμετωπίστε το ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

Συνεχίστε την εξερεύνηση

Τι είναι το AI;

Λάβετε τις βασικές έννοιες πριν βουτήξετε βαθύτερα.

Διαβάστε τον Οδηγό

Πώς μαθαίνει το AI

Κατανοήστε τη διαδικασία εκπαίδευσης πίσω από τα σύγχρονα συστήματα.

Διαβάστε τον Οδηγό

Chinchilla Compute-Optimal Training

Επισκόπηση

Βαθιά κατάδυση

Τεχνική διορατικότητα

Mastering Chinchilla Compute-Optimal Training

Στρατηγικός αντίκτυπος

The Future of Chinchilla Compute-Optimal Training

Υλοποίηση σε πραγματικό κόσμο

Πρότυπα Υλοποίησης

Chinchilla Compute-Optimal Training στην πράξη

Chinchilla Compute-Optimal Training στην πράξη

Chinchilla Compute-Optimal Training στην πράξη

Chinchilla Compute-Optimal Training στην πράξη

Κίνδυνοι & προστατευτικά κιγκλιδώματα

Οδικός Χάρτης Εφαρμογής

Συνεχίστε την εξερεύνηση

Τι είναι το AI;

Πώς μαθαίνει το AI

Related guides