ΟΔΗΓΟΣ ΓΛΩΣΣΑΣ AI

Προσοχή πολλαπλών ερωτημάτων

Το Multi-Query Attention (MQA) είναι μια εξοικονόμηση μνήμης στην προσοχή του μετασχηματιστή που μοιράζεται ένα σύνολο πλήκτρων και τιμών σε όλες τις κεφαλές προσοχής.

Επισκόπηση

Το Multi-Query Attention (MQA) είναι μια εξοικονόμηση μνήμης στην προσοχή του μετασχηματιστή που μοιράζεται ένα σύνολο πλήκτρων και τιμών σε όλες τις κεφαλές προσοχής. Επιταχύνει δραματικά τη δημιουργία κειμένου μειώνοντας τη μνήμη που πρέπει να ανακατέψει το μοντέλο.

Το Multi-Query Attention είναι μέρος της στοίβας γλώσσας-AI που χρησιμοποιείται για την ανάγνωση, τη δημιουργία, την ταξινόμηση και τη μετατροπή κειμένου και ομιλίας σε κλίμακα.

Βαθιά κατάδυση

Η τυπική προσοχή πολλών κεφαλών δίνει σε κάθε κεφαλή τις δικές της προβολές ερωτημάτων, κλειδιών και τιμών. Κατά τη διάρκεια της δημιουργίας, τα κλειδιά και οι τιμές για όλα τα προηγούμενα διακριτικά πρέπει να αποθηκευτούν προσωρινά και να φορτωθούν ξανά σε κάθε βήμα — αυτή η κρυφή μνήμη KV γίνεται το κύριο σημείο συμφόρησης, καθώς η ανάγνωσή της από τη μνήμη είναι πιο αργή από τα ίδια τα μαθηματικά. Το Multi-Query Attention, που προτάθηκε από τον Noam Shazeer το 2019, διατηρεί ξεχωριστές προβολές ερωτημάτων ανά κεφαλή, αλλά συμπτύσσει τα κλειδιά και τις τιμές σε μια ενιαία κοινόχρηστη κεφαλή. Αυτό συρρικνώνει την κρυφή μνήμη KV κατά έναν παράγοντα ίσο με τον αριθμό των κεφαλών, μερικές φορές 8x έως 64x μικρότερο. Το αποτέλεσμα είναι πολύ ταχύτερη αυτοπαλινδρομική αποκωδικοποίηση και ελαφρύτερο αποτύπωμα μνήμης, με μέτρια μόνο βουτιά ποιότητας. Μια μέση λύση, το Grouped-Query Attention, εξισορροπεί την ανταλλαγή.

Τεχνική διορατικότητα

Στο MQA, τα βάρη ερωτημάτων εξακολουθούν να παράγουν H ξεχωριστά διανύσματα ερωτήματος, αλλά μια προβολή μεμονωμένου κλειδιού και η προβολή μιας τιμής μοιράζονται σε όλες τις κεφαλές. Κάθε κεφαλή υπολογίζει την προσοχή χρησιμοποιώντας το δικό της ερώτημα σε σχέση με τα ίδια κλειδιά και τιμές. Επειδή οι αποθηκευμένοι τανυστές K και V δεν κλιμακώνονται πλέον με τον αριθμό των κεφαλών, το εύρος ζώνης της μνήμης κατά την αποκωδικοποίηση μειώνεται απότομα — και το εύρος ζώνης, όχι ο υπολογισμός, είναι αυτό που ρυθμίζει την ταχύτητα παραγωγής πυλών στους σύγχρονους επιταχυντές.

Mastering Multi-Query Attention

Το Multi-Query Attention (MQA) είναι μια εξοικονόμηση μνήμης στην προσοχή του μετασχηματιστή που μοιράζεται ένα σύνολο πλήκτρων και τιμών σε όλες τις κεφαλές προσοχής. Επιταχύνει δραματικά τη δημιουργία κειμένου μειώνοντας τη μνήμη που πρέπει να ανακατέψει το μοντέλο. Το Multi-Query Attention είναι μέρος της στοίβας γλώσσας-AI που χρησιμοποιείται για την ανάγνωση, τη δημιουργία, την ταξινόμηση και τη μετατροπή κειμένου και ομιλίας σε κλίμακα. Για να δημιουργήσετε βαθιά κατανόηση, αντιμετωπίστε την Προσοχή πολλαπλών ερωτημάτων ως μοντέλο λειτουργίας, όχι ως ένα μεμονωμένο χαρακτηριστικό: ορίστε τα επιθυμητά αποτελέσματα, διευκρινίστε τις υποθέσεις και διαχωρίστε τι μπορεί να κάνει το σύστημα με αξιοπιστία από αυτό που εξακολουθεί να απαιτεί την κρίση των ειδικών.

Στην πράξη, ισχυρές ομάδες που χρησιμοποιούν Multi-Query Attention σχεδιάζουν βρόχους προτροπών, ανάκτησης και επανεξέτασης ως ένα ολοκληρωμένο σύστημα επικοινωνίας. Τεκμηριώνουν ρητά κριτήρια επιτυχίας, δοκιμάζουν με ρεαλιστικά δεδομένα και ροές εργασίας και επαναλαμβάνουν με βάση τα παρατηρούμενα μοτίβα αποτυχίας και όχι τις εφάπαξ νίκες αναφοράς. Αυτό είναι όπου η θεωρητική κατανόηση μετατρέπεται σε ανθεκτική ικανότητα σε όλα τα προϊόντα, την πολιτική και τις λειτουργίες.

Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια. Ταυτόχρονα, τα ψευδαισθησιακά γεγονότα μπορούν να εισάγουν αθόρυβα αναφορές, να υποστηρίζουν ροές ή ερευνητικά αποτελέσματα. Η πιο ανθεκτική προσέγγιση είναι ο συνδυασμός της ταχύτητας πειραματισμού με την πειθαρχία διακυβέρνησης: εκτέλεση πιλότων, λήψη στοιχείων, δημοσίευση αρχείων καταγραφής αποφάσεων και συνεχής ενημέρωση των διασφαλίσεων καθώς εξελίσσονται η συμπεριφορά του μοντέλου, οι προσδοκίες των χρηστών και οι ρυθμιστικές απαιτήσεις.

Στρατηγικός αντίκτυπος

Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια.

Οι ροές εργασίας της γλώσσας μπορούν να κινηθούν πιο γρήγορα χωρίς να θυσιάζεται η συνέπεια. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Επεκτείνει την πρόσβαση σε όλες τις γλώσσες και τα στυλ επικοινωνίας.

Επεκτείνει την πρόσβαση σε όλες τις γλώσσες και τα στυλ επικοινωνίας. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Οι ομάδες μπορούν να αφιερώσουν περισσότερο χρόνο στην κρίση, ενώ ο αυτοματισμός χειρίζεται την επανάληψη.

Οι ομάδες μπορούν να αφιερώσουν περισσότερο χρόνο στην κρίση, ενώ ο αυτοματισμός χειρίζεται την επανάληψη. Σε αναπτύξεις υψηλής ποιότητας, αυτό μεταφράζεται σε μετρήσιμους κανόνες λειτουργίας, όρια ιδιοκτησίας και επαναλαμβανόμενα τελετουργικά ελέγχου, ώστε οι ομάδες να μπορούν να κλιμακώνουν την εμπιστοσύνη αντί να κλιμακώνουν την ασάφεια.

Το μέλλον της προσοχής πολλαπλών ερωτημάτων

Το MQA καθόρισε ότι μπορείτε να κλαδέψετε πλεονάζουσες κεφαλές κλειδιών/τιμών με μικρή ζημιά και αυτή η γνώση διαμορφώνει πλέον σχεδόν κάθε LLM γρήγορης εξαγωγής συμπερασμάτων. Το πεδίο έχει συγκλίνει σε μεγάλο βαθμό στο Grouped-Query Attention (GQA), που χρησιμοποιείται στο Llama 2/3 και σε πολλά άλλα, το οποίο χρησιμοποιεί μερικές ομάδες KV αντί για μία για την ανάκτηση της ποιότητας διατηρώντας παράλληλα το μεγαλύτερο μέρος της επιτάχυνσης. Η μελλοντική εργασία συνδυάζει αυτές τις ιδέες με συμπίεση κρυφής μνήμης KV, κβαντοποίηση και πολυλανθάνουσα προσοχή για να προωθήσει μεγαλύτερα περιβάλλοντα και φθηνότερη εξυπηρέτηση.

Υλοποίηση σε πραγματικό κόσμο

Επιτάχυνση δημιουργίας διακριτικών σε βοηθούς συνομιλίας όπου η κρυφή μνήμη KV, όχι ο ακατέργαστος υπολογισμός, περιορίζει την απόδοση.

Το PALM του Google, το οποίο χρησιμοποιούσε την Προσοχή πολλαπλών ερωτημάτων για να επιτρέψει την αποτελεσματική εξαγωγή συμπερασμάτων μεγάλης κλίμακας.

Εξυπηρέτηση πολλών ταυτόχρονων χρηστών σε μία GPU με συρρίκνωση της κρυφής μνήμης KV ανά αίτημα.

Προσοχή ομαδικού ερωτήματος στο Llama 2 70B και στο Llama 3, ένας άμεσος απόγονος που εξισορροπεί την ταχύτητα του MQA με την ποιότητα πλήρους προσοχής.

Πρότυπα Υλοποίησης

Multi-Query Προσοχή στην πράξη

Επιτάχυνση δημιουργίας διακριτικών σε βοηθούς συνομιλίας όπου η κρυφή μνήμη KV, όχι ο ακατέργαστος υπολογισμός, περιορίζει την απόδοση.

Επιτάχυνση της δημιουργίας διακριτικό προς διακριτικό σε βοηθούς συνομιλίας όπου η κρυφή μνήμη KV, όχι ο ακατέργαστος υπολογισμός, περιορίζει τη διεκπεραίωση.

Multi-Query Προσοχή στην πράξη

Το PALM του Google, το οποίο χρησιμοποιούσε την Προσοχή πολλαπλών ερωτημάτων για να επιτρέψει την αποτελεσματική εξαγωγή συμπερασμάτων μεγάλης κλίμακας.

Το PALM του Google, το οποίο χρησιμοποίησε την Προσοχή πολλαπλών ερωτημάτων για να επιτρέψει αποτελεσματικές ομάδες συμπερασμάτων μεγάλης κλίμακας, συνήθως λαμβάνουν καλύτερα αποτελέσματα όταν ορίζουν εκ των προτέρων όρια ποιότητας, διατηρούν μια ανθρώπινη διαδρομή κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.

Multi-Query Προσοχή στην πράξη

Εξυπηρέτηση πολλών ταυτόχρονων χρηστών σε μία GPU με συρρίκνωση της κρυφής μνήμης KV ανά αίτημα.

Εξυπηρέτηση πολλών ταυτόχρονων χρηστών σε μία GPU με συρρίκνωση της μνήμης κρυφής μνήμης KV ανά αίτημα Οι ομάδες συνήθως λαμβάνουν καλύτερα αποτελέσματα όταν ορίζουν εκ των προτέρων όρια ποιότητας, διατηρούν μια ανθρώπινη διαδρομή κλιμάκωσης για περιπτώσεις αιχμής και παρακολουθούν τόσο τα κέρδη παραγωγικότητας όσο και το κόστος σφαλμάτων με την πάροδο του χρόνου.

Multi-Query Προσοχή στην πράξη

Προσοχή ομαδικού ερωτήματος στο Llama 2 70B και στο Llama 3, ένας άμεσος απόγονος που εξισορροπεί την ταχύτητα του MQA με την ποιότητα πλήρους προσοχής.

Προσοχή ομαδικού ερωτήματος στο Llama 2 70B και το Llama 3, ένας άμεσος απόγονος που εξισορροπεί την ταχύτητα του MQA με την ποιότητα πλήρους προσοχής.

Κίνδυνοι & προστατευτικά κιγκλιδώματα

!

Τα παραισθησιακά γεγονότα μπορούν να εισάγουν αθόρυβα αναφορές, να υποστηρίζουν ροές ή αποτελέσματα έρευνας.

!

Η άμεση ευαισθησία μπορεί να δημιουργήσει ασυνεπή αποτελέσματα σε παρόμοια αιτήματα.

!

Τα ευαίσθητα δεδομένα κειμένου ενδέχεται να εκτεθούν εάν τα στοιχεία ελέγχου πρόσβασης είναι αδύναμα.

Οδικός Χάρτης Εφαρμογής

1

Καθορίστε τη μορφή εξόδου, τον τόνο και τα πρότυπα ποιότητας πριν από την κυκλοφορία.

Καθορίστε τη μορφή εξόδου, τον τόνο και τα πρότυπα ποιότητας πριν από την κυκλοφορία. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

2

Επίγειες απαντήσεις με αξιόπιστες πηγές όποτε έχει σημασία η ακρίβεια.

Επίγειες απαντήσεις με αξιόπιστες πηγές όποτε έχει σημασία η ακρίβεια. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

3

Διατηρήστε ένα σημείο ελέγχου ανθρώπινης αξιολόγησης για αποτελέσματα υψηλού πονταρίσματος.

Διατηρήστε ένα σημείο ελέγχου ανθρώπινης αξιολόγησης για αποτελέσματα υψηλού πονταρίσματος. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

4

Παρακολουθήστε τα μοτίβα αποτυχίας και επανεκπαιδεύστε τις προτροπές ή τις ροές εργασίας τακτικά.

Παρακολουθήστε τα μοτίβα αποτυχίας και επανεκπαιδεύστε τις προτροπές ή τις ροές εργασίας τακτικά. Αντιμετωπίστε κάθε βήμα ως πύλη αποδείξεων: εάν δεν πληρούνται τα κριτήρια, σταματήστε την κυκλοφορία, κλείστε το κενό και μόνο τότε επεκτείνετε τη χρήση.

Συνεχίστε την εξερεύνηση