PANDUAN AI Bahasa

Perhatian Multi-Kueri

Multi-Query Attention (MQA) adalah perubahan hemat memori pada perhatian transformator yang berbagi satu set kunci dan nilai di semua kepala perhatian.

Ikhtisar

Multi-Query Attention (MQA) adalah perubahan hemat memori pada perhatian transformator yang berbagi satu set kunci dan nilai di semua kepala perhatian. Ini secara dramatis mempercepat pembuatan teks dengan memperkecil memori yang harus diacak oleh model.

Perhatian Multi-Kueri adalah bagian dari tumpukan AI bahasa yang digunakan untuk membaca, menghasilkan, mengklasifikasikan, dan mengubah teks dan ucapan dalam skala besar.

Menyelam Lebih Dalam

Perhatian multi-kepala standar memberikan proyeksi kueri, kunci, dan nilai kepada setiap kepala. Selama pembuatan, kunci dan nilai untuk semua token sebelumnya harus di-cache dan dimuat ulang di setiap langkah — cache KV ini menjadi penghambat utama, karena membacanya dari memori lebih lambat dibandingkan perhitungan matematika itu sendiri. Perhatian Multi-Kueri, yang diusulkan oleh Noam Shazeer pada tahun 2019, menyimpan proyeksi kueri terpisah per kepala tetapi menciutkan kunci dan nilai ke satu kepala bersama. Hal ini mengecilkan cache KV dengan faktor yang sama dengan jumlah head, terkadang 8x hingga 64x lebih kecil. Hasilnya adalah decoding autoregresif yang jauh lebih cepat dan jejak memori yang lebih ringan, dengan sedikit penurunan kualitas. Jalan tengah, Perhatian Kueri yang Dikelompokkan, menyeimbangkan trade-off.

Wawasan Teknis

Dalam MQA, bobot kueri masih menghasilkan H vektor kueri terpisah, namun proyeksi kunci tunggal dan proyeksi nilai tunggal dibagikan ke semua kepala. Setiap kepala menghitung perhatian menggunakan kuerinya sendiri terhadap kunci dan nilai yang sama. Karena tensor K dan V yang di-cache tidak lagi disesuaikan dengan jumlah head, bandwidth memori selama decoding turun tajam — dan bandwidth, bukan komputasi, yang menentukan kecepatan pembangkitan pada akselerator modern.

Menguasai Perhatian Multi-Query

Multi-Query Attention (MQA) adalah perubahan hemat memori pada perhatian transformator yang berbagi satu set kunci dan nilai di semua kepala perhatian. Ini secara dramatis mempercepat pembuatan teks dengan memperkecil memori yang harus diacak oleh model. Perhatian Multi-Kueri adalah bagian dari tumpukan AI bahasa yang digunakan untuk membaca, menghasilkan, mengklasifikasikan, dan mengubah teks dan ucapan dalam skala besar. Untuk membangun pemahaman yang mendalam, perlakukan Perhatian Multi-Kueri sebagai model operasi, bukan fitur tunggal: tentukan hasil yang diinginkan, klarifikasi asumsi, dan pisahkan apa yang dapat dilakukan sistem dengan andal dari apa yang masih memerlukan penilaian ahli.

Dalam praktiknya, tim yang kuat menggunakan permintaan desain, pengambilan, dan peninjauan Multi-Query Attention sebagai satu sistem komunikasi terintegrasi. Mereka mendokumentasikan kriteria keberhasilan yang eksplisit, menguji berdasarkan data dan alur kerja yang realistis, dan melakukan iterasi berdasarkan pola kegagalan yang diamati, bukan berdasarkan kemenangan tolok ukur yang hanya terjadi satu kali. Di sinilah pemahaman teoritis berubah menjadi kemampuan yang tahan lama di seluruh produk, kebijakan, dan operasi.

Alur kerja bahasa dapat berjalan lebih cepat tanpa mengorbankan konsistensi. Pada saat yang sama, fakta-fakta halusinasi dapat secara diam-diam masuk ke dalam laporan, aliran dukungan, atau keluaran penelitian. Pendekatan yang paling tangguh adalah menggabungkan kecepatan eksperimen dengan disiplin tata kelola: menjalankan uji coba, menangkap bukti, menerbitkan catatan keputusan, dan terus memperbarui upaya perlindungan seiring dengan berkembangnya perilaku model, harapan pengguna, dan persyaratan peraturan.

Dampak Strategis

Alur kerja bahasa dapat berjalan lebih cepat tanpa mengorbankan konsistensi.

Alur kerja bahasa dapat berjalan lebih cepat tanpa mengorbankan konsistensi. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Ini memperluas akses lintas bahasa dan gaya komunikasi.

Ini memperluas akses lintas bahasa dan gaya komunikasi. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Tim dapat menghabiskan lebih banyak waktu untuk melakukan penilaian sementara otomatisasi menangani pengulangan.

Tim dapat menghabiskan lebih banyak waktu untuk melakukan penilaian sementara otomatisasi menangani pengulangan. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Masa Depan Perhatian Multi-Kueri

MQA menetapkan bahwa Anda dapat memangkas kepala kunci/nilai yang berlebihan dengan sedikit kerugian, dan wawasan tersebut kini membentuk hampir setiap LLM inferensi cepat. Bidang ini sebagian besar telah menyatu pada Grouped-Query Attention (GQA), yang digunakan di Llama 2/3 dan banyak lainnya, yang menggunakan beberapa grup KV, bukan satu, untuk memulihkan kualitas sekaligus mempertahankan sebagian besar percepatan. Pekerjaan di masa depan memadukan ide-ide ini dengan kompresi cache KV, kuantisasi, dan perhatian multi-laten untuk mendorong konteks yang lebih panjang dan penyajian yang lebih murah.

Implementasi Dunia Nyata

Mempercepat pembuatan token demi token di asisten obrolan di mana cache KV, bukan komputasi mentah, membatasi throughput.

PaLM Google, yang menggunakan Multi-Query Attention untuk memungkinkan inferensi skala besar yang efisien.

Melayani banyak pengguna secara bersamaan pada satu GPU dengan mengecilkan memori cache KV per permintaan.

Perhatian Kueri yang Dikelompokkan di Llama 2 70B dan Llama 3, turunan langsung yang menyeimbangkan kecepatan MQA dengan kualitas perhatian penuh.

Pola Implementasi

Perhatian Multi-Kueri dalam praktiknya

Mempercepat pembuatan token demi token di asisten obrolan di mana cache KV, bukan komputasi mentah, membatasi throughput.

Mempercepat pembuatan token demi token di asisten obrolan di mana cache KV, bukan komputasi mentah, membatasi throughput. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Perhatian Multi-Kueri dalam praktiknya

PaLM Google, yang menggunakan Multi-Query Attention untuk memungkinkan inferensi skala besar yang efisien.

PaLM Google, yang menggunakan Multi-Query Attention untuk memungkinkan inferensi skala besar yang efisien. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Perhatian Multi-Kueri dalam praktiknya

Melayani banyak pengguna secara bersamaan pada satu GPU dengan mengecilkan memori cache KV per permintaan.

Melayani banyak pengguna secara bersamaan pada satu GPU dengan memperkecil memori cache KV per permintaan. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Perhatian Multi-Kueri dalam praktiknya

Perhatian Kueri yang Dikelompokkan di Llama 2 70B dan Llama 3, turunan langsung yang menyeimbangkan kecepatan MQA dengan kualitas perhatian penuh.

Grouped-Query Attention di Llama 2 70B dan Llama 3, turunan langsung yang menyeimbangkan kecepatan MQA dengan kualitas perhatian penuh. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Risiko & Pagar Pembatas

!

Fakta-fakta yang dihalusinasi dapat secara diam-diam masuk ke dalam laporan, aliran dukungan, atau keluaran penelitian.

!

Sensitivitas yang cepat dapat menimbulkan hasil yang tidak konsisten pada permintaan serupa.

!

Data teks sensitif mungkin terekspos jika kontrol akses lemah.

Peta Jalan Implementasi

1

Tentukan format output, nada, dan standar kualitas sebelum peluncuran.

Tentukan format output, nada, dan standar kualitas sebelum peluncuran. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

2

Dasarkan respons dengan sumber tepercaya kapan pun akurasi penting.

Dasarkan respons dengan sumber tepercaya kapan pun akurasi penting. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

3

Pertahankan pos pemeriksaan tinjauan manusia untuk keluaran berisiko tinggi.

Pertahankan pos pemeriksaan tinjauan manusia untuk keluaran berisiko tinggi. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

4

Lacak pola kegagalan dan latih kembali perintah atau alur kerja secara teratur.

Lacak pola kegagalan dan latih kembali perintah atau alur kerja secara teratur. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Terus Menjelajah