PANDUAN AI Bahasa

Perhatian Kueri yang Dikelompokkan

Grouped-Query Attention (GQA) adalah cara untuk memperkecil memori yang dibutuhkan selama pembuatan teks dengan membiarkan beberapa kepala kueri berbagi kepala kunci dan nilai yang sama.

Ikhtisar

Perhatian Kueri yang Dikelompokkan adalah bagian dari tumpukan AI bahasa yang digunakan untuk membaca, menghasilkan, mengklasifikasikan, dan mengubah teks dan ucapan dalam skala besar.

Menyelam Lebih Dalam

Dalam lapisan perhatian multi-kepala standar, setiap kepala memiliki kueri, kunci, dan nilainya sendiri. Selama pembuatan, kunci dan nilai untuk semua token sebelumnya disimpan dalam cache (“cache KV”) sehingga model tidak menghitung ulangnya. Dengan banyak head dan konteks yang panjang, cache ini menjadi sangat besar dan mendominasi bandwidth memori pada waktu inferensi. GQA, yang diperkenalkan oleh peneliti Google pada tahun 2023, mengelompokkan kepala kueri dan memberikan setiap kelompok satu set kepala kunci dan nilai bersama. Jika Anda memiliki 32 kepala kueri tetapi hanya 8 grup KV, cache KV akan menyusut sekitar empat kali lipat. Ini berada di antara perhatian multi-kepala penuh (setiap kepala terpisah) dan perhatian multi-kueri (satu KV bersama untuk semua kepala), menangkap sebagian besar kecepatan MQA sekaligus menjaga kualitas mendekati perhatian penuh. Llama 2 70B dan banyak model selanjutnya mengadopsinya.

Wawasan Teknis

Kualitas perhatian sangat bergantung pada banyaknya arah kueri yang berbeda, namun mentoleransi pembagian kunci dan nilai. GQA mengeksploitasi asimetri ini: GQA menyimpan semua kepala kueri tetapi mereplikasi setiap kepala KV yang dibagikan di seluruh kueri dalam grupnya. Penghematan terjadi pada kesimpulan, di mana cache KV adalah konsumen utama bandwidth memori; lebih sedikit kepala KV berarti lebih sedikit data untuk dibaca per token yang dihasilkan. Model sering kali 'dilatih' sebentar untuk mengubah pos pemeriksaan multi-kepala yang ada menjadi pos pemeriksaan GQA.

Menguasai Perhatian Kueri yang Dikelompokkan

Grouped-Query Attention (GQA) adalah cara untuk memperkecil memori yang dibutuhkan selama pembuatan teks dengan membiarkan beberapa kepala kueri berbagi kepala kunci dan nilai yang sama. Hal ini membuat model besar lebih cepat disajikan tanpa kehilangan kualitas. Perhatian Kueri yang Dikelompokkan adalah bagian dari tumpukan AI bahasa yang digunakan untuk membaca, menghasilkan, mengklasifikasikan, dan mengubah teks dan ucapan dalam skala besar. Untuk membangun pemahaman yang mendalam, perlakukan Perhatian Kueri yang Dikelompokkan sebagai model operasi, bukan fitur tunggal: tentukan hasil yang diinginkan, klarifikasi asumsi, dan pisahkan apa yang dapat dilakukan sistem dengan andal dari apa yang masih memerlukan penilaian ahli.

Dalam praktiknya, tim yang kuat menggunakan permintaan desain Perhatian Kueri yang Dikelompokkan, pengambilan, dan putaran peninjauan sebagai satu sistem komunikasi terintegrasi. Mereka mendokumentasikan kriteria keberhasilan yang eksplisit, menguji berdasarkan data dan alur kerja yang realistis, dan melakukan iterasi berdasarkan pola kegagalan yang diamati, bukan berdasarkan kemenangan tolok ukur yang hanya terjadi satu kali. Di sinilah pemahaman teoritis berubah menjadi kemampuan yang tahan lama di seluruh produk, kebijakan, dan operasi.

Alur kerja bahasa dapat berjalan lebih cepat tanpa mengorbankan konsistensi. Pada saat yang sama, fakta-fakta halusinasi dapat secara diam-diam masuk ke dalam laporan, aliran dukungan, atau keluaran penelitian. Pendekatan yang paling tangguh adalah menggabungkan kecepatan eksperimen dengan disiplin tata kelola: menjalankan uji coba, menangkap bukti, menerbitkan catatan keputusan, dan terus memperbarui upaya perlindungan seiring dengan berkembangnya perilaku model, harapan pengguna, dan persyaratan peraturan.

Dampak Strategis

Alur kerja bahasa dapat berjalan lebih cepat tanpa mengorbankan konsistensi.

Alur kerja bahasa dapat berjalan lebih cepat tanpa mengorbankan konsistensi. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Ini memperluas akses lintas bahasa dan gaya komunikasi.

Ini memperluas akses lintas bahasa dan gaya komunikasi. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Tim dapat menghabiskan lebih banyak waktu untuk melakukan penilaian sementara otomatisasi menangani pengulangan.

Tim dapat menghabiskan lebih banyak waktu untuk melakukan penilaian sementara otomatisasi menangani pengulangan. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Masa Depan Perhatian Kueri yang Dikelompokkan

GQA kini menjadi default standar dalam model bobot terbuka karena GQA dengan mudah menukar biaya kualitas yang kecil dengan kemenangan porsi yang besar. Harapkan ini untuk semakin digabungkan dengan trik efisiensi lainnya seperti FlashAttention, kuantisasi cache KV, dan skema yang lebih baru seperti perhatian laten multi-head yang semakin memampatkan cache. Seiring berkembangnya jendela konteks, pengendalian ukuran cache KV akan tetap menjadi masalah desain utama, dan head sharing gaya GQA akan tetap menjadi faktor utama.

Implementasi Dunia Nyata

Llama 2 70B dan Llama 3 menggunakan GQA untuk melayani konteks panjang dengan cache KV yang lebih kecil

Mengurangi memori GPU sehingga model obrolan besar dapat digunakan pada akselerator yang lebih sedikit atau lebih murah

Mempercepat pembuatan token demi token di API produksi di mana bandwidth cache KV menjadi hambatannya

Memungkinkan ukuran batch yang lebih besar untuk melayani banyak pengguna secara bersamaan tanpa menghabiskan memori

Pola Implementasi

Perhatian Kueri yang Dikelompokkan dalam praktiknya

Llama 2 70B dan Llama 3 menggunakan GQA untuk melayani konteks panjang dengan cache KV yang lebih kecil.

Llama 2 70B dan Llama 3 menggunakan GQA untuk melayani konteks panjang dengan cache KV yang lebih kecil. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Perhatian Kueri yang Dikelompokkan dalam praktiknya

Mengurangi memori GPU sehingga model obrolan besar dapat digunakan pada akselerator yang lebih sedikit atau lebih murah.

Mengurangi memori GPU sehingga model obrolan berukuran besar dapat disesuaikan dengan akselerator yang lebih sedikit atau lebih murah. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Perhatian Kueri yang Dikelompokkan dalam praktiknya

Mempercepat pembuatan token demi token di API produksi di mana bandwidth cache KV menjadi hambatannya.

Mempercepat pembuatan token demi token dalam API produksi di mana bandwidth cache KV menjadi penghambatnya. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Perhatian Kueri yang Dikelompokkan dalam praktiknya

Memungkinkan ukuran batch yang lebih besar untuk melayani banyak pengguna secara bersamaan tanpa menghabiskan memori.

Memungkinkan ukuran batch yang lebih besar untuk melayani banyak pengguna secara bersamaan tanpa menghabiskan memori Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Risiko & Pagar Pembatas

Fakta-fakta yang dihalusinasi dapat secara diam-diam masuk ke dalam laporan, aliran dukungan, atau keluaran penelitian.

Sensitivitas yang cepat dapat menimbulkan hasil yang tidak konsisten pada permintaan serupa.

Data teks sensitif mungkin terekspos jika kontrol akses lemah.

Peta Jalan Implementasi

Tentukan format output, nada, dan standar kualitas sebelum peluncuran.

Tentukan format output, nada, dan standar kualitas sebelum peluncuran. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Dasarkan respons dengan sumber tepercaya kapan pun akurasi penting.

Dasarkan respons dengan sumber tepercaya kapan pun akurasi penting. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Pertahankan pos pemeriksaan tinjauan manusia untuk keluaran berisiko tinggi.

Pertahankan pos pemeriksaan tinjauan manusia untuk keluaran berisiko tinggi. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Lacak pola kegagalan dan latih kembali perintah atau alur kerja secara teratur.

Lacak pola kegagalan dan latih kembali perintah atau alur kerja secara teratur. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Terus Menjelajah

ChatGPT & LLM

Lihat bagaimana model bahasa modern menghasilkan dan bernalar.

Baca Panduan

Dasar-dasar NLP

Pelajari dasar-dasar pemrosesan bahasa di balik alat-alat ini.

Baca Panduan