คู่มือ AI ภาษา

ความสนใจแบบสอบถามแบบกลุ่ม

Grouped-Query Attention (GQA) เป็นวิธีย่อหน่วยความจำที่จำเป็นระหว่างการสร้างข้อความโดยปล่อยให้ส่วนหัวของแบบสอบถามหลายรายการใช้คีย์และส่วนหัวของค่าเดียวกันร่วมกัน

ภาพรวม

Grouped-Query Attention (GQA) เป็นวิธีย่อหน่วยความจำที่จำเป็นระหว่างการสร้างข้อความโดยปล่อยให้ส่วนหัวของแบบสอบถามหลายรายการใช้คีย์และส่วนหัวของค่าเดียวกันร่วมกัน ทำให้โมเดลขนาดใหญ่ให้บริการได้เร็วขึ้นมากโดยแทบไม่สูญเสียคุณภาพเลย

Grouped-Query Attention เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด

เจาะลึก

ในเลเยอร์ความสนใจแบบหลายหัวมาตรฐาน ทุกหัวจะมีการสืบค้น คีย์ และค่าของตัวเอง ในระหว่างการสร้าง คีย์และค่าสำหรับโทเค็นก่อนหน้าทั้งหมดจะถูกแคชไว้ ("แคช KV") ดังนั้นโมเดลจึงไม่คำนวณใหม่ ด้วยหัวข้อมูลจำนวนมากและบริบทที่ยาว แคชนี้จึงมีมหาศาลและครอบงำแบนด์วิดท์หน่วยความจำ ณ เวลาอนุมาน GQA เปิดตัวโดยนักวิจัย Google ในปี 2023 จัดกลุ่มส่วนหัวของข้อความค้นหาและให้แต่ละกลุ่มมีชุดคีย์และส่วนหัวของค่าที่ใช้ร่วมกันเพียงชุดเดียว หากคุณมีหัวแบบสอบถาม 32 หัว แต่มีกลุ่ม KV เพียง 8 กลุ่ม แคช KV จะลดลงประมาณสี่เท่า สิ่งนี้อยู่ระหว่างความสนใจแบบหลายหัวเต็มรูปแบบ (ทุกหัวแยกจากกัน) และความสนใจแบบหลายคำค้นหา (1 KV ที่ใช้ร่วมกันสำหรับหัวทั้งหมด) ซึ่งจับความเร็วส่วนใหญ่ของ MQA ขณะเดียวกันก็รักษาคุณภาพให้ใกล้เคียงกับความสนใจเต็มที่ Llama 2 70B และรุ่นต่อๆ มานำมาใช้

ข้อมูลเชิงลึกทางเทคนิค

คุณภาพความสนใจขึ้นอยู่กับการมีทิศทางการสืบค้นที่แตกต่างกันอย่างมาก แต่ก็ยอมให้มีการแบ่งปันคีย์และค่าได้ GQA ใช้ประโยชน์จากความไม่สมดุลนี้ โดยจะเก็บส่วนหัวของคำค้นหาทั้งหมดไว้ แต่จะจำลองส่วนหัวของ KV ที่ใช้ร่วมกันแต่ละรายการข้ามคำค้นหาในกลุ่ม การประหยัดเกิดขึ้นเมื่ออนุมาน โดยที่แคช KV เป็นตัวใช้หลักของแบนด์วิธหน่วยความจำ หัว KV ที่น้อยลงหมายถึงข้อมูลที่อ่านน้อยลงต่อโทเค็นที่สร้างขึ้น โมเดลมักจะได้รับการ "ฝึกฝน" เป็นเวลาสั้นๆ เพื่อแปลงจุดตรวจสอบแบบหลายหัวที่มีอยู่ให้เป็น GQA

การเรียนรู้ความสนใจแบบกลุ่มแบบสอบถาม

Grouped-Query Attention (GQA) เป็นวิธีย่อหน่วยความจำที่จำเป็นระหว่างการสร้างข้อความโดยปล่อยให้ส่วนหัวของแบบสอบถามหลายรายการใช้คีย์และส่วนหัวของค่าเดียวกันร่วมกัน ทำให้โมเดลขนาดใหญ่ให้บริการได้เร็วขึ้นมากโดยแทบไม่สูญเสียคุณภาพเลย Grouped-Query Attention เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Grouped-Query Attention เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่เข้มแข็งจะใช้พร้อมท์การออกแบบ Grouped-Query Attention การดึงข้อมูล และการตรวจสอบลูปเป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของความสนใจแบบกลุ่มแบบสอบถาม

ขณะนี้ GQA เป็นค่าเริ่มต้นมาตรฐานในโมเดล Open Weight เนื่องจากมีการแลกเปลี่ยนต้นทุนคุณภาพเพียงเล็กน้อยเพื่อชัยชนะในการให้บริการครั้งใหญ่ คาดว่ามันจะรวมเข้ากับเทคนิคด้านประสิทธิภาพอื่นๆ ได้มากขึ้น เช่น FlashAttention, การหาปริมาณแคช KV และรูปแบบที่ใหม่กว่า เช่น ความสนใจแฝงแบบหลายหัวที่บีบอัดแคชให้ดียิ่งขึ้นไปอีก เมื่อหน้าต่างบริบทขยายใหญ่ขึ้น การควบคุมขนาดแคช KV จะยังคงเป็นปัญหาการออกแบบที่สำคัญ และการแบ่งปันส่วนหัวแบบ GQA จะยังคงเป็นกุญแจสำคัญ

การใช้งานจริงในโลกแห่งความเป็นจริง

Llama 2 70B และ Llama 3 ใช้ GQA เพื่อให้บริการบริบทแบบยาวด้วยแคช KV ที่เล็กกว่า

การลดหน่วยความจำ GPU เพื่อให้รูปแบบการแชทขนาดใหญ่เหมาะกับตัวเร่งความเร็วน้อยลงหรือถูกกว่า

เร่งความเร็วในการสร้างโทเค็นต่อโทเค็นใน API ที่ใช้งานจริงซึ่งแบนด์วิดท์แคช KV เป็นจุดคอขวด

เปิดใช้งานขนาดแบตช์ที่ใหญ่ขึ้นเพื่อให้บริการผู้ใช้จำนวนมากพร้อมกันโดยไม่ต้องใช้หน่วยความจำจนหมด

รูปแบบการดำเนินงาน

Grouped-Query ความสนใจในทางปฏิบัติ

Llama 2 70B และ Llama 3 ใช้ GQA เพื่อให้บริการบริบทแบบยาวด้วยแคช KV ที่เล็กกว่า

Llama 2 70B และ Llama 3 ใช้ GQA เพื่อให้บริการบริบทที่ยาวนานด้วยแคช KV ที่เล็กกว่า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Grouped-Query ความสนใจในทางปฏิบัติ

การลดหน่วยความจำ GPU เพื่อให้รูปแบบการแชทขนาดใหญ่เหมาะกับตัวเร่งความเร็วน้อยลงหรือถูกกว่า

การลดหน่วยความจำ GPU เพื่อให้โมเดลการแชทขนาดใหญ่เหมาะกับตัวเร่งความเร็วที่น้อยลงหรือถูกกว่า ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Grouped-Query ความสนใจในทางปฏิบัติ

เร่งความเร็วในการสร้างโทเค็นต่อโทเค็นใน API ที่ใช้งานจริงซึ่งแบนด์วิดท์แคช KV เป็นจุดคอขวด

การเร่งความเร็วการสร้างโทเค็นต่อโทเค็นใน API ที่ใช้งานจริงโดยที่แบนด์วิดท์แคช KV เป็นจุดคอขวด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Grouped-Query ความสนใจในทางปฏิบัติ

เปิดใช้งานขนาดแบตช์ที่ใหญ่ขึ้นเพื่อให้บริการผู้ใช้จำนวนมากพร้อมกันโดยไม่ต้องใช้หน่วยความจำจนหมด

การเปิดใช้งานขนาดแบตช์ที่ใหญ่ขึ้นสำหรับการให้บริการผู้ใช้จำนวนมากพร้อมกันโดยไม่ทำให้หน่วยความจำหมด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ

!

ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน

!

ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ

แผนงานการดำเนินงาน

1

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป