ภาพรวม
Multi-Query Attention (MQA) เป็นการประหยัดหน่วยความจำในความสนใจของหม้อแปลงที่ใช้ชุดคีย์และค่าร่วมกันในส่วนหัวของความสนใจทั้งหมด มันเพิ่มความเร็วในการสร้างข้อความได้อย่างมากด้วยการลดขนาดหน่วยความจำที่โมเดลต้องสับเปลี่ยน
Multi-Query Attention เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด
เจาะลึก
ความสนใจแบบหลายหัวแบบมาตรฐานจะทำให้ทุกหัวมีการสืบค้น คีย์ และมูลค่าของตัวเอง ในระหว่างการสร้าง คีย์และค่าสำหรับโทเค็นที่ผ่านมาทั้งหมดจะต้องแคชและโหลดซ้ำในแต่ละขั้นตอน - แคช KV นี้กลายเป็นคอขวดหลัก เนื่องจากการอ่านจากหน่วยความจำจะช้ากว่าคณิตศาสตร์เอง Multi-Query Attention เสนอโดย Noam Shazeer ในปี 2019 เก็บการคาดการณ์คิวรีแยกกันต่อหัว แต่จะยุบคีย์และค่าลงในหัวที่ใช้ร่วมกันเพียงหัวเดียว วิธีนี้จะย่อแคช KV ลงตามปัจจัยที่เท่ากับจำนวนหัว ซึ่งบางครั้งอาจเล็กกว่า 8x ถึง 64x ผลลัพธ์ที่ได้คือการถอดรหัสแบบ autoregressive ที่เร็วขึ้นมาก และใช้พื้นที่หน่วยความจำน้อยลง โดยมีคุณภาพลดลงเพียงเล็กน้อยเท่านั้น ประเด็นตรงกลางคือ Grouped-Query Attention จะช่วยรักษาสมดุลระหว่างการแลกเปลี่ยน
ข้อมูลเชิงลึกทางเทคนิค
ใน MQA น้ำหนักการสืบค้นยังคงสร้างเวกเตอร์การสืบค้นแบบ H แยกต่างหาก แต่การฉายคีย์เดียวและการฉายภาพค่าเดียวจะแชร์กันในทุกส่วนหัว แต่ละหัวจะคำนวณความสนใจโดยใช้คำค้นหาของตัวเองกับคีย์และค่าเดียวกัน เนื่องจากเทนเซอร์ K และ V ที่แคชไว้ไม่ปรับขนาดตามจำนวนหัวอีกต่อไป แบนด์วิดท์หน่วยความจำในระหว่างการถอดรหัสจึงลดลงอย่างรวดเร็ว และแบนด์วิดท์ซึ่งไม่ใช่การคำนวณ คือสิ่งที่เพิ่มความเร็วในการสร้างเกตบนตัวเร่งความเร็วสมัยใหม่
การเรียนรู้ความสนใจแบบหลายแบบสอบถาม
Multi-Query Attention (MQA) เป็นการประหยัดหน่วยความจำในความสนใจของหม้อแปลงที่ใช้ชุดคีย์และค่าร่วมกันในส่วนหัวของความสนใจทั้งหมด มันเพิ่มความเร็วในการสร้างข้อความได้อย่างมากด้วยการลดขนาดหน่วยความจำที่โมเดลต้องสับเปลี่ยน Multi-Query Attention เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Multi-Query Attention เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งใช้พรอมต์การออกแบบ การดึงข้อมูล และการตรวจสอบแบบ Multi-Query Attention เป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ
ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร
ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ
ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
เร่งความเร็วในการสร้างโทเค็นต่อโทเค็นในตัวช่วยแชท โดยที่แคช KV ไม่ใช่การประมวลผลดิบ จะจำกัดปริมาณงาน
PaLM ของ Google ซึ่งใช้ Multi-Query Attention เพื่อเปิดใช้งานการอนุมานขนาดใหญ่อย่างมีประสิทธิภาพ
ให้บริการผู้ใช้พร้อมกันจำนวนมากบน GPU ตัวเดียวโดยการลดขนาดหน่วยความจำแคช KV ตามคำขอ
ความสนใจในการสืบค้นแบบกลุ่มใน Llama 2 70B และ Llama 3 ซึ่งเป็นผู้สืบทอดโดยตรงที่สร้างสมดุลระหว่างความเร็วของ MQA กับคุณภาพการเอาใจใส่เต็มรูปแบบ
รูปแบบการดำเนินงาน
ความสนใจแบบหลายแบบสอบถามในทางปฏิบัติ
เร่งความเร็วในการสร้างโทเค็นต่อโทเค็นในตัวช่วยแชท โดยที่แคช KV ไม่ใช่การประมวลผลดิบ จะจำกัดปริมาณงาน
การเร่งความเร็วในการสร้างโทเค็นต่อโทเค็นในผู้ช่วยแชท โดยที่แคช KV ไม่ใช่การประมวลผลแบบ Raw จะจำกัดปริมาณงาน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความสนใจแบบหลายแบบสอบถามในทางปฏิบัติ
PaLM ของ Google ซึ่งใช้ Multi-Query Attention เพื่อเปิดใช้งานการอนุมานขนาดใหญ่อย่างมีประสิทธิภาพ
PaLM ของ Google ซึ่งใช้ Multi-Query Attention เพื่อช่วยให้ทีมอนุมานขนาดใหญ่มีประสิทธิภาพมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความสนใจแบบหลายแบบสอบถามในทางปฏิบัติ
ให้บริการผู้ใช้พร้อมกันจำนวนมากบน GPU ตัวเดียวโดยการลดขนาดหน่วยความจำแคช KV ตามคำขอ
ให้บริการผู้ใช้พร้อมกันจำนวนมากบน GPU ตัวเดียวโดยการลดขนาดหน่วยความจำแคช KV ตามคำขอ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความสนใจแบบหลายแบบสอบถามในทางปฏิบัติ
ความสนใจในการสืบค้นแบบกลุ่มใน Llama 2 70B และ Llama 3 ซึ่งเป็นผู้สืบทอดโดยตรงที่สร้างสมดุลระหว่างความเร็วของ MQA กับคุณภาพการเอาใจใส่เต็มรูปแบบ
ความสนใจในการสืบค้นแบบกลุ่มใน Llama 2 70B และ Llama 3 ซึ่งเป็นผู้สืบทอดโดยตรงที่สร้างสมดุลระหว่างความเร็วของ MQA กับคุณภาพที่เอาใจใส่เต็มที่ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ
ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน
ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ
แผนงานการดำเนินงาน
กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว
กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ
การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง
รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ
ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น