คู่มือ AI ภาษา

ความสนใจแบบหลายแบบสอบถาม

Multi-Query Attention (MQA) เป็นการประหยัดหน่วยความจำในความสนใจของหม้อแปลงที่ใช้ชุดคีย์และค่าร่วมกันในส่วนหัวของความสนใจทั้งหมด

ภาพรวม

Multi-Query Attention เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด

เจาะลึก

ความสนใจแบบหลายหัวแบบมาตรฐานจะทำให้ทุกหัวมีการสืบค้น คีย์ และมูลค่าของตัวเอง ในระหว่างการสร้าง คีย์และค่าสำหรับโทเค็นที่ผ่านมาทั้งหมดจะต้องแคชและโหลดซ้ำในแต่ละขั้นตอน - แคช KV นี้กลายเป็นคอขวดหลัก เนื่องจากการอ่านจากหน่วยความจำจะช้ากว่าคณิตศาสตร์เอง Multi-Query Attention เสนอโดย Noam Shazeer ในปี 2019 เก็บการคาดการณ์คิวรีแยกกันต่อหัว แต่จะยุบคีย์และค่าลงในหัวที่ใช้ร่วมกันเพียงหัวเดียว วิธีนี้จะย่อแคช KV ลงตามปัจจัยที่เท่ากับจำนวนหัว ซึ่งบางครั้งอาจเล็กกว่า 8x ถึง 64x ผลลัพธ์ที่ได้คือการถอดรหัสแบบ autoregressive ที่เร็วขึ้นมาก และใช้พื้นที่หน่วยความจำน้อยลง โดยมีคุณภาพลดลงเพียงเล็กน้อยเท่านั้น ประเด็นตรงกลางคือ Grouped-Query Attention จะช่วยรักษาสมดุลระหว่างการแลกเปลี่ยน

ข้อมูลเชิงลึกทางเทคนิค

ใน MQA น้ำหนักการสืบค้นยังคงสร้างเวกเตอร์การสืบค้นแบบ H แยกต่างหาก แต่การฉายคีย์เดียวและการฉายภาพค่าเดียวจะแชร์กันในทุกส่วนหัว แต่ละหัวจะคำนวณความสนใจโดยใช้คำค้นหาของตัวเองกับคีย์และค่าเดียวกัน เนื่องจากเทนเซอร์ K และ V ที่แคชไว้ไม่ปรับขนาดตามจำนวนหัวอีกต่อไป แบนด์วิดท์หน่วยความจำในระหว่างการถอดรหัสจึงลดลงอย่างรวดเร็ว และแบนด์วิดท์ซึ่งไม่ใช่การคำนวณ คือสิ่งที่เพิ่มความเร็วในการสร้างเกตบนตัวเร่งความเร็วสมัยใหม่

การเรียนรู้ความสนใจแบบหลายแบบสอบถาม

Multi-Query Attention (MQA) เป็นการประหยัดหน่วยความจำในความสนใจของหม้อแปลงที่ใช้ชุดคีย์และค่าร่วมกันในส่วนหัวของความสนใจทั้งหมด มันเพิ่มความเร็วในการสร้างข้อความได้อย่างมากด้วยการลดขนาดหน่วยความจำที่โมเดลต้องสับเปลี่ยน Multi-Query Attention เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Multi-Query Attention เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งใช้พรอมต์การออกแบบ การดึงข้อมูล และการตรวจสอบแบบ Multi-Query Attention เป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของความสนใจแบบหลายแบบสอบถาม

MQA กำหนดไว้ว่าคุณสามารถตัดส่วนหัวของคีย์/ค่าที่ซ้ำซ้อนได้โดยไม่เกิดอันตรายใดๆ เลย และขณะนี้ข้อมูลเชิงลึกดังกล่าวได้กำหนดรูปแบบ LLM การอนุมานอย่างรวดเร็วเกือบทุกตัว ฟิลด์นี้ส่วนใหญ่มาบรรจบกันที่ Grouped-Query Attention (GQA) ซึ่งใช้ใน Llama 2/3 และอื่นๆ อีกมากมาย ซึ่งใช้กลุ่ม KV สองสามกลุ่มแทนที่จะเป็นกลุ่มเดียวในการกู้คืนคุณภาพในขณะที่ยังคงรักษาการเร่งความเร็วส่วนใหญ่เอาไว้ งานในอนาคตผสมผสานแนวคิดเหล่านี้เข้ากับการบีบอัดแคช KV การหาปริมาณ และความสนใจแบบแฝงหลายตัวเพื่อผลักดันบริบทที่ยาวขึ้นและการให้บริการที่ถูกกว่า

การใช้งานจริงในโลกแห่งความเป็นจริง

เร่งความเร็วในการสร้างโทเค็นต่อโทเค็นในตัวช่วยแชท โดยที่แคช KV ไม่ใช่การประมวลผลดิบ จะจำกัดปริมาณงาน

PaLM ของ Google ซึ่งใช้ Multi-Query Attention เพื่อเปิดใช้งานการอนุมานขนาดใหญ่อย่างมีประสิทธิภาพ

ให้บริการผู้ใช้พร้อมกันจำนวนมากบน GPU ตัวเดียวโดยการลดขนาดหน่วยความจำแคช KV ตามคำขอ

ความสนใจในการสืบค้นแบบกลุ่มใน Llama 2 70B และ Llama 3 ซึ่งเป็นผู้สืบทอดโดยตรงที่สร้างสมดุลระหว่างความเร็วของ MQA กับคุณภาพการเอาใจใส่เต็มรูปแบบ

รูปแบบการดำเนินงาน

ความสนใจแบบหลายแบบสอบถามในทางปฏิบัติ

การเร่งความเร็วในการสร้างโทเค็นต่อโทเค็นในผู้ช่วยแชท โดยที่แคช KV ไม่ใช่การประมวลผลแบบ Raw จะจำกัดปริมาณงาน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความสนใจแบบหลายแบบสอบถามในทางปฏิบัติ

PaLM ของ Google ซึ่งใช้ Multi-Query Attention เพื่อช่วยให้ทีมอนุมานขนาดใหญ่มีประสิทธิภาพมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความสนใจแบบหลายแบบสอบถามในทางปฏิบัติ

ให้บริการผู้ใช้พร้อมกันจำนวนมากบน GPU ตัวเดียวโดยการลดขนาดหน่วยความจำแคช KV ตามคำขอ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความสนใจแบบหลายแบบสอบถามในทางปฏิบัติ

ความสนใจในการสืบค้นแบบกลุ่มใน Llama 2 70B และ Llama 3 ซึ่งเป็นผู้สืบทอดโดยตรงที่สร้างสมดุลระหว่างความเร็วของ MQA กับคุณภาพที่เอาใจใส่เต็มที่ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ

ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน

ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ

แผนงานการดำเนินงาน

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

ChatGPT และ LLM

ดูว่าโมเดลภาษาสมัยใหม่สร้างและเหตุผลอย่างไร

อ่านคู่มือ

พื้นฐาน NLP

เรียนรู้พื้นฐานการประมวลผลภาษาที่อยู่เบื้องหลังเครื่องมือเหล่านี้

อ่านคู่มือ