คู่มือทางเทคนิค

ความสนใจแบบแฟลช

Flash Attention เป็นวิธีที่ชาญฉลาดในการคำนวณขั้นตอนความสนใจภายใน Transformers โดยไม่ต้องเขียนเมทริกซ์ความสนใจขนาดยักษ์เพื่อทำให้หน่วยความจำช้าลง

ภาพรวม

Flash Attention เป็นวิธีที่ชาญฉลาดในการคำนวณขั้นตอนความสนใจภายใน Transformers โดยไม่ต้องเขียนเมทริกซ์ความสนใจขนาดยักษ์เพื่อทำให้หน่วยความจำช้าลง ทำให้โมเดลบริบทแบบยาวเร็วขึ้นและมีประสิทธิภาพหน่วยความจำมากขึ้นโดยไม่ต้องเปลี่ยนคณิตศาสตร์

Flash Attention เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

ความสนใจมาตรฐานจะเปรียบเทียบทุกโทเค็นกับโทเค็นอื่นๆ โดยสร้างเมทริกซ์คะแนน N-by-N ที่ขยายแบบกำลังสองตามความยาวของลำดับ พูดง่ายๆ ก็คือ เมทริกซ์นั้นถูกเขียนและอ่านกลับจากหน่วยความจำแบนด์วิธสูงของ GPU (HBM) และการเปลี่ยนแปลงนั้น — ไม่ใช่การคูณ — คือปัญหาคอขวดที่แท้จริง Flash Attention ซึ่งเปิดตัวโดย Tri Dao และเพื่อนร่วมงานในปี 2022 ได้จัดระเบียบการคำนวณใหม่ เพื่อไม่ให้เมทริกซ์ถูกจัดเก็บไว้อย่างสมบูรณ์ โดยจะประมวลผลคำค้นหา คีย์ และค่าในรูปแบบไทล์ขนาดเล็กที่พอดีกับ SRAM บนชิปที่รวดเร็ว คำนวณผลลัพธ์บางส่วน และรวมเข้าด้วยกันโดยใช้เคล็ดลับ Running-softmax แบบออนไลน์ เอาต์พุตจะเหมือนกันทางคณิตศาสตร์กับความสนใจทั่วไป แต่ใช้หน่วยความจำเชิงเส้นและทำงานเร็วขึ้นหลายเท่า โดยเฉพาะในลำดับที่ยาว

ข้อมูลเชิงลึกทางเทคนิค

เคล็ดลับสำคัญคือการปูกระเบื้องบวกกับซอฟต์แม็กซ์ออนไลน์ โดยปกติ Softmax ต้องใช้คะแนนทั้งแถวเพื่อคำนวณตัวหาร แต่ Flash Attention จะคงค่าสูงสุดและผลรวมรันไว้ในขณะที่สตรีมแต่ละไทล์ โดยปรับขนาดเอาต์พุตบางส่วนก่อนหน้านี้ใหม่ เพื่อให้ผลลัพธ์สุดท้ายถูกต้องแม่นยำ เนื่องจากคะแนนระดับกลางยังคงอยู่ใน SRAM (ลำดับความสำคัญเร็วกว่า HBM) อัลกอริธึมจึงรับรู้ถึง IO: โดยจะลดการอ่านและเขียนหน่วยความจำให้เหลือน้อยที่สุด แทนที่จะดำเนินการทางคณิตศาสตร์แบบดิบ

การควบคุมความสนใจแบบแฟลช

Flash Attention เป็นวิธีที่ชาญฉลาดในการคำนวณขั้นตอนความสนใจภายใน Transformers โดยไม่ต้องเขียนเมทริกซ์ความสนใจขนาดยักษ์เพื่อทำให้หน่วยความจำช้าลง ทำให้โมเดลบริบทแบบยาวเร็วขึ้นและมีประสิทธิภาพหน่วยความจำมากขึ้นโดยไม่ต้องเปลี่ยนคณิตศาสตร์ Flash Attention เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Flash Attention เป็นโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Flash Attention จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของความสนใจแบบแฟลช

Flash Attention กลายเป็นองค์ประกอบหลักเริ่มต้น โดย FlashAttention-2 และ FlashAttention-3 บีบปริมาณงานมากขึ้นจาก GPU รุ่นใหม่ เช่น H100 โดยการปรับปรุงการแบ่งพาร์ติชันงานและใช้ประโยชน์จากเส้นทาง FP8 ที่มีความแม่นยำต่ำ คาดว่าจะมีการออกแบบร่วมกับฮาร์ดแวร์อย่างต่อเนื่อง การผสานรวมที่เข้มงวดมากขึ้นในเฟรมเวิร์กการฝึกอบรมและการอนุมาน และตัวแปรต่างๆ ที่ปรับให้เหมาะกับการใส่ใจในบริบทแบบเบาบาง หน้าต่างแบบเลื่อน และบริบทที่ยาวมาก เนื่องจากหน้าต่างบริบทขยายไปสู่โทเค็นนับล้าน เคอร์เนลที่รับรู้ IO เช่นนี้ยังคงมีความสำคัญต่อการรักษาหน่วยความจำและความเร็วในทางปฏิบัติ

การใช้งานจริงในโลกแห่งความเป็นจริง

การฝึกอบรมโมเดลภาษาขนาดใหญ่ เช่น Llama และระบบคลาส GPT ด้วยหน้าต่างบริบทที่ยาวขึ้นโดยมีต้นทุนหน่วยความจำต่ำกว่า

ให้บริการผู้ช่วยแชทเร็วขึ้นโดยเร่งขั้นตอนการกรอกข้อมูลล่วงหน้าซึ่งข้อความแจ้งที่ยาวจะถูกอ่านครั้งแรก

เปิดใช้งานเครื่องมือวิเคราะห์เอกสารที่นำเข้าหนังสือทั้งหมดหรือโค้ดเบสโดยทำให้ความสนใจในลำดับยาวเป็นไปได้บน GPU ตัวเดียว

ขับเคลื่อน Transformers ด้านการมองเห็นและเสียงโดยที่อินพุตความละเอียดสูงสร้างลำดับโทเค็นที่ยาวมาก

รูปแบบการดำเนินงาน

ความสนใจแบบ Flash ในทางปฏิบัติ

การฝึกอบรมโมเดลภาษาขนาดใหญ่ เช่น Llama และระบบคลาส GPT ด้วยหน้าต่างบริบทที่ยาวขึ้นโดยมีต้นทุนหน่วยความจำต่ำกว่า

การฝึกอบรมโมเดลภาษาขนาดใหญ่ เช่น Llama และระบบคลาส GPT ด้วยหน้าต่างบริบทที่ยาวขึ้นโดยมีต้นทุนหน่วยความจำต่ำกว่า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความสนใจแบบ Flash ในทางปฏิบัติ

ให้บริการผู้ช่วยแชทเร็วขึ้นโดยเร่งขั้นตอนการกรอกข้อมูลล่วงหน้าซึ่งข้อความแจ้งที่ยาวจะถูกอ่านครั้งแรก

ให้บริการผู้ช่วยแชทได้เร็วขึ้นโดยการเร่งขั้นตอนการกรอกล่วงหน้าโดยที่ข้อความแจ้งยาวจะถูกอ่านก่อน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความสนใจแบบ Flash ในทางปฏิบัติ

เปิดใช้งานเครื่องมือวิเคราะห์เอกสารที่นำเข้าหนังสือทั้งหมดหรือโค้ดเบสโดยทำให้ความสนใจในลำดับยาวเป็นไปได้บน GPU ตัวเดียว

การเปิดใช้งานเครื่องมือวิเคราะห์เอกสารที่นำเข้าหนังสือทั้งเล่มหรือโค้ดเบสโดยทำให้ความสนใจในลำดับยาวเป็นไปได้บน GPU เดียว ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความสนใจแบบ Flash ในทางปฏิบัติ

ขับเคลื่อน Transformers ด้านการมองเห็นและเสียงโดยที่อินพุตความละเอียดสูงสร้างลำดับโทเค็นที่ยาวมาก

ขับเคลื่อน Transformers ด้านภาพและเสียงโดยที่อินพุตความละเอียดสูงสร้างลำดับโทเค็นที่ยาวมาก ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป