คู่มือทางเทคนิค

การแก้ไขตำแหน่งสำหรับบริบทแบบยาว

การแก้ไขตำแหน่ง (PI) เป็นเทคนิคง่ายๆ ที่มีอิทธิพลซึ่งจะขยายหน้าต่างบริบทของ Transformer โดยการบีบดัชนีตำแหน่งใหม่ให้อยู่ในช่วงที่โมเดลทราบอยู่แล้ว

ภาพรวม

การแก้ไขตำแหน่ง (PI) เป็นเทคนิคง่ายๆ ที่มีอิทธิพลซึ่งจะขยายหน้าต่างบริบทของ Transformer โดยการบีบดัชนีตำแหน่งใหม่ให้อยู่ในช่วงที่โมเดลทราบอยู่แล้ว แทนที่จะคาดการณ์ไปยังตำแหน่งที่มองไม่เห็น มันจะสอดแทรกภายในตำแหน่งที่ได้รับการฝึก โดยต้องการการปรับแต่งแบบละเอียดเพียงช่วงสั้นๆ เท่านั้น

การแก้ไขตำแหน่งสำหรับบริบทแบบยาวเป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

เปิดตัวโดยนักวิจัย Meta (Chen และคณะ) ในปี 2023 การแก้ไขตำแหน่งจะจัดการกับความจริงที่ว่าโมเดลที่มี RoPE ล้มเหลวอย่างหายนะเมื่อคาดการณ์ไปยังตำแหน่งที่อยู่นอกเหนือการฝึกอบรม ข้อมูลเชิงลึกนั้นขัดกับสัญชาตญาณ: แทนที่จะขอให้โมเดลจัดการค่าตำแหน่งที่มากขึ้นซึ่งไม่เคยเห็นมาก่อน PI จะแบ่งดัชนีตำแหน่งที่เข้ามาตามสเกลแฟคเตอร์ ดังนั้นความยาวเป้าหมาย เช่น แผนที่ 8K กลับไปสู่ช่วง 2K ดั้งเดิม เนื่องจากโมเดลได้รับการฝึกในช่วงนั้น การหมุนเวียนจึงอยู่ในการกระจาย หลังจากปรับแต่งอย่างละเอียดเพียง 1,000 ขั้นตอน โมเดล LLaMA ก็ขยายออกไปในลักษณะนี้ โดยสามารถจัดการบริบทได้สูงสุดถึง 32K บทความวิจัยนี้แสดงให้เห็นว่าการประมาณค่าสามารถเพิ่มคะแนนความสนใจเป็นค่ามหาศาลได้ ในขณะที่การประมาณค่าจะทำให้ค่าเหล่านี้มีขอบเขตและมีเสถียรภาพ ซึ่งเป็นสาเหตุที่การประมาณค่าทำงานได้ดีกว่าการประมาณค่าอย่างมาก

ข้อมูลเชิงลึกทางเทคนิค

PI ปรับสเกลตำแหน่ง m เป็น m/s โดยที่ s คือปัจจัยส่วนขยาย (เช่น ความยาวใหม่หารด้วยความยาวเดิม) สำหรับ RoPE สิ่งนี้จะลดขั้นตอนการหมุนระหว่างตำแหน่งที่อยู่ติดกันอย่างมีประสิทธิภาพ และบรรจุตำแหน่งมากขึ้นในช่วงเชิงมุมที่ได้รับการฝึก ขอบเขตทางทฤษฎีในบทความนี้แสดงให้เห็นว่าคะแนนความสนใจที่สอดแทรกยังคงมีการควบคุมอย่างดี ในขณะที่การคาดการณ์แบบไร้เดียงสาสามารถสร้างลำดับความสำคัญของคะแนนที่ใหญ่กว่าสิ่งใดๆ ที่เห็นในการฝึกอบรม ซึ่งทำให้ softmax ไม่เสถียร

การเรียนรู้การแก้ไขตำแหน่งสำหรับบริบทแบบยาว

การแก้ไขตำแหน่ง (PI) เป็นเทคนิคง่ายๆ ที่มีอิทธิพลซึ่งจะขยายหน้าต่างบริบทของ Transformer โดยการบีบดัชนีตำแหน่งใหม่ให้อยู่ในช่วงที่โมเดลทราบอยู่แล้ว แทนที่จะคาดการณ์ไปยังตำแหน่งที่มองไม่เห็น มันจะสอดแทรกภายในตำแหน่งที่ได้รับการฝึก โดยต้องการการปรับแต่งแบบละเอียดเพียงช่วงสั้นๆ เท่านั้น การแก้ไขตำแหน่งสำหรับบริบทแบบยาวเป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการแก้ไขตำแหน่งสำหรับบริบทแบบยาวเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การแก้ไขตำแหน่งสำหรับบริบทแบบยาวจะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการแก้ไขตำแหน่งสำหรับบริบทที่ยาว

การแก้ไขตำแหน่งกลายเป็นรากฐานสำหรับการติดตามผลจำนวนมาก รวมถึงการปรับขนาดที่รับรู้ NTK และ YaRN ซึ่งสอดแทรกอย่างคัดเลือกมากขึ้นเพื่อรักษารายละเอียดในท้องถิ่น วิถีโคจรมุ่งสู่วิธีการที่ต้องมีการปรับแต่งเพียงเล็กน้อยหรือไม่มีเลย และมุ่งสู่การอบการจัดการที่มีบริบทยาวนานเข้าสู่การฝึกล่วงหน้า PI ยังคงเป็นพื้นฐานที่มีคุณค่า และมักจะรวมกับรูปแบบการรับรู้ความถี่ที่ใหม่กว่าเพื่อเข้าถึงหน้าต่างบริบทมากกว่า 128,000 รายการอย่างมีประสิทธิภาพ

การใช้งานจริงในโลกแห่งความเป็นจริง

การขยายโมเดล LLaMA บริบท 2K เพื่อรองรับโทเค็น 8K-32K ด้วยขั้นตอนการปรับแต่งอย่างละเอียดประมาณ 1,000 ขั้นตอน

การปรับรูปแบบการแชทที่มีอยู่เพื่อการสรุปเอกสารขนาดยาวโดยไม่ต้องฝึกอบรมใหม่ตั้งแต่ต้น

ทำหน้าที่เป็นพื้นฐานทางแนวคิดที่การปรับขนาดที่รับรู้โดย NTK และ YaRN ได้รับการปรับปรุง

การเปิดใช้งานโค้ดบริบทแบบยาวหรือการวิเคราะห์เอกสารทางกฎหมายในโมเดลที่เดิมฝึกด้วยหน้าต่างแบบสั้น

รูปแบบการดำเนินงาน

การแก้ไขตำแหน่งสำหรับบริบทแบบยาวในทางปฏิบัติ

การขยายโมเดล LLaMA บริบท 2K เพื่อรองรับโทเค็น 8K-32K ด้วยขั้นตอนการปรับแต่งอย่างละเอียดประมาณ 1,000 ขั้นตอน

การขยายโมเดล LLaMA บริบท 2K เพื่อรองรับโทเค็น 8K-32K ด้วยขั้นตอนการปรับแต่งประมาณ 1,000 ขั้นตอน โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีขึ้น เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแก้ไขตำแหน่งสำหรับบริบทแบบยาวในทางปฏิบัติ

การปรับรูปแบบการแชทที่มีอยู่เพื่อการสรุปเอกสารขนาดยาวโดยไม่ต้องฝึกอบรมใหม่ตั้งแต่ต้น

การปรับโมเดลการแชทที่มีอยู่สำหรับการสรุปเอกสารขนาดยาวโดยไม่ต้องฝึกอบรมใหม่ตั้งแต่ต้น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแก้ไขตำแหน่งสำหรับบริบทแบบยาวในทางปฏิบัติ

ทำหน้าที่เป็นพื้นฐานทางแนวคิดที่การปรับขนาดที่รับรู้โดย NTK และ YaRN ได้รับการปรับปรุง

การทำหน้าที่เป็นพื้นฐานทางแนวคิดที่การปรับขนาดที่รับรู้ NTK และ YaRN ปรับปรุงให้กับทีมมักจะได้รับผลลัพธ์ที่ดีขึ้น เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแก้ไขตำแหน่งสำหรับบริบทแบบยาวในทางปฏิบัติ

การเปิดใช้งานโค้ดบริบทแบบยาวหรือการวิเคราะห์เอกสารทางกฎหมายในโมเดลที่เดิมฝึกด้วยหน้าต่างแบบสั้น

การเปิดใช้งานโค้ดบริบทแบบยาวหรือการวิเคราะห์เอกสารทางกฎหมายในแบบจำลองที่ได้รับการฝึกมาแต่เดิมด้วยหน้าต่างแบบสั้น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป