คู่มือ AI ภาษา

แพ้ในเอฟเฟกต์กลาง

เอฟเฟกต์ 'หลงทางตรงกลาง' คือแนวโน้มของโมเดลภาษาที่จะใช้ข้อมูลได้ดีที่สุดเมื่อปรากฏที่จุดเริ่มต้นหรือจุดสิ้นสุดของอินพุตขนาดยาว ในขณะที่มองข้ามข้อเท็จจริงที่ฝังอยู่ตรงกลาง

ภาพรวม

เอฟเฟกต์ 'หลงทางตรงกลาง' คือแนวโน้มของโมเดลภาษาที่จะใช้ข้อมูลได้ดีที่สุดเมื่อปรากฏที่จุดเริ่มต้นหรือจุดสิ้นสุดของอินพุตขนาดยาว ในขณะที่มองข้ามข้อเท็จจริงที่ฝังอยู่ตรงกลาง เป็นเรื่องสำคัญเนื่องจากจะจำกัดจำนวนที่เราสามารถเชื่อถือโมเดลบริบทแบบยาวกับเอกสารที่ดึงข้อมูลได้

Lost in the Middle Effect เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด

เจาะลึก

ระบุในการศึกษาปี 2023 โดย Liu และเพื่อนร่วมงานจากสแตนฟอร์ด ผลกระทบเกิดขึ้นเมื่อแบบจำลองได้รับเอกสารจำนวนมาก และขอให้ตอบโดยใช้เอกสารที่มีข้อเท็จจริงที่สำคัญ ความแม่นยำก่อให้เกิดเส้นโค้งรูปตัว U โดยจะสูงสุดเมื่อข้อความที่เกี่ยวข้องอยู่ที่จุดเริ่มต้นหรือจุดสิ้นสุดของข้อความแจ้ง และลดลงอย่างเห็นได้ชัดเมื่ออยู่ตรงกลาง สิ่งนี้เกิดขึ้นแม้กระทั่งกับรุ่นที่วางตลาดว่ามีความสามารถในบริบทแบบยาว ความหมายนั้นชัดเจนสำหรับการสร้างการดึงข้อมูลแบบเสริม: การใส่ข้อความหลายสิบข้อความลงในพรอมต์ไม่ได้รับประกันว่าโมเดลจะอ่านข้อความเหล่านั้นอย่างเท่าเทียมกัน ตำแหน่ง ไม่ใช่แค่การแสดงตนเท่านั้น แต่ยังเป็นตัวกำหนดว่าแบบจำลองจะคำนึงถึงข้อเท็จจริงหรือไม่ งานนี้ปรับบริบทใหม่โดยคำนึงถึงการใช้งานอย่างมีประสิทธิภาพ ไม่ใช่ขนาดหน้าต่างดิบ

ข้อมูลเชิงลึกทางเทคนิค

เส้นโค้งรูปตัว U น่าจะเกิดจากการที่ความสนใจและการเข้ารหัสตำแหน่งกระจายโฟกัสอย่างไร อคติอันดับหนึ่งและความใหม่ ซึ่งส่วนหนึ่งสืบทอดมาจากโครงสร้างข้อมูลการฝึกอบรมและแผนตำแหน่ง ทำให้โทเค็นต้นและปลายมีน้ำหนักเพิ่มขึ้น สถาปัตยกรรมตัวถอดรหัสบางตัวยังเผยแพร่ข้อมูลโทเค็นในยุคแรกอย่างรุนแรงผ่านเลเยอร์ต่างๆ ผลลัพธ์สุทธิคือตำแหน่งตรงกลางได้รับความสนใจน้อยลง ดังนั้นคำตอบที่ถูกต้องที่อยู่ในตำแหน่งนั้นจึงสามารถละเลยได้อย่างมีประสิทธิภาพแม้ว่าจะมีการนำเสนอโดยสมบูรณ์ในบริบทก็ตาม

การเรียนรู้ที่หายไปในเอฟเฟกต์ระดับกลาง

เอฟเฟกต์ 'หลงทางตรงกลาง' คือแนวโน้มของโมเดลภาษาที่จะใช้ข้อมูลได้ดีที่สุดเมื่อปรากฏที่จุดเริ่มต้นหรือจุดสิ้นสุดของอินพุตขนาดยาว ในขณะที่มองข้ามข้อเท็จจริงที่ฝังอยู่ตรงกลาง เป็นเรื่องสำคัญเนื่องจากจะจำกัดจำนวนที่เราสามารถเชื่อถือโมเดลบริบทแบบยาวกับเอกสารที่ดึงข้อมูลได้ Lost in the Middle Effect เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Lost in the Middle Effect เป็นโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การออกแบบ Lost in the Middle Effect พร้อมท์ การดึงข้อมูล และการตรวจสอบลูปเป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการหลงทางในเอฟเฟกต์ระดับกลาง

นักวิจัยกำลังจัดการกับผลกระทบด้วยการปรับเปลี่ยนความสนใจ การฝึกอบรมโดยคำนึงถึงตำแหน่ง และการดึงข้อมูลอย่างชาญฉลาดยิ่งขึ้น ซึ่งจัดลำดับข้อความที่เกี่ยวข้องมากที่สุดไปยังขอบของข้อความแจ้ง ชุดการประเมินผลในขณะนี้รวมการทดสอบ 'เข็มในกองหญ้า' ข้ามตำแหน่งเพื่อวัดบริบทที่มีประสิทธิผล เมื่อสถาปัตยกรรมได้รับการปรับปรุง ส่วนโค้งรูปตัวยูจะแบนราบลง แต่ผู้ปฏิบัติงานจะยังคงออกแบบไปป์ไลน์ที่วางหลักฐานสำคัญว่าแบบจำลองมีลักษณะอย่างไร แทนที่จะไว้วางใจความสนใจแบบเดียวกัน

การใช้งานจริงในโลกแห่งความเป็นจริง

ระบบ RAG ดึงเอกสาร 20 ฉบับแต่พลาดคำตอบเพราะไปอยู่ในตอนที่ 10 จาก 20 ข้อ

วิศวกรจัดลำดับผลการค้นหาใหม่เพื่อจัดส่วนที่เกี่ยวข้องมากที่สุดไว้แรกหรือสุดท้ายในข้อความแจ้ง

ผู้สรุปเอกสารขนาดยาวจะมีน้ำหนักน้อยเกินไปในรายละเอียดสำคัญที่ปรากฏในช่วงกลางของสัญญา

เกณฑ์มาตรฐาน 'เข็มในกองหญ้า' จะซ่อนข้อเท็จจริงที่ระดับความลึกที่แตกต่างกันเพื่อสร้างแผนภูมิความแม่นยำของตำแหน่งของแบบจำลอง

รูปแบบการดำเนินงาน

แพ้ใน Middle Effect ในทางปฏิบัติ

ระบบ RAG ดึงเอกสาร 20 ฉบับแต่พลาดคำตอบเพราะไปอยู่ในตอนที่ 10 จาก 20 ข้อ

ระบบ RAG ดึงเอกสาร 20 ฉบับแต่พลาดคำตอบ เนื่องจากเข้าสู่ส่วนที่ 10 จาก 20 ทีมมักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แพ้ใน Middle Effect ในทางปฏิบัติ

วิศวกรจัดลำดับผลการค้นหาใหม่เพื่อจัดส่วนที่เกี่ยวข้องมากที่สุดไว้แรกหรือสุดท้ายในข้อความแจ้ง

วิศวกรจัดลำดับผลการค้นหาใหม่เพื่อจัดส่วนที่เกี่ยวข้องมากที่สุดไว้เป็นอันดับแรกหรือสุดท้ายในข้อความแจ้ง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แพ้ใน Middle Effect ในทางปฏิบัติ

ผู้สรุปเอกสารขนาดยาวจะมีน้ำหนักน้อยเกินไปในรายละเอียดสำคัญที่ปรากฏในช่วงกลางของสัญญา

ตัวสรุปเอกสารขนาดยาวจะมีน้ำหนักน้อยเกินไปในรายละเอียดสำคัญที่ปรากฏกลางทางของสัญญา ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แพ้ใน Middle Effect ในทางปฏิบัติ

เกณฑ์มาตรฐาน 'เข็มในกองหญ้า' จะซ่อนข้อเท็จจริงที่ระดับความลึกที่แตกต่างกันเพื่อสร้างแผนภูมิความแม่นยำของตำแหน่งของแบบจำลอง

เกณฑ์มาตรฐาน 'เข็มในกองหญ้า' ซ่อนข้อเท็จจริงที่ความลึกที่แตกต่างกันเพื่อสร้างแผนภูมิความแม่นยำของตำแหน่งของโมเดล โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ

!

ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน

!

ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ

แผนงานการดำเนินงาน

1

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป