คู่มือ AI ภาษา

การฝังเอกสารสมมุติของ HyDE

HyDE ปรับปรุงการดึงข้อมูลโดยขอให้โมเดลภาษาจินตนาการถึงเอกสารคำตอบปลอม จากนั้นจึงค้นหาด้วยการฝังเอกสารนั้นแทนการสืบค้นแบบดิบ

ภาพรวม

การฝังเอกสารสมมุติของ HyDE เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด

เจาะลึก

HyDE (Hypothetical Document Embeddings) ซึ่งเสนอในปี 2565 โดย Gao และเพื่อนร่วมงาน จัดการกับปัญหาในการดึงข้อมูลแบบหนาแน่น: ข้อความค้นหาสั้นๆ และข้อความคำตอบที่เกี่ยวข้องมักจะอยู่ในภูมิภาคต่างๆ ของพื้นที่ฝัง สูตรมีสามขั้นตอน ขั้นแรก ให้แจ้ง LLM ที่ปฏิบัติตามคำแนะนำ (เช่น InstructGPT) เพื่อสร้างเอกสารสมมุติที่จะตอบคำถาม แม้ว่าจะมีรายละเอียดที่ประดิษฐ์ขึ้นหรือไม่ถูกต้องบางส่วนก็ตาม ประการที่สอง ฝังเอกสารสมมุตินั้นด้วยตัวเข้ารหัสคอนทราสต์ที่ไม่ได้รับการดูแล (เช่น Contriever) ประการที่สาม ใช้การฝังนั้นเพื่อค้นหาข้อความจริงโดยการค้นหาเพื่อนบ้านที่ใกล้ที่สุด ตัวเข้ารหัสทำหน้าที่เป็นคอมเพรสเซอร์แบบสูญเสีย โดยกรองการสร้าง LLM ออกไปพร้อมทั้งรักษาสัญญาณความหมายที่เกี่ยวข้องไว้ เป็นที่น่าสังเกตว่า HyDE ทำงานแบบ Zero-shot โดยไม่ต้องระบุข้อมูลที่เกี่ยวข้อง และจับคู่หรือเอาชนะผู้ดึงข้อมูลที่ปรับแต่งมาอย่างดีในภาษาและงานต่างๆ

ข้อมูลเชิงลึกทางเทคนิค

ข้อมูลเชิงลึกที่ชาญฉลาดก็คือขั้นตอนการฝังเป็นตัวลดเสียงรบกวน แม้ว่าเอกสารที่สร้างขึ้นอาจมีข้อผิดพลาดทางข้อเท็จจริง ตัวเข้ารหัสหนาแน่นจะแมปมันใกล้กับข้อความจริงที่เกี่ยวข้องอย่างแท้จริง เนื่องจากมีรูปแบบเฉพาะและความหมายร่วมกัน ในขณะที่ข้อมูลเฉพาะเจาะจงที่หลอนประสาทจะถูกล้างออกในคอขวดของเวกเตอร์ขนาดคงที่ HyDE เปลี่ยนภาระจากการฝึกอบรมตัวเข้ารหัสแบบสอบถามเป็นการใช้ประโยชน์จากความรู้เชิงสร้างสรรค์ของ LLM บวกกับการฝังตัวแบบไม่มีผู้ดูแลที่มีจำหน่ายทั่วไป

การเรียนรู้การฝังเอกสารสมมุติของ HyDE

HyDE ปรับปรุงการดึงข้อมูลโดยขอให้โมเดลภาษาจินตนาการถึงเอกสารคำตอบปลอม จากนั้นจึงค้นหาด้วยการฝังเอกสารนั้นแทนการสืบค้นแบบดิบ ช่วยเชื่อมช่องว่างระหว่างคำถามสั้นๆ กับข้อความยาวๆ ที่คุณต้องการค้นหา การฝังเอกสารสมมุติของ HyDE เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า HyDE Hypothetical Document Embeddings เป็นแบบจำลองการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ HyDE Hypothetical Document Embeddings จะออกแบบพร้อมท์ การดึงข้อมูล และการตรวจสอบลูปให้เป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการฝังเอกสารสมมุติของ HyDE

HyDE เป็นส่วนสำคัญในไปป์ไลน์ RAG ขั้นสูง ซึ่งมักจะรวมกับการจัดอันดับใหม่และการสร้างคิวรีหลายรายการ คาดว่าจะมีเวอร์ชันต่างๆ ที่สร้างเอกสารสมมุติหลายชุดและเฉลี่ยการฝังไว้เพื่อความคงทน การใช้งานแบบปรับเปลี่ยนได้ซึ่งจะทริกเกอร์ HyDE เฉพาะเมื่อการสืบค้นแบบ Raw ดึงข้อมูลได้ไม่ดี และการรวมเข้ากับ LLM ในพื้นที่ที่ถูกกว่าเพื่อลดเวลาแฝงและต้นทุน เมื่อแบบจำลองกำเนิดได้รับการปรับปรุง คุณภาพของเอกสารสมมุติและการเรียกค้นควรจะเพิ่มขึ้นต่อไป

การใช้งานจริงในโลกแห่งความเป็นจริง

การดึงข้อมูลแบบ Zero-shot ในโดเมนใหม่ที่ไม่มีข้อมูลการฝึกอบรมข้อความค้นหาที่มีป้ายกำกับอยู่

การค้นหาหลายภาษา สร้างคำตอบสมมุติในภาษาเป้าหมายก่อนที่จะฝัง

ปรับปรุงการเรียกคืน RAG โดยการขยายคำถามของผู้ใช้แบบสั้น ๆ ให้เป็นเอกสารหลอกที่สมบูรณ์

การวิจัยและการค้นหาทางกฎหมายที่คำค้นหาสั้นๆ จำเป็นต้องตรงกับข้อความต้นฉบับที่มีศัพท์เฉพาะและหนาแน่น

รูปแบบการดำเนินงาน

การฝังเอกสารสมมุติของ HyDE ในทางปฏิบัติ

การดึงข้อมูลแบบ Zero-shot ในโดเมนใหม่ที่ไม่มีข้อมูลการฝึกอบรมการสืบค้นข้อความที่มีป้ายกำกับ โดยปกติแล้วทีมจะได้ผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การฝังเอกสารสมมุติของ HyDE ในทางปฏิบัติ

การค้นหาหลายภาษา สร้างคำตอบสมมุติในภาษาเป้าหมายก่อนที่จะฝัง

การค้นหาหลายภาษา ซึ่งสร้างคำตอบเชิงสมมุติในภาษาเป้าหมายก่อนที่จะฝังทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การฝังเอกสารสมมุติของ HyDE ในทางปฏิบัติ

การปรับปรุงการเรียกคืน RAG ด้วยการขยายคำถามสั้นๆ ของผู้ใช้ให้เป็นเอกสารปลอมที่ครบถ้วน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การฝังเอกสารสมมุติของ HyDE ในทางปฏิบัติ

การวิจัยและการค้นหาทางกฎหมายที่คำค้นหาสั้นๆ จำเป็นต้องตรงกับข้อความต้นฉบับที่มีศัพท์เฉพาะหนาแน่น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ

ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน

ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ

แผนงานการดำเนินงาน

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

ChatGPT และ LLM

ดูว่าโมเดลภาษาสมัยใหม่สร้างและเหตุผลอย่างไร

อ่านคู่มือ

พื้นฐาน NLP

เรียนรู้พื้นฐานการประมวลผลภาษาที่อยู่เบื้องหลังเครื่องมือเหล่านี้

อ่านคู่มือ