ภาพรวม
Self-RAG เป็นเฟรมเวิร์กที่โมเดลภาษาตัดสินใจว่าจะดึงข้อมูลเมื่อใด จากนั้นจะวิจารณ์ทั้งข้อความที่ดึงมาและเอาต์พุตของตัวเองโดยใช้โทเค็นการสะท้อนพิเศษ เป็นเรื่องสำคัญเนื่องจากจะทำให้รุ่นที่ดึงข้อมูลมาปรับใช้และสามารถตรวจสอบตัวเองได้ แทนที่จะดึงเอกสารแบบสุ่มสี่สุ่มห้าสำหรับทุกข้อความค้นหา
Self-RAG และการดึงข้อมูลแบบสะท้อนเป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด
เจาะลึก
RAG มาตรฐานจะดึงข้อมูลจำนวนข้อความคงที่สำหรับทุกอินพุต แม้ว่าจะไม่จำเป็นก็ตาม และจะไม่ตรวจสอบว่าคำตอบนั้นได้รับการสนับสนุนจริงหรือไม่ Self-RAG ซึ่งเปิดตัวโดย Asai และเพื่อนร่วมงานในปี 2023 ฝึกฝนโมเดลเดียวเพื่อทำสามสิ่งตามความต้องการ ขั้นแรก มันจะปล่อยโทเค็น 'ดึงข้อมูล' เพื่อตัดสินใจว่าจำเป็นต้องมีความรู้ภายนอกหรือไม่ ประการที่สอง หลังจากดึงข้อมูลมา ระบบจะออกโทเค็นการวิจารณ์ 'IsRelevant' เพื่อตัดสินว่าแต่ละข้อความมีประโยชน์หรือไม่ ประการที่สาม สร้างโทเค็น 'IsSupported' และ 'IsUseful' เพื่อประเมินว่าข้อความของตัวเองมีพื้นฐานอยู่ในหลักฐานหรือไม่ และการตอบสนองนั้นดีเพียงใด โทเค็นการสะท้อนเหล่านี้ช่วยให้ระบบดึงข้อมูลเฉพาะเมื่อจำเป็นเท่านั้น กรองข้อความที่ไม่เกี่ยวข้อง และต้องการเอาต์พุตที่ตัวโมเดลให้คะแนนว่าได้รับการสนับสนุนเป็นอย่างดี ซึ่งช่วยลดอาการประสาทหลอน
ข้อมูลเชิงลึกทางเทคนิค
Self-RAG ได้รับการฝึกอบรมผ่านการเรียนรู้แบบมีผู้สอนเกี่ยวกับข้อมูลที่มีป้ายกำกับด้วยโทเค็นการสะท้อน ซึ่งมักจะกลั่นมาจากโมเดลที่แข็งแกร่งกว่า เช่น GPT-4 ในการอนุมาน โมเดลจะแทรกโทเค็นข้อความธรรมดาเข้ากับโทเค็นควบคุมพิเศษเหล่านี้ การค้นหาลำแสงระดับเซกเมนต์สามารถให้คะแนนความต่อเนื่องของผู้สมัครโดยใช้ความน่าจะเป็นของโทเค็นการวิพากษ์วิจารณ์ ช่วยให้นักพัฒนาปรับแต่งพฤติกรรมในขณะรันไทม์ได้ เช่น การถ่วงน้ำหนัก 'ได้รับการสนับสนุน' ให้หนักขึ้นเพื่อเพิ่มการคำนึงถึงข้อเท็จจริงและความคล่องแคล่วให้สูงสุด
การเรียนรู้ Self-RAG และการดึงข้อมูลแบบสะท้อนกลับ
Self-RAG เป็นเฟรมเวิร์กที่โมเดลภาษาตัดสินใจว่าจะดึงข้อมูลเมื่อใด จากนั้นจะวิจารณ์ทั้งข้อความที่ดึงมาและเอาต์พุตของตัวเองโดยใช้โทเค็นการสะท้อนพิเศษ เป็นเรื่องสำคัญเนื่องจากจะทำให้รุ่นที่ดึงข้อมูลมาปรับใช้และสามารถตรวจสอบตัวเองได้ แทนที่จะดึงเอกสารแบบสุ่มสี่สุ่มห้าสำหรับทุกข้อความค้นหา Self-RAG และการดึงข้อมูลแบบสะท้อนเป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Self-RAG และสะท้อนกลับเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังคงต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งโดยใช้การแจ้งเตือน การออกแบบ Self-RAG และ การสะท้อนกลับ การดึงข้อมูล และการตรวจสอบลูปเป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ
ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร
ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ
ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
ผู้ช่วยถามตอบทางการแพทย์จะดึงแนวทางสำหรับคำถามทางคลินิกเท่านั้น และข้ามการรับคำทักทายโดยใช้โทเค็นการตัดสินใจ 'ดึงข้อมูล'
ผู้ช่วยวิจัยจะกรองคำค้นหาที่ไม่ตรงประเด็นออกโดยตรวจสอบคำวิจารณ์ที่ 'เกี่ยวข้อง' ของแต่ละข้อความก่อนเขียน
แชทบอตขององค์กรชอบคำตอบที่ติดแท็ก 'IsSupported' ดังนั้นข้อความของแชทบอทจะคงอยู่ในเอกสารของบริษัท ช่วยลดอาการประสาทหลอน
เครื่องมือตรวจสอบข้อเท็จจริงใช้คะแนน 'IsUseful' เพื่อจัดอันดับคำตอบของผู้สมัครหลายรายและแสดงคำตอบที่มีหลักฐานดีที่สุด
รูปแบบการดำเนินงาน
Self-RAG และการดึงข้อมูลแบบสะท้อนกลับในทางปฏิบัติ
ผู้ช่วยถามตอบทางการแพทย์จะดึงแนวทางสำหรับคำถามทางคลินิกเท่านั้น และข้ามการรับคำทักทายโดยใช้โทเค็นการตัดสินใจ 'ดึงข้อมูล'
ผู้ช่วยถามตอบทางการแพทย์จะดึงแนวทางสำหรับคำถามทางคลินิกเท่านั้น และข้ามการเรียกค้นคำทักทาย โดยใช้โทเค็นการตัดสินใจแบบ 'เรียกข้อมูล' ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
Self-RAG และการดึงข้อมูลแบบสะท้อนกลับในทางปฏิบัติ
ผู้ช่วยวิจัยจะกรองคำค้นหาที่ไม่ตรงประเด็นออกโดยตรวจสอบคำวิจารณ์ที่ 'เกี่ยวข้อง' ของแต่ละข้อความก่อนเขียน
ผู้ช่วยวิจัยกรองการค้นหาที่ไม่ตรงประเด็นออกโดยการตรวจสอบคำวิจารณ์ 'IsRelevant' ของแต่ละข้อความก่อนเขียน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
Self-RAG และการดึงข้อมูลแบบสะท้อนกลับในทางปฏิบัติ
แชทบอตขององค์กรชอบคำตอบที่ติดแท็ก 'IsSupported' ดังนั้นข้อความของแชทบอทจะคงอยู่ในเอกสารของบริษัท ช่วยลดอาการประสาทหลอน
แชทบอตระดับองค์กรชอบคำตอบที่ติดแท็ก 'IsSupported' เพื่อให้คำแถลงยังคงอยู่ในเอกสารของบริษัท ลดอาการประสาทหลอน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
Self-RAG และการดึงข้อมูลแบบสะท้อนกลับในทางปฏิบัติ
เครื่องมือตรวจสอบข้อเท็จจริงใช้คะแนน 'IsUseful' เพื่อจัดอันดับคำตอบของผู้สมัครหลายรายและแสดงคำตอบที่มีหลักฐานดีที่สุด
เครื่องมือตรวจสอบข้อเท็จจริงใช้คะแนน 'IsUseful' เพื่อจัดอันดับคำตอบของผู้สมัครหลายรายและแสดงคำตอบที่มีหลักฐานดีที่สุด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ
ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน
ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ
แผนงานการดำเนินงาน
กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว
กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ
การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง
รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ
ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น