คู่มือทางเทคนิค

การจัดอันดับโมเดลใหม่

การจัดอันดับใหม่คือโมเดลขั้นที่สองที่ให้คะแนนรายการผลการค้นหาใหม่ซึ่งเกี่ยวข้องกับข้อความค้นหา ซึ่งจะทำให้ลำดับมีความคมชัดขึ้นหลังจากที่สุนัขจำพวกเร็วดึงผู้สมัคร

ภาพรวม

การจัดอันดับใหม่คือโมเดลขั้นที่สองที่ให้คะแนนรายการผลการค้นหาใหม่ซึ่งเกี่ยวข้องกับข้อความค้นหา ซึ่งจะทำให้ลำดับมีความคมชัดขึ้นหลังจากที่สุนัขจำพวกเร็วดึงผู้สมัคร เป็นองค์ประกอบสำคัญในการค้นหาสมัยใหม่และการเรียกข้อมูลเสริม (RAG)

การจัดอันดับโมเดลใหม่เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

ระบบ Search และ RAG มักจะทำงานในสองขั้นตอน ประการแรก โปรแกรมรีทรีฟเวอร์แบบรวดเร็ว (มักเป็นการค้นหาแบบเวกเตอร์/แบบฝัง หรือคำสำคัญ BM25) จะดึงเอกสารที่อยู่ระหว่างการพิจารณาประมาณ 50-100 เอกสารจากหลายล้านชุด ซึ่งปรับให้เหมาะสมเพื่อการเรียกคืนและความเร็ว แต่การส่งผ่านครั้งแรกนั้นจะให้คะแนนการสืบค้นและเอกสารแยกกัน ดังนั้นจึงอาจพลาดความแตกต่างเล็กน้อยได้ การจัดอันดับใหม่เป็นขั้นตอนที่แม่นยำ โดยนำการสืบค้นและผู้สมัครแต่ละคนมารวมกันและให้คะแนนความเกี่ยวข้องที่ละเอียด จากนั้นจึงเรียงลำดับรายการใหม่เพื่อให้ผลลัพธ์ที่ดีที่สุดขึ้นไปอยู่ด้านบนสุด สถาปัตยกรรมที่โดดเด่นคือตัวเข้ารหัสข้าม โดยจะฟีดการสืบค้นและเอกสารร่วมกันในหม้อแปลงไฟฟ้า โดยให้ทุกโทเค็นการสืบค้นเข้าร่วมกับทุกโทเค็นของเอกสาร การโต้ตอบเชิงลึกนี้ทำให้ผู้จัดอันดับใหม่มีความแม่นยำมากกว่าการฝังความคล้ายคลึงกัน โดยเสียค่าใช้จ่ายในการดำเนินการหนึ่งครั้งต่อผู้สมัครหนึ่งคน

ข้อมูลเชิงลึกทางเทคนิค

ความแตกต่างคือตัวเข้ารหัสแบบคู่กับตัวเข้ารหัสแบบข้าม ตัวเข้ารหัสแบบคู่ฝังแบบสอบถามและเอกสารอย่างอิสระในเวกเตอร์ ดังนั้นความคล้ายคลึงกันจึงเป็นผลิตภัณฑ์ดอทราคาถูก รวดเร็วและคำนวณล่วงหน้าได้ แต่ตื้นเขิน ตัวเข้ารหัสข้ามจะเชื่อมโยงการสืบค้นและเอกสารเข้าด้วยกันเป็นอินพุตเดียว และเรียกใช้ Transformer Pass แบบเต็ม ทำให้เกิดคะแนนความเกี่ยวข้องเพียงรายการเดียวพร้อมความสนใจในระดับโทเค็นที่หลากหลาย ไม่สามารถคำนวณล่วงหน้าได้ ดังนั้นจึงสงวนไว้สำหรับการจัดอันดับรายการโปรดเล็กๆ น้อยๆ ใหม่ โมเดลอย่าง Cohere Rerank และ BGE-reranker เป็นตัวอย่างให้เห็นสิ่งนี้

การเรียนรู้โมเดลการจัดอันดับใหม่

การจัดอันดับใหม่คือโมเดลขั้นที่สองที่ให้คะแนนรายการผลการค้นหาใหม่ซึ่งเกี่ยวข้องกับข้อความค้นหา ซึ่งจะทำให้ลำดับมีความคมชัดขึ้นหลังจากที่สุนัขจำพวกเร็วดึงผู้สมัคร เป็นองค์ประกอบสำคัญในการค้นหาสมัยใหม่และการเรียกข้อมูลเสริม (RAG) การจัดอันดับโมเดลใหม่เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าโมเดลการจัดอันดับใหม่เป็นเพียงโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังคงต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้โมเดลการจัดอันดับใหม่จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการจัดอันดับโมเดลใหม่

การจัดอันดับใหม่กำลังกลายเป็นมาตรฐานในไปป์ไลน์ RAG เนื่องจากบริบทที่ได้รับการจัดลำดับที่ดีขึ้นจะปรับปรุงคุณภาพคำตอบ LLM โดยตรงและลดอาการประสาทหลอน คาดว่าจะมีตัวเข้ารหัสข้ามที่เบากว่าและเร็วกว่า ตัวจัดอันดับใหม่หลายภาษาและหลายรูปแบบ (ข้อความพร้อมรูปภาพหรือตาราง) และหน้าต่างบริบทที่ยาวขึ้นเพื่อให้สามารถให้คะแนนเอกสารทั้งหมดได้ การจัดอันดับใหม่แบบ 'listwise' ที่ใช้ LLM ซึ่งตัดสินผู้สมัครทั้งหมดในคราวเดียวกำลังเพิ่มขึ้น และระบบบางระบบกลั่นกรองการตัดสินแบบเข้ารหัสข้ามกลับไปสู่การเรียกค้นที่ราคาถูกกว่าเพื่อให้ได้ความแม่นยำใกล้กับขั้นแรกมากขึ้น

การใช้งานจริงในโลกแห่งความเป็นจริง

แชทบอท RAG ดึงข้อมูล 50 ชิ้นโดยการฝังการค้นหา จากนั้นจัดอันดับใหม่เพื่อป้อนเฉพาะ 5 ชิ้นที่เกี่ยวข้องมากที่สุดในบริบทของ LLM

การค้นหาอีคอมเมิร์ซจัดลำดับผลลัพธ์ผลิตภัณฑ์ใหม่เพื่อให้สินค้าที่ตรงกับวลีค้นหาทั้งหมดของนักช้อปมากที่สุดจะปรากฏเป็นอันดับแรก

Cohere Rerank หรือ BGE-reranker ช่วยเพิ่มความแม่นยำในการค้นหาเอกสารระดับองค์กรผ่าน PDF นโยบายนับพันรายการ

ฐานความรู้ของฝ่ายสนับสนุนลูกค้าจะจัดอันดับบทความช่วยเหลือที่ดึงมาใหม่ เพื่อให้ตัวแทนแสดงคำตอบที่เกี่ยวข้องมากที่สุดเพียงคำตอบเดียวที่ด้านบน

รูปแบบการดำเนินงาน

การจัดอันดับโมเดลใหม่ในทางปฏิบัติ

แชทบอท RAG ดึงข้อมูล 50 ชิ้นโดยการฝังการค้นหา จากนั้นจัดอันดับใหม่เพื่อป้อนเฉพาะ 5 ชิ้นที่เกี่ยวข้องมากที่สุดในบริบทของ LLM

แชทบอต RAG ดึงข้อมูล 50 ชิ้นโดยการฝังการค้นหา จากนั้นจัดอันดับใหม่เพื่อป้อนเฉพาะ 5 ชิ้นที่เกี่ยวข้องมากที่สุดในบริบทของ LLM ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การจัดอันดับโมเดลใหม่ในทางปฏิบัติ

การค้นหาอีคอมเมิร์ซจัดลำดับผลลัพธ์ผลิตภัณฑ์ใหม่เพื่อให้สินค้าที่ตรงกับวลีค้นหาทั้งหมดของนักช้อปมากที่สุดจะปรากฏเป็นอันดับแรก

การค้นหาอีคอมเมิร์ซจัดลำดับผลลัพธ์ผลิตภัณฑ์ใหม่ เพื่อให้รายการที่ตรงกับวลีค้นหาแบบเต็มของนักช้อปมากที่สุดปรากฏขึ้นก่อน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การจัดอันดับโมเดลใหม่ในทางปฏิบัติ

Cohere Rerank หรือ BGE-reranker ช่วยเพิ่มความแม่นยำในการค้นหาเอกสารระดับองค์กรผ่าน PDF นโยบายนับพันรายการ

Cohere Rerank หรือ BGE-reranker ช่วยเพิ่มความแม่นยำในการค้นหาเอกสารขององค์กรผ่าน PDF นโยบายนับพัน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การจัดอันดับโมเดลใหม่ในทางปฏิบัติ

ฐานความรู้ของฝ่ายสนับสนุนลูกค้าจะจัดอันดับบทความช่วยเหลือที่ดึงมาใหม่ เพื่อให้ตัวแทนแสดงคำตอบที่เกี่ยวข้องมากที่สุดเพียงคำตอบเดียวที่ด้านบน

ฐานความรู้ของฝ่ายสนับสนุนลูกค้าที่จัดลำดับบทความช่วยเหลือที่ดึงมาใหม่ เพื่อให้ตัวแทนแสดงคำตอบที่เกี่ยวข้องมากที่สุดที่ด้านบนสุด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป