HƯỚNG DẪN AI về ngôn ngữ

Truy xuất lối đi dày đặc

Truy xuất đoạn văn dày đặc (DPR) tìm thấy văn bản có liên quan bằng cách so sánh ý nghĩa của câu hỏi và đoạn văn dưới dạng vectơ số, không khớp với các từ.

Tổng quan

Truy xuất đoạn văn dày đặc (DPR) tìm thấy văn bản có liên quan bằng cách so sánh ý nghĩa của câu hỏi và đoạn văn dưới dạng vectơ số, không khớp với các từ. Điều này quan trọng vì nó có thể truy xuất câu trả lời đúng ngay cả khi truy vấn và tài liệu không có từ vựng nào.

Truy xuất đoạn văn dày đặc là một phần của ngăn xếp ngôn ngữ-AI được sử dụng để đọc, tạo, phân loại và chuyển đổi văn bản và giọng nói trên quy mô lớn.

Lặn sâu

DPR, được Facebook AI giới thiệu vào năm 2020, sử dụng hai bộ mã hóa BERT riêng biệt: một bộ mã hóa câu hỏi và một bộ mã hóa đoạn văn. Mỗi biến văn bản thành một vectơ dày đặc có độ dài cố định (thường là 768 chiều). Mức độ liên quan là tích số chấm giữa vectơ câu hỏi và vectơ đoạn văn, do đó việc truy xuất trở thành tìm kiếm lân cận gần nhất nhanh chóng trên các phần nhúng đoạn văn được tính toán trước. Mô hình được đào tạo với mục tiêu tương phản: kéo vectơ của đoạn văn bên phải đến gần câu hỏi và đẩy vectơ sai ra xa, sử dụng các âm bản theo đợt cộng với các âm bản cứng được khai thác từ BM25. Trên các điểm chuẩn QA trong miền mở như Câu hỏi tự nhiên, DPR đã đánh bại BM25 chiếm ưu thế từ lâu với tỷ suất lợi nhuận lớn, cho thấy rằng kết hợp ngữ nghĩa đã học có thể vượt trội hơn so với tìm kiếm từ khóa để trả lời câu hỏi.

Hiểu biết kỹ thuật

DPR là một bộ mã hóa hai chiều: nó mã hóa truy vấn và từng đoạn văn một cách độc lập, do đó tất cả các vectơ đoạn văn được tính toán một lần và được lưu trữ trong một chỉ mục vectơ (ví dụ: FAISS). Tại thời điểm truy vấn, bạn chỉ mã hóa câu hỏi, sau đó chạy tìm kiếm lân cận gần nhất. Quá trình đào tạo dựa trên các đoạn âm bản theo lô - các đoạn khác trong cùng một đoạn nhỏ đóng vai trò là các ví dụ âm bản gần như miễn phí, điều này cho phép một cặp dương tính tạo ra nhiều so sánh tương phản một cách hiệu quả.

Làm chủ việc truy xuất lối đi dày đặc

Truy xuất đoạn văn dày đặc (DPR) tìm thấy văn bản có liên quan bằng cách so sánh ý nghĩa của câu hỏi và đoạn văn dưới dạng vectơ số, không khớp với các từ. Điều này quan trọng vì nó có thể truy xuất câu trả lời đúng ngay cả khi truy vấn và tài liệu không có từ vựng nào. Truy xuất đoạn văn dày đặc là một phần của ngăn xếp ngôn ngữ-AI được sử dụng để đọc, tạo, phân loại và chuyển đổi văn bản và giọng nói trên quy mô lớn. Để xây dựng sự hiểu biết sâu sắc, hãy coi Truy xuất đường đi dày đặc như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng các lời nhắc, truy xuất và vòng lặp xem xét Truy xuất đường đi dày đặc như một hệ thống liên lạc tích hợp. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Quy trình công việc ngôn ngữ có thể di chuyển nhanh hơn mà không làm mất tính nhất quán. Đồng thời, các sự kiện ảo giác có thể âm thầm đưa vào các báo cáo, luồng hỗ trợ hoặc kết quả nghiên cứu. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Quy trình công việc ngôn ngữ có thể di chuyển nhanh hơn mà không làm mất tính nhất quán.

Quy trình công việc ngôn ngữ có thể di chuyển nhanh hơn mà không làm mất tính nhất quán. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Nó mở rộng quyền truy cập vào các ngôn ngữ và phong cách giao tiếp.

Nó mở rộng quyền truy cập vào các ngôn ngữ và phong cách giao tiếp. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm có thể dành nhiều thời gian hơn để đánh giá trong khi quá trình tự động hóa xử lý sự lặp lại.

Các nhóm có thể dành nhiều thời gian hơn để đánh giá trong khi quá trình tự động hóa xử lý sự lặp lại. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của việc thu hồi lối đi dày đặc

Truy xuất dày đặc hiện là nền tảng cho hầu hết các quy trình tạo thế hệ truy xuất tăng cường cung cấp cho các mô hình ngôn ngữ lớn. Nghiên cứu đang hướng tới các hệ thống kết hợp kết hợp các điểm số từ vựng và dày đặc, các mô hình tương tác muộn như ColBERT giữ các vectơ trên mỗi mã thông báo để khớp tốt hơn và các phần nhúng được điều chỉnh theo hướng dẫn để thích ứng với nhiều tác vụ. Mong đợi các bộ mã hóa ngữ cảnh dài hơn, đa ngôn ngữ và rẻ hơn, cộng với việc đào tạo những người truy tìm chặt chẽ hơn với các trình tạo mà chúng phục vụ.

Triển khai trong thế giới thực

Các hệ thống trả lời câu hỏi trong miền mở hỗ trợ các đoạn Wikipedia trước khi LLM viết câu trả lời

Tìm kiếm tài liệu doanh nghiệp nơi nhân viên đặt câu hỏi tự nhiên và nhận các đoạn văn có liên quan ngay cả khi không có từ khóa chính xác

Các bot hỗ trợ khách hàng truy xuất bài viết phù hợp trong trung tâm trợ giúp từ một khiếu nại được diễn giải

Các chatbot được tăng cường khả năng truy xuất sẽ tạo nền tảng cho các phản hồi trong cơ sở kiến thức riêng tư để giảm ảo giác

Các mẫu triển khai

Thu hồi đoạn đường dày đặc trong thực tế

Các hệ thống trả lời câu hỏi trong miền mở hỗ trợ các đoạn Wikipedia trước khi LLM viết câu trả lời.

Các hệ thống trả lời câu hỏi trong miền mở hỗ trợ các đoạn Wikipedia trước khi LLM viết câu trả lời. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Thu hồi đoạn đường dày đặc trong thực tế

Tìm kiếm tài liệu doanh nghiệp nơi nhân viên đặt câu hỏi tự nhiên và nhận các đoạn văn có liên quan ngay cả khi không có từ khóa chính xác.

Tìm kiếm tài liệu doanh nghiệp nơi nhân viên đặt câu hỏi tự nhiên và nhận được các đoạn có liên quan ngay cả khi không có từ khóa chính xác. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Thu hồi đoạn đường dày đặc trong thực tế

Các bot hỗ trợ khách hàng truy xuất bài viết phù hợp trong trung tâm trợ giúp từ một khiếu nại được diễn giải.

Các bot hỗ trợ khách hàng truy xuất bài viết phù hợp trong trung tâm trợ giúp từ một khiếu nại được diễn giải. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Thu hồi đoạn đường dày đặc trong thực tế

Các chatbot được tăng cường khả năng truy xuất đưa ra các phản hồi nền tảng trong cơ sở kiến thức riêng tư để giảm ảo giác.

Các chatbot được tăng cường khả năng truy xuất sẽ tạo nền tảng cho các phản hồi trong cơ sở kiến ​​thức riêng tư để giảm ảo giác. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Rủi ro & lan can

!

Sự thật ảo giác có thể lặng lẽ đi vào báo cáo, luồng hỗ trợ hoặc kết quả nghiên cứu.

!

Sự nhạy cảm kịp thời có thể tạo ra kết quả không nhất quán đối với các yêu cầu tương tự.

!

Dữ liệu văn bản nhạy cảm có thể bị lộ nếu khả năng kiểm soát quyền truy cập yếu.

Lộ trình thực hiện

1

Xác định định dạng đầu ra, âm thanh và tiêu chuẩn chất lượng trước khi triển khai.

Xác định định dạng đầu ra, âm thanh và tiêu chuẩn chất lượng trước khi triển khai. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Phản hồi mặt đất với các nguồn đáng tin cậy bất cứ khi nào độ chính xác quan trọng.

Phản hồi mặt đất với các nguồn đáng tin cậy bất cứ khi nào độ chính xác quan trọng. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Duy trì điểm kiểm tra đánh giá của con người đối với các kết quả đầu ra có mức độ rủi ro cao.

Duy trì điểm kiểm tra đánh giá của con người đối với các kết quả đầu ra có mức độ rủi ro cao. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Theo dõi các kiểu lỗi và đào tạo lại các lời nhắc hoặc quy trình làm việc thường xuyên.

Theo dõi các kiểu lỗi và đào tạo lại các lời nhắc hoặc quy trình làm việc thường xuyên. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá