Tổng quan
Điều chỉnh hướng dẫn là bước huấn luyện biến bộ dự đoán văn bản thô thành mô hình thực sự tuân theo các hướng dẫn như 'tóm tắt nội dung này' hoặc 'viết câu trả lời lịch sự'. Đó là điều làm cho một mô hình cơ sở trở nên hữu ích và có thể điều khiển được.
Điều chỉnh lệnh là một phần của ngăn xếp ngôn ngữ-AI được sử dụng để đọc, tạo, phân loại và chuyển đổi văn bản cũng như giọng nói trên quy mô lớn.
Lặn sâu
Mô hình ngôn ngữ cơ sở chỉ được đào tạo để dự đoán mã thông báo tiếp theo trên văn bản web, vì vậy nếu bạn nhập một câu hỏi, nó có thể tiếp tục với nhiều câu hỏi hơn thay vì trả lời. Điều chỉnh hướng dẫn khắc phục điều này. Đây là một hình thức tinh chỉnh có giám sát: mô hình được đào tạo trên nhiều cặp (hướng dẫn, phản hồi lý tưởng) bao gồm hàng nghìn nhiệm vụ - dịch thuật, tóm tắt, phân loại, hỏi đáp, mã hóa, v.v. Bằng cách xem đi xem lại cùng một mẫu hướng dẫn-sau đó-câu trả lời hữu ích, mô hình sẽ tìm hiểu hành vi chung là 'làm những gì người dùng yêu cầu' và điều này khái quát hóa thành các hướng dẫn mà mô hình chưa từng thấy trong quá trình đào tạo. Cách tiếp cận này được thiết lập vào khoảng năm 2021 bởi các công việc như FLAN, T0 và Hướng dẫn tự nhiên và là trọng tâm của InstructGPT của OpenAI, đã tinh chỉnh GPT-3 trên một tập hợp các lời nhắc hướng dẫn được tuyển chọn. Đó là nền tảng mà hầu hết các trợ lý trò chuyện đều được xây dựng trên đó.
Hiểu biết kỹ thuật
Về mặt cơ học, điều chỉnh hướng dẫn là phương pháp học có giám sát tiêu chuẩn: giảm thiểu sự khác biệt giữa mã thông báo dự đoán của mô hình và câu trả lời tham chiếu, với độ dốc cập nhật trọng số. Nó khác với RLHF (học tập tăng cường từ phản hồi của con người), dựa trên và tối ưu hóa sở thích của con người bằng cách sử dụng mô hình phần thưởng. Công thức thông thường được chia thành nhiều lớp: đào tạo trước, sau đó điều chỉnh hướng dẫn (SFT) để dạy làm theo nhiệm vụ, sau đó tùy chọn RLHF để tinh chỉnh giọng điệu, tính hữu ích và sự an toàn. Sự đa dạng của dữ liệu quan trọng hơn khối lượng tuyệt đối - phạm vi nhiệm vụ rộng sẽ thúc đẩy tính khái quát hóa.
Điều chỉnh hướng dẫn thành thạo
Điều chỉnh hướng dẫn là bước huấn luyện biến bộ dự đoán văn bản thô thành mô hình thực sự tuân theo các hướng dẫn như 'tóm tắt nội dung này' hoặc 'viết câu trả lời lịch sự'. Đó là điều làm cho một mô hình cơ sở trở nên hữu ích và có thể điều khiển được. Điều chỉnh lệnh là một phần của ngăn xếp ngôn ngữ-AI được sử dụng để đọc, tạo, phân loại và chuyển đổi văn bản cũng như giọng nói trên quy mô lớn. Để xây dựng sự hiểu biết sâu sắc, hãy coi Điều chỉnh Hướng dẫn như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.
Trong thực tế, các nhóm mạnh sử dụng Hướng dẫn Điều chỉnh các lời nhắc thiết kế, truy xuất và xem lại các vòng lặp như một hệ thống giao tiếp tích hợp. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.
Quy trình công việc ngôn ngữ có thể di chuyển nhanh hơn mà không làm mất tính nhất quán. Đồng thời, các sự kiện ảo giác có thể âm thầm đưa vào các báo cáo, luồng hỗ trợ hoặc kết quả nghiên cứu. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.
Tác động chiến lược
Quy trình công việc ngôn ngữ có thể di chuyển nhanh hơn mà không làm mất tính nhất quán.
Quy trình công việc ngôn ngữ có thể di chuyển nhanh hơn mà không làm mất tính nhất quán. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.
Nó mở rộng quyền truy cập vào các ngôn ngữ và phong cách giao tiếp.
Nó mở rộng quyền truy cập vào các ngôn ngữ và phong cách giao tiếp. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.
Các nhóm có thể dành nhiều thời gian hơn để đánh giá trong khi quá trình tự động hóa xử lý sự lặp lại.
Các nhóm có thể dành nhiều thời gian hơn để đánh giá trong khi quá trình tự động hóa xử lý sự lặp lại. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.
Triển khai trong thế giới thực
Biến mô hình kiểu GPT cơ bản thành trợ lý trò chuyện trả lời các câu hỏi thay vì lặp lại chúng
FLAN-T5, được tinh chỉnh trong nhiều tác vụ để có thể làm theo hướng dẫn mà nó chưa từng được đào tạo rõ ràng
InstructGPT, trong đó GPT-3 được điều chỉnh theo hướng dẫn theo lời nhắc được quản lý để tạo ra phản hồi hữu ích hơn nhiều
Xây dựng trợ lý nội bộ công ty bằng cách tinh chỉnh các cặp hướng dẫn-phản hồi được viết bởi nhóm hỗ trợ và pháp lý
Các mẫu triển khai
Hướng dẫn Điều chỉnh trong thực tế
Biến mô hình kiểu GPT cơ bản thành trợ lý trò chuyện trả lời các câu hỏi thay vì lặp lại chúng.
Biến mô hình kiểu GPT cơ bản thành trợ lý trò chuyện để trả lời các câu hỏi thay vì lặp lại chúng. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.
Hướng dẫn Điều chỉnh trong thực tế
FLAN-T5, được tinh chỉnh trong nhiều tác vụ để có thể làm theo hướng dẫn mà nó chưa từng được đào tạo rõ ràng.
FLAN-T5, được tinh chỉnh trên nhiều nhiệm vụ để có thể tuân theo các hướng dẫn chưa từng được đào tạo rõ ràng. Các Nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.
Hướng dẫn Điều chỉnh trong thực tế
InstructGPT, trong đó GPT-3 được điều chỉnh theo hướng dẫn theo lời nhắc được quản lý để tạo ra phản hồi hữu ích hơn nhiều.
InstructGPT, trong đó GPT-3 được điều chỉnh hướng dẫn theo các lời nhắc được quản lý để tạo ra phản hồi hữu ích hơn nhiều. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp phức tạp và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.
Hướng dẫn Điều chỉnh trong thực tế
Xây dựng trợ lý nội bộ công ty bằng cách tinh chỉnh các cặp hướng dẫn-phản hồi được viết bởi nhóm hỗ trợ và pháp lý.
Xây dựng trợ lý nội bộ công ty bằng cách tinh chỉnh các cặp hướng dẫn-phản hồi do nhóm hỗ trợ và pháp lý viết. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.
Rủi ro & lan can
Sự thật ảo giác có thể lặng lẽ đi vào báo cáo, luồng hỗ trợ hoặc kết quả nghiên cứu.
Sự nhạy cảm kịp thời có thể tạo ra kết quả không nhất quán đối với các yêu cầu tương tự.
Dữ liệu văn bản nhạy cảm có thể bị lộ nếu khả năng kiểm soát quyền truy cập yếu.
Lộ trình thực hiện
Xác định định dạng đầu ra, âm thanh và tiêu chuẩn chất lượng trước khi triển khai.
Xác định định dạng đầu ra, âm thanh và tiêu chuẩn chất lượng trước khi triển khai. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.
Phản hồi mặt đất với các nguồn đáng tin cậy bất cứ khi nào độ chính xác quan trọng.
Phản hồi mặt đất với các nguồn đáng tin cậy bất cứ khi nào độ chính xác quan trọng. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.
Duy trì điểm kiểm tra đánh giá của con người đối với các kết quả đầu ra có mức độ rủi ro cao.
Duy trì điểm kiểm tra đánh giá của con người đối với các kết quả đầu ra có mức độ rủi ro cao. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.
Theo dõi các kiểu lỗi và đào tạo lại các lời nhắc hoặc quy trình làm việc thường xuyên.
Theo dõi các kiểu lỗi và đào tạo lại các lời nhắc hoặc quy trình làm việc thường xuyên. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.