คู่มือ AI ภาษา

การปรับแต่งคำสั่ง

การปรับแต่งคำสั่งเป็นขั้นตอนการฝึกอบรมที่จะเปลี่ยนตัวทำนายข้อความดิบให้เป็นแบบจำลองที่ปฏิบัติตามคำแนะนำจริงๆ เช่น 'สรุปสิ่งนี้' หรือ 'เขียนคำตอบแบบสุภาพ'

ภาพรวม

การปรับแต่งคำสั่งเป็นขั้นตอนการฝึกอบรมที่เปลี่ยนตัวทำนายข้อความดิบให้เป็นแบบจำลองที่ปฏิบัติตามคำแนะนำจริงๆ เช่น 'สรุปสิ่งนี้' หรือ 'เขียนการตอบกลับอย่างสุภาพ' มันคือสิ่งที่ทำให้โมเดลพื้นฐานรู้สึกว่ามีประโยชน์และบังคับทิศทางได้

การปรับแต่งคำสั่งเป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด

เจาะลึก

โมเดลภาษาพื้นฐานได้รับการฝึกฝนเพื่อทำนายโทเค็นถัดไปบนข้อความเว็บเท่านั้น ดังนั้น หากคุณพิมพ์คำถาม ก็อาจจะถามคำถามต่อไปเรื่อยๆ แทนที่จะตอบ การปรับแต่งคำสั่งช่วยแก้ไขปัญหานี้ มันเป็นรูปแบบหนึ่งของการปรับแต่งแบบละเอียดภายใต้การดูแล: แบบจำลองนี้ได้รับการฝึกฝนในคู่ต่างๆ มากมาย (คำสั่ง การตอบสนองในอุดมคติ) ครอบคลุมงานหลายพันรายการ เช่น การแปล การสรุป การจำแนกประเภท การถามตอบ การเขียนโค้ด และอื่นๆ โมเดลจะเรียนรู้พฤติกรรมทั่วไปของ 'ทำในสิ่งที่ผู้ใช้ถาม' และนี่เป็นการสรุปคำแนะนำทั่วไปที่ไม่เคยเห็นในการฝึกอบรม ด้วยการดูรูปแบบคำแนะนำเดียวกันแล้วคำตอบที่เป็นประโยชน์ซ้ำๆ แนวทางนี้ก่อตั้งขึ้นราวปี 2021 โดยงานอย่าง FLAN, T0 และ Natural Instructions และเป็นศูนย์กลางของ InstructGPT ของ OpenAI ซึ่งปรับแต่ง GPT-3 อย่างละเอียดในชุดคำสั่งคำสั่งที่ได้รับการดูแลจัดการ เป็นรากฐานที่ผู้ช่วยแชทส่วนใหญ่สร้างขึ้น

ข้อมูลเชิงลึกทางเทคนิค

ในทางกลไก การปรับคำสั่งเป็นการเรียนรู้แบบมีผู้สอนมาตรฐาน: ลดความแตกต่างระหว่างโทเค็นที่คาดการณ์ของโมเดลและคำตอบอ้างอิง โดยจะมีการไล่ระดับสีที่อัปเดตน้ำหนัก มันแตกต่างจาก RLHF (การเรียนรู้การเสริมกำลังจากผลตอบรับของมนุษย์) ซึ่งมาทีหลังและปรับให้เหมาะสมตามความต้องการของมนุษย์โดยใช้แบบจำลองการให้รางวัล สูตรปกติจะแบ่งออกเป็นหลายชั้น: ฝึกล่วงหน้า จากนั้น ปรับแต่งคำสั่ง (SFT) เพื่อสอนการทำตามงาน จากนั้นเลือก RLHF เพื่อปรับแต่งโทนเสียง ความช่วยเหลือ และความปลอดภัย ความหลากหลายของข้อมูลมีความสำคัญมากกว่าปริมาณที่แท้จริง — ความครอบคลุมของงานในวงกว้างขับเคลื่อนภาพรวม

การปรับแต่งคำสั่งการเรียนรู้

การปรับแต่งคำสั่งเป็นขั้นตอนการฝึกอบรมที่เปลี่ยนตัวทำนายข้อความดิบให้เป็นแบบจำลองที่ปฏิบัติตามคำแนะนำจริงๆ เช่น 'สรุปสิ่งนี้' หรือ 'เขียนการตอบกลับอย่างสุภาพ' มันคือสิ่งที่ทำให้โมเดลพื้นฐานรู้สึกว่ามีประโยชน์และบังคับทิศทางได้ การปรับแต่งคำสั่งเป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Instruction Tuning เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งใช้พรอมต์การออกแบบ Instruction Tuning การดึงข้อมูล และการตรวจสอบลูปเป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการปรับแต่งคำสั่ง

วงการนี้กำลังเปลี่ยนจากชุดข้อมูลที่เขียนด้วยลายมือขนาดยักษ์ไปสู่ข้อมูลสังเคราะห์คุณภาพสูงขึ้นบางส่วน ซึ่งบางครั้งก็เป็นเพียงตัวอย่างที่เลือกสรรมาอย่างพิถีพิถันเพียงไม่กี่พันตัวอย่าง หลังจากพบว่าคุณภาพของข้อมูลสามารถเอาชนะปริมาณได้ คาดว่าจะมีการปรับแต่งคำสั่งเฉพาะโดเมนมากขึ้น (ทางการแพทย์ กฎหมาย การเขียนโค้ด) ชุดคำสั่งหลายภาษาและหลายรูปแบบ และไปป์ไลน์อัตโนมัติที่สร้างและกรองข้อมูลคำสั่ง การปรับแต่งคำสั่งจะยังคงเป็นสะพานเชื่อมที่สำคัญระหว่างโมเดลที่ได้รับการฝึกล่วงหน้าแบบ Raw และผู้ช่วยเหลือที่ใช้งานได้ โดยผสมผสานมากขึ้นเรื่อยๆ กับการเพิ่มประสิทธิภาพการตั้งค่าเพื่อการจัดตำแหน่ง

การใช้งานจริงในโลกแห่งความเป็นจริง

เปลี่ยนโมเดลสไตล์ GPT พื้นฐานให้เป็นผู้ช่วยแชทที่ตอบคำถามแทนที่จะสะท้อนคำถามเหล่านั้น

FLAN-T5 ได้รับการปรับแต่งอย่างละเอียดในหลาย ๆ งาน เพื่อให้สามารถทำตามคำแนะนำที่ไม่เคยได้รับการฝึกฝนอย่างชัดเจน

InstructGPT โดยที่ GPT-3 ได้รับการปรับแต่งคำสั่งตามข้อความแจ้งที่ได้รับการดูแลจัดการเพื่อสร้างคำตอบที่เป็นประโยชน์มากขึ้น

การสร้างผู้ช่วยภายในบริษัทโดยการปรับแต่งคู่การตอบรับคำสั่งที่เขียนโดยทีมสนับสนุนและทีมกฎหมาย

รูปแบบการดำเนินงาน

การปรับแต่งคำสั่งในทางปฏิบัติ

เปลี่ยนโมเดลสไตล์ GPT พื้นฐานให้เป็นผู้ช่วยแชทที่ตอบคำถามแทนที่จะสะท้อนคำถามเหล่านั้น

การเปลี่ยนโมเดลสไตล์ GPT พื้นฐานให้เป็นผู้ช่วยแชทที่ตอบคำถามแทนที่จะสะท้อนกลับ ทีมมักจะได้ผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การปรับแต่งคำสั่งในทางปฏิบัติ

FLAN-T5 ได้รับการปรับแต่งอย่างละเอียดในหลาย ๆ งาน เพื่อให้สามารถทำตามคำแนะนำที่ไม่เคยได้รับการฝึกฝนอย่างชัดเจน

FLAN-T5 ได้รับการปรับแต่งอย่างละเอียดในหลาย ๆ งาน เพื่อให้สามารถปฏิบัติตามคำแนะนำที่ไม่เคยได้รับการฝึกฝนอย่างชัดเจนกับ Teams มักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การปรับแต่งคำสั่งในทางปฏิบัติ

InstructGPT โดยที่ GPT-3 ได้รับการปรับแต่งคำสั่งตามข้อความแจ้งที่ได้รับการดูแลจัดการเพื่อสร้างคำตอบที่เป็นประโยชน์มากขึ้น

InstructGPT โดยที่ GPT-3 ได้รับการปรับแต่งคำสั่งบนข้อความแจ้งเตือนที่คัดสรรมาเพื่อสร้างคำตอบที่เป็นประโยชน์มากขึ้น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การปรับแต่งคำสั่งในทางปฏิบัติ

การสร้างผู้ช่วยภายในบริษัทโดยการปรับแต่งคู่การตอบรับคำสั่งที่เขียนโดยทีมสนับสนุนและทีมกฎหมาย

การสร้างผู้ช่วยภายในบริษัทโดยการปรับแต่งคู่การตอบสนองต่อคำสั่งและการตอบสนองที่เขียนโดยฝ่ายสนับสนุนและทีมกฎหมาย ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ

!

ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน

!

ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ

แผนงานการดำเนินงาน

1

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป