คู่มือ AI ภาษา

การถอดรหัสความสม่ำเสมอในตนเอง

ความสม่ำเสมอในตนเองเป็นกลยุทธ์การถอดรหัสที่สุ่มตัวอย่างเส้นทางการให้เหตุผลที่แตกต่างกันมากมายจากแบบจำลองภาษา แล้วเลือกคำตอบที่ส่วนใหญ่เห็นด้วย

ภาพรวม

ความสม่ำเสมอในตนเองเป็นกลยุทธ์การถอดรหัสที่สุ่มตัวอย่างเส้นทางการให้เหตุผลที่แตกต่างกันมากมายจากแบบจำลองภาษา แล้วเลือกคำตอบที่ส่วนใหญ่เห็นด้วย สิ่งสำคัญคือเพราะคำตอบที่โลภเพียงคำตอบเดียวอาจผิดได้ ในขณะที่ความเห็นพ้องต้องกันของความพยายามที่หลากหลายมักจะถูกต้องมากกว่ามาก

การถอดรหัสความสอดคล้องในตัวเองเป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด

เจาะลึก

เปิดตัวโดยนักวิจัย Google ในปี 2022 ความสม่ำเสมอในตนเองมาแทนที่การถอดรหัสแบบ 'โลภ' ตามปกติ โดยที่แบบจำลองจะยอมรับโทเค็นถัดไปที่น่าจะเป็นไปได้มากที่สุดในแต่ละขั้นตอน ด้วยแนวทางการสุ่มตัวอย่างและการโหวต แนวคิดนี้สร้างขึ้นจากการกระตุ้นแบบลูกโซ่แห่งความคิด: แบบจำลองจะถูกขอให้ให้เหตุผลทีละขั้นตอน แต่แทนที่จะสร้างห่วงโซ่เดียว โมเดลจะสุ่มตัวอย่างโซ่ที่หลากหลายจำนวนมากโดยใช้อุณหภูมิที่ไม่ใช่ศูนย์ แต่ละห่วงโซ่อาจใช้เส้นทางที่แตกต่างกัน แต่การให้เหตุผลที่ถูกต้องมีแนวโน้มที่จะมาบรรจบกันในคำตอบสุดท้ายเดียวกัน ในขณะที่ข้อผิดพลาดกระจัดกระจายไปในทิศทางที่ต่างกัน จากนั้นระบบจะใช้เสียงข้างมากเหนือคำตอบสุดท้าย การเปลี่ยนแปลงง่ายๆ นี้ทำให้ได้ประโยชน์อย่างมากจากเกณฑ์มาตรฐานทางคณิตศาสตร์และการใช้เหตุผลทั่วไป เช่น GSM8K ซึ่งมักจะเพิ่มการปรับปรุงความแม่นยำเป็นเลขสองหลักโดยไม่ต้องมีการฝึกอบรมใหม่

ข้อมูลเชิงลึกทางเทคนิค

วิธีการนี้ใช้ประโยชน์จากสัญชาตญาณว่ามีวิธีที่ถูกต้องหลายวิธีในการหาคำตอบที่ถูกต้อง แต่วิธีที่จะผิดนับไม่ถ้วน โดยการสุ่มตัวอย่างโซ่ 40 เส้นที่มีอุณหภูมิสูงกว่าศูนย์ แบบจำลองจะให้เหตุผลที่หลากหลาย เฉพาะคำตอบสุดท้ายเท่านั้นที่จะถูกรวบรวมโดยการลงคะแนนเสียงข้างมากแบบชายขอบ ข้อความการให้เหตุผลจะถูกละทิ้ง โดยทั่วไปความแม่นยำจะเพิ่มขึ้นเมื่อมีตัวอย่างมากขึ้นแต่ด้วยผลตอบแทนที่น้อยลง ต้องใช้การคำนวณการอนุมานเพิ่มเติมเพื่อความน่าเชื่อถือ ไม่จำเป็นต้องมีข้อมูลที่มีป้ายกำกับหรือการปรับแต่งอย่างละเอียด

การเรียนรู้การถอดรหัสความสม่ำเสมอในตนเอง

ความสม่ำเสมอในตนเองเป็นกลยุทธ์การถอดรหัสที่สุ่มตัวอย่างเส้นทางการให้เหตุผลที่แตกต่างกันมากมายจากแบบจำลองภาษา แล้วเลือกคำตอบที่ส่วนใหญ่เห็นด้วย สิ่งสำคัญคือเพราะคำตอบที่โลภเพียงคำตอบเดียวอาจผิดได้ ในขณะที่ความเห็นพ้องต้องกันของความพยายามที่หลากหลายมักจะถูกต้องมากกว่ามาก การถอดรหัสความสอดคล้องในตัวเองเป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการถอดรหัสความสอดคล้องในตัวเองเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังคงต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งโดยใช้พรอมต์การออกแบบการถอดรหัสความสอดคล้องในตัวเอง การดึงข้อมูล และการตรวจสอบลูปเป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการถอดรหัสความสม่ำเสมอในตนเอง

ความสม่ำเสมอในตนเองเป็นตัวอย่างพื้นฐานของการปรับขนาดเวลาอนุมาน และตอนนี้รุ่นต่อๆ ไปของโมเดลนี้ขับเคลื่อนโมเดลการให้เหตุผลซึ่งใช้การประมวลผลเพิ่มเติมเพื่อคิดให้หนักขึ้น แนวทางในอนาคต ได้แก่ การถ่วงน้ำหนักคะแนนโดยผู้ตรวจสอบที่เรียนรู้หรือคะแนนความเชื่อมั่น แทนที่จะนับเท่ากัน การเลือกจำนวนตัวอย่างที่จะวาดตามความยากของคำถาม และการรวมการลงคะแนนเข้ากับกรอบการค้นหา เช่น Tree of Thoughts คาดว่าระบบจะยังคงเป็นพื้นฐานราคาถูกและไม่ต้องฝึกอบรมซึ่งระบบต่างๆ สามารถซ้อนกันได้ เมื่อความถูกต้องมีความสำคัญมากกว่าเวลาแฝง

การใช้งานจริงในโลกแห่งความเป็นจริง

เพิ่มความแม่นยำในการแก้ปัญหาคำศัพท์ทางคณิตศาสตร์ในโรงเรียนประถมศึกษา (GSM8K) โดยการสุ่มตัวอย่างเส้นทางการแก้ปัญหาจำนวนมากและการลงคะแนนเสียงในหมายเลขสุดท้าย

การปรับปรุงความน่าเชื่อถือของคำถามทั่วไปหลายขั้นตอนในการตอบคำถาม โดยที่ห่วงโซ่เดียวอาจลื่นไหลในการอนุมานเดียว

เพิ่มความมั่นใจในคำตอบการสร้างโค้ดด้วยการตรวจสอบว่าเอาต์พุตใดปรากฏขึ้นอย่างสม่ำเสมอที่สุดในกลุ่มตัวอย่าง

การเสริมสร้างความเข้มแข็งของงานการให้เหตุผลเชิงสัญลักษณ์หรือเชิงตรรกะ โดยที่การสืบค้นที่หลากหลายควรมาบรรจบกันด้วยข้อสรุปที่ถูกต้องเพียงข้อเดียว

รูปแบบการดำเนินงาน

การถอดรหัสความสม่ำเสมอในตนเองในทางปฏิบัติ

เพิ่มความแม่นยำในการแก้ปัญหาคำศัพท์ทางคณิตศาสตร์ในโรงเรียนประถมศึกษา (GSM8K) โดยการสุ่มตัวอย่างเส้นทางการแก้ปัญหาจำนวนมากและการลงคะแนนเสียงในหมายเลขสุดท้าย

เพิ่มความแม่นยำในการแก้ปัญหาคำศัพท์ทางคณิตศาสตร์ในโรงเรียนประถมศึกษา (GSM8K) โดยการสุ่มตัวอย่างเส้นทางการแก้ปัญหาจำนวนมากและการลงคะแนนในหมายเลขสุดท้าย ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การถอดรหัสความสม่ำเสมอในตนเองในทางปฏิบัติ

การปรับปรุงความน่าเชื่อถือของคำถามทั่วไปหลายขั้นตอนในการตอบคำถาม โดยที่ห่วงโซ่เดียวอาจลื่นไหลในการอนุมานเดียว

การปรับปรุงความน่าเชื่อถือของการตอบคำถามทั่วไปแบบหลายขั้นตอน โดยที่ห่วงโซ่เดียวอาจหลุดลอยไปในการอนุมานเดียว ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การถอดรหัสความสม่ำเสมอในตนเองในทางปฏิบัติ

เพิ่มความมั่นใจในคำตอบการสร้างโค้ดด้วยการตรวจสอบว่าเอาต์พุตใดปรากฏขึ้นอย่างสม่ำเสมอที่สุดในกลุ่มตัวอย่าง

เพิ่มความมั่นใจในคำตอบในการสร้างโค้ดด้วยการตรวจสอบว่าเอาต์พุตใดปรากฏอย่างสม่ำเสมอที่สุดในกลุ่มตัวอย่าง โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การถอดรหัสความสม่ำเสมอในตนเองในทางปฏิบัติ

การเสริมสร้างความเข้มแข็งของงานการให้เหตุผลเชิงสัญลักษณ์หรือเชิงตรรกะ โดยที่การสืบค้นที่หลากหลายควรมาบรรจบกันด้วยข้อสรุปที่ถูกต้องเพียงข้อเดียว

การเสริมความแข็งแกร่งให้กับงานการให้เหตุผลเชิงสัญลักษณ์หรือเชิงตรรกะ โดยที่การสืบค้นที่หลากหลายควรมาบรรจบกันด้วยข้อสรุปที่ถูกต้องเพียงข้อเดียว ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณีขอบ และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ

!

ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน

!

ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ

แผนงานการดำเนินงาน

1

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป