คู่มือ AI ภาษา

โมเดลร่างการถอดรหัสเก็งกำไร

การถอดรหัสแบบเก็งกำไรใช้โมเดล 'แบบร่าง' ขนาดเล็กและรวดเร็วเพื่อคาดเดาโทเค็นที่กำลังจะมาถึงหลายตัวซึ่งโมเดลขนาดใหญ่จะตรวจสอบในการส่งผ่านครั้งเดียว

ภาพรวม

โมเดลร่างการถอดรหัสแบบเก็งกำไรเป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด

เจาะลึก

โมเดลภาษาขนาดใหญ่จะสร้างข้อความทีละโทเค็น และแต่ละขั้นตอนจำเป็นต้องมีการส่งต่อแบบเต็มผ่านพารามิเตอร์นับพันล้านรายการ ซึ่งช้าและผูกกับหน่วยความจำ การถอดรหัสแบบเก็งกำไรโจมตีสิ่งนี้โดยการจับคู่โมเดล 'เป้าหมาย' ขนาดใหญ่กับโมเดล 'ร่าง' ราคาถูก โมเดลแบบร่างเสนอโทเค็นผู้สมัครจำนวน 4-8 ชิ้นอย่างรวดเร็ว จากนั้นโมเดลขนาดใหญ่จะประมวลผลทั้งหมดในการส่งต่อแบบขนานเดียว และตรวจสอบแต่ละรายการ โทเค็นที่ตรงกับสิ่งที่โมเดลใหญ่จะผลิตนั้นได้รับการยอมรับ ความไม่ตรงกันครั้งแรกได้รับการแก้ไขและส่วนที่เหลือจะถูกละทิ้ง เนื่องจากการตรวจสอบโทเค็นหลายรายการพร้อมกันมีค่าใช้จ่ายประมาณเดียวกับการสร้างโทเค็น การเรียกใช้ที่ยอมรับจึงเกือบจะฟรี ขั้นตอนการสุ่มตัวอย่างการปฏิเสธช่วยรับประกันว่าการแจกแจงขั้นสุดท้ายจะเหมือนกันกับการรันโมเดลใหญ่เพียงอย่างเดียว นั่นคือความเร็วโดยไม่สูญเสียคุณภาพ

ข้อมูลเชิงลึกทางเทคนิค

เคล็ดลับสำคัญคือการทดสอบการสุ่มตัวอย่างแบบปฏิเสธที่มีการปรับเปลี่ยน สำหรับโทเค็นแบบร่างแต่ละรายการ ความน่าจะเป็นของโมเดลเป้าหมายจะถูกเปรียบเทียบกับโมเดลแบบร่าง หากเป้าหมายกำหนดความน่าจะเป็นที่เท่ากันหรือสูงกว่า โทเค็นจะได้รับการยอมรับ มิฉะนั้นจะยอมรับด้วยความน่าจะเป็นเท่ากับอัตราส่วน และเมื่อถูกปฏิเสธ โทเค็นที่แก้ไขแล้วจะถูกสุ่มตัวอย่างจากการกระจายส่วนที่เหลือที่ปรับแล้ว คณิตศาสตร์นี้ทำให้ผลลัพธ์เทียบเท่ากับการสุ่มตัวอย่างโดยตรงจากแบบจำลองขนาดใหญ่

การเรียนรู้แบบจำลองร่างการถอดรหัสเก็งกำไร

การถอดรหัสแบบเก็งกำไรใช้โมเดล 'แบบร่าง' ขนาดเล็กและรวดเร็วเพื่อคาดเดาโทเค็นที่กำลังจะมาถึงหลายตัวซึ่งโมเดลขนาดใหญ่จะตรวจสอบในการส่งผ่านครั้งเดียว มันเพิ่มความเร็วในการสร้างข้อความ 2-3x โดยไม่มีการเปลี่ยนแปลงผลลัพธ์ โมเดลร่างการถอดรหัสแบบเก็งกำไรเป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจเชิงลึก ให้ถือว่าแบบจำลองการถอดรหัสแบบเก็งกำไรเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังคงต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่เข้มแข็งโดยใช้แบบจำลองร่างการถอดรหัสแบบเก็งกำไรจะออกแบบพร้อมท์ การดึงข้อมูล และการตรวจสอบลูปให้เป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของแบบจำลองร่างการถอดรหัสเก็งกำไร

คาดว่าโมเดลแบบร่างจะกลายเป็นโครงสร้างพื้นฐานมาตรฐานในเซิร์ฟเวอร์อนุมาน เช่น vLLM และ TensorRT-LLM รูปแบบการคาดเดาในตัวเอง (Medusa, EAGLE) ทิ้งแบบจำลองแบบร่างที่แยกจากกันโดยสิ้นเชิงโดยการเพิ่มส่วนหัวการทำนายแบบน้ำหนักเบา และการร่างแบบต้นไม้จะตรวจสอบความต่อเนื่องของผู้สมัครจำนวนมากในคราวเดียว เมื่อหน้าต่างบริบทเติบโตขึ้นและต้นทุนการให้บริการครอบงำ ผู้ร่างที่จับคู่โมเดลและการตรวจสอบฮาร์ดแวร์ที่ชาญฉลาดยิ่งขึ้นจะผลักดันอัตราการยอมรับและปริมาณงานให้สูงขึ้น

การใช้งานจริงในโลกแห่งความเป็นจริง

Anthropic, OpenAI และ Google ใช้การถอดรหัสแบบคาดเดาเพื่อลดเวลาในการตอบสนองและค่าใช้จ่ายในการให้บริการผู้ช่วยแชทที่ให้บริการผู้ใช้หลายล้านคน

vLLM และ NVIDIA TensorRT-LLM มาพร้อมการถอดรหัสแบบเก็งกำไรในตัว ดังนั้นผู้โฮสต์ด้วยตนเองจึงสามารถเร่งการปรับใช้ Llama หรือ Mistral ได้

การจับคู่โมเดลร่าง 7B กับเป้าหมาย 70B (เช่น ตระกูล Llama-3) เพื่อเพิ่มโทเค็นต่อวินาทีประมาณสองเท่าบน GPU ตัวเดียว

เครื่องมือเติมโค้ดให้สมบูรณ์ใช้โมเดลแบบร่างขนาดเล็กเพื่อเสนอต้นแบบที่โมเดลขนาดใหญ่ตรวจสอบ และทำให้ข้อเสนอแนะรวดเร็วในตัวแก้ไข

รูปแบบการดำเนินงาน

แบบจำลองการถอดรหัสแบบเก็งกำไรในทางปฏิบัติ

Anthropic, OpenAI และ Google ใช้การถอดรหัสแบบเก็งกำไรเพื่อลดเวลาแฝงและค่าใช้จ่ายในการให้บริการผู้ช่วยแชทที่ให้บริการผู้ใช้หลายล้านคน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แบบจำลองการถอดรหัสแบบเก็งกำไรในทางปฏิบัติ

vLLM และ NVIDIA TensorRT-LLM จัดส่งการถอดรหัสแบบเก็งกำไรในตัว เพื่อให้โฮสต์ด้วยตนเองสามารถเร่งการปรับใช้ Llama หรือ Mistral ได้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แบบจำลองการถอดรหัสแบบเก็งกำไรในทางปฏิบัติ

การจับคู่โมเดลแบบร่าง 7B กับเป้าหมาย 70B (เช่น ตระกูล Llama-3) กับโทเค็นต่อวินาทีประมาณสองเท่าบน GPU เดียว ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แบบจำลองการถอดรหัสแบบเก็งกำไรในทางปฏิบัติ

เครื่องมือเติมโค้ดให้สมบูรณ์ใช้โมเดลร่างเล็กๆ เพื่อเสนอต้นแบบที่โมเดลใหญ่กว่าตรวจสอบ การรักษาคำแนะนำอย่างรวดเร็วในตัวแก้ไข ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ

ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน

ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ

แผนงานการดำเนินงาน

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

ChatGPT และ LLM

ดูว่าโมเดลภาษาสมัยใหม่สร้างและเหตุผลอย่างไร

อ่านคู่มือ

พื้นฐาน NLP

เรียนรู้พื้นฐานการประมวลผลภาษาที่อยู่เบื้องหลังเครื่องมือเหล่านี้

อ่านคู่มือ