คู่มือ AI ภาษา

การถอดรหัสแบบขนานโครงกระดูกของความคิด

Skeleton-of-Thought (SoT) เป็นเทคนิคการกระตุ้นและถอดรหัสที่ขอให้โมเดลภาษาร่างโครงร่างจุดคำตอบสั้นๆ จากนั้นจึงขยายแต่ละจุดแบบขนาน

ภาพรวม

Skeleton-of-Thought Parallel Decoding เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด

เจาะลึก

โดยทั่วไปโมเดลภาษาขนาดใหญ่จะสร้างโทเค็นครั้งละหนึ่งโทเค็น ดังนั้นคำตอบที่ยาวจึงช้าเพียงเพราะแต่ละคำจะรอคำที่อยู่ข้างหน้า Skeleton-of-Thought เปิดตัวโดยนักวิจัยที่ Tsinghua และ Microsoft ในปี 2023 ได้ปรับโครงสร้างงานใหม่ การโทรครั้งแรกจะถามนางแบบเกี่ยวกับโครงกระดูกสั้นๆ ซึ่งเป็นรายการที่มีหมายเลขกำกับหัวข้อ 3 ถึง 10 จุด โดยแต่ละรายการเป็นเพียงคำไม่กี่คำ การเรียกชุดที่สองจะขยายทุกจุดอย่างอิสระและพร้อมกัน เนื่องจากแต่ละจุดไม่ได้ขึ้นอยู่กับอีกจุดหนึ่ง การขยายจะถูกต่อกลับเข้าด้วยกันเป็นคำตอบสุดท้าย เนื่องจากขั้นตอนการขยายที่ช้าทำงานไปพร้อมๆ กัน เวลาแฝงทั้งหมดจึงลดลงอย่างรวดเร็วสำหรับคำถามที่คำตอบถูกแยกย่อยออกเป็นส่วนๆ อย่างเป็นธรรมชาติ เช่น การแสดงรายการเคล็ดลับหรือตัวเลือกการเปรียบเทียบ

ข้อมูลเชิงลึกทางเทคนิค

SoT หาประโยชน์จากการอนุมานของตัวถอดรหัสนั้นขึ้นอยู่กับเวลาแฝง และไม่ได้ผูกกับการคำนวณเสมอไป: คำขอเดียวมักจะทำให้ GPU ใช้งานน้อยเกินไป การขยายจุดที่ทำงานเป็นชุดจะทำให้ฮาร์ดแวร์ไม่ว่างและทับซ้อนกับการสร้างจุดต่อจุด ด้วยโมเดล API การขยายจะออกตามคำขอพร้อมกัน สำหรับรุ่นท้องถิ่น พวกเขาแชร์การส่งต่อแบบกลุ่มหนึ่งชุด ขั้นตอนโครงกระดูกเพิ่มค่าใช้จ่ายระยะสั้นคงที่ ดังนั้นการเร่งความเร็วสุทธิจึงเพิ่มขึ้นตามความยาวของคำตอบและจำนวนคะแนนที่เป็นอิสระ

การเรียนรู้การถอดรหัสแบบขนานโครงกระดูกของความคิด

Skeleton-of-Thought (SoT) เป็นเทคนิคการกระตุ้นและถอดรหัสที่ขอให้โมเดลภาษาร่างโครงร่างจุดคำตอบสั้นๆ จากนั้นจึงขยายแต่ละจุดแบบขนาน สิ่งสำคัญคือสามารถลดเวลาแฝงของนาฬิกาแขวนของคำตอบยาวๆ ได้ประมาณ 2 เท่าโดยไม่ต้องฝึกโมเดลใหม่ Skeleton-of-Thought Parallel Decoding เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการถอดรหัสแบบขนานของโครงกระดูกแห่งความคิดเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การออกแบบการถอดรหัสแบบ Skeleton-of-Thought Parallel Decoding จะแจ้งเตือน การดึงข้อมูล และการตรวจสอบลูปเป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการถอดรหัสแบบขนานของโครงกระดูกแห่งความคิด

คาดว่าแนวคิด SoT จะรวมเข้ากับการกำหนดเส้นทางแบบปรับเปลี่ยนได้: ระบบจะตรวจจับเมื่อแบบสอบถามสลายตัวอย่างสมบูรณ์และสลับไปใช้การขยายแบบขนาน โดยถอยกลับไปใช้การใช้เหตุผลตามลำดับสำหรับงานที่ต้องพึ่งพาอาศัยกันอย่างแน่นหนา เช่น การพิสูจน์ทางคณิตศาสตร์ ตัวแปรต่างๆ เช่น SoT ที่มีการขึ้นต่อกันของกราฟแบบไดนามิกช่วยให้จุดที่อ้างอิงถึงกันและกันได้ เนื่องจากเฟรมเวิร์กการให้บริการเพิ่มการรองรับคำขอย่อยแบบเนทีฟแบบแบตช์และการถอดรหัสเชิงคาดเดา กลยุทธ์การแยกส่วนแบบขนานจะกลายเป็นเลเยอร์การลดเวลาแฝงมาตรฐาน แทนที่จะเป็นเคล็ดลับแจ้งด้วยตนเอง

การใช้งานจริงในโลกแห่งความเป็นจริง

เร่งความเร็วแชทบอทที่ตอบว่า 'ขอ 8 เคล็ดลับในการลดต้นทุนระบบคลาวด์ให้ฉันหน่อย' โดยขยายเคล็ดลับทั้ง 8 ประการไปพร้อมๆ กัน

ผู้ช่วยฝ่ายสนับสนุนลูกค้าที่สร้างคู่มือการแก้ไขปัญหาแบบหลายส่วนที่มีโครงสร้างพร้อมเวลาแฝงในการตอบสนองที่ต่ำกว่า

สร้างคำตอบเปรียบเทียบ (ข้อดีข้อเสียของผลิตภัณฑ์สองรายการ) โดยเติมกระสุนแต่ละนัดพร้อมกัน

ระบบการให้บริการแบ็กเอนด์ที่แยกส่วนคำตอบอิสระเป็นชุดเพื่อเพิ่มการใช้งาน GPU ในระหว่างการสร้างรูปแบบยาว

รูปแบบการดำเนินงาน

การถอดรหัสแบบขนานโครงกระดูกของความคิดในทางปฏิบัติ

การเร่งความเร็วแชทบอตที่ตอบว่า 'ขอคำแนะนำ 8 ข้อในการลดต้นทุนบนคลาวด์หน่อย' โดยการขยายเคล็ดลับทั้ง 8 ข้อในคราวเดียว โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การถอดรหัสแบบขนานโครงกระดูกของความคิดในทางปฏิบัติ

ผู้ช่วยฝ่ายสนับสนุนลูกค้าที่สร้างคู่มือการแก้ไขปัญหาแบบหลายส่วนที่มีโครงสร้างพร้อมเวลาแฝงในการตอบสนองที่ต่ำกว่า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การถอดรหัสแบบขนานโครงกระดูกของความคิดในทางปฏิบัติ

การสร้างคำตอบในการเปรียบเทียบ (ข้อดีและข้อเสียของผลิตภัณฑ์สองรายการ) โดยที่แต่ละสัญลักษณ์แสดงหัวข้อย่อยถูกเติมไปพร้อมๆ กัน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การถอดรหัสแบบขนานโครงกระดูกของความคิดในทางปฏิบัติ

ระบบการให้บริการแบ็กเอนด์ที่รวบรวมส่วนคำตอบที่เป็นอิสระเป็นชุดเพื่อเพิ่มการใช้งาน GPU ในระหว่างการสร้างรูปแบบยาว ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ

ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน

ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ

แผนงานการดำเนินงาน

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

ChatGPT และ LLM

ดูว่าโมเดลภาษาสมัยใหม่สร้างและเหตุผลอย่างไร

อ่านคู่มือ

พื้นฐาน NLP

เรียนรู้พื้นฐานการประมวลผลภาษาที่อยู่เบื้องหลังเครื่องมือเหล่านี้

อ่านคู่มือ