ภาพรวม
Skeleton-of-Thought (SoT) เป็นเทคนิคการกระตุ้นและถอดรหัสที่ขอให้โมเดลภาษาร่างโครงร่างจุดคำตอบสั้นๆ จากนั้นจึงขยายแต่ละจุดแบบขนาน สิ่งสำคัญคือสามารถลดเวลาแฝงของนาฬิกาแขวนของคำตอบยาวๆ ได้ประมาณ 2 เท่าโดยไม่ต้องฝึกอบรมโมเดลใหม่
Skeleton-of-Thought Parallel Decoding เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด
เจาะลึก
โดยทั่วไปโมเดลภาษาขนาดใหญ่จะสร้างโทเค็นครั้งละหนึ่งโทเค็น ดังนั้นคำตอบที่ยาวจึงช้าเพียงเพราะแต่ละคำจะรอคำที่อยู่ข้างหน้า Skeleton-of-Thought เปิดตัวโดยนักวิจัยที่ Tsinghua และ Microsoft ในปี 2023 ได้ปรับโครงสร้างงานใหม่ การโทรครั้งแรกจะถามนางแบบเกี่ยวกับโครงกระดูกสั้นๆ ซึ่งเป็นรายการที่มีหมายเลขกำกับหัวข้อ 3 ถึง 10 จุด โดยแต่ละรายการเป็นเพียงคำไม่กี่คำ การเรียกชุดที่สองจะขยายทุกจุดอย่างอิสระและพร้อมกัน เนื่องจากแต่ละจุดไม่ได้ขึ้นอยู่กับอีกจุดหนึ่ง การขยายจะถูกต่อกลับเข้าด้วยกันเป็นคำตอบสุดท้าย เนื่องจากขั้นตอนการขยายที่ช้าทำงานไปพร้อมๆ กัน เวลาแฝงทั้งหมดจึงลดลงอย่างรวดเร็วสำหรับคำถามที่คำตอบถูกแยกย่อยออกเป็นส่วนๆ อย่างเป็นธรรมชาติ เช่น การแสดงรายการเคล็ดลับหรือตัวเลือกการเปรียบเทียบ
ข้อมูลเชิงลึกทางเทคนิค
SoT หาประโยชน์จากการอนุมานของตัวถอดรหัสนั้นขึ้นอยู่กับเวลาแฝง และไม่ได้ผูกกับการคำนวณเสมอไป: คำขอเดียวมักจะทำให้ GPU ใช้งานน้อยเกินไป การขยายจุดที่ทำงานเป็นชุดจะทำให้ฮาร์ดแวร์ไม่ว่างและทับซ้อนกับการสร้างจุดต่อจุด ด้วยโมเดล API การขยายจะออกตามคำขอพร้อมกัน สำหรับรุ่นท้องถิ่น พวกเขาแชร์การส่งต่อแบบกลุ่มหนึ่งชุด ขั้นตอนโครงกระดูกเพิ่มค่าใช้จ่ายระยะสั้นคงที่ ดังนั้นการเร่งความเร็วสุทธิจึงเพิ่มขึ้นตามความยาวของคำตอบและจำนวนคะแนนที่เป็นอิสระ
การเรียนรู้การถอดรหัสแบบขนานโครงกระดูกของความคิด
Skeleton-of-Thought (SoT) เป็นเทคนิคการกระตุ้นและถอดรหัสที่ขอให้โมเดลภาษาร่างโครงร่างจุดคำตอบสั้นๆ จากนั้นจึงขยายแต่ละจุดแบบขนาน สิ่งสำคัญคือสามารถลดเวลาแฝงของนาฬิกาแขวนของคำตอบยาวๆ ได้ประมาณ 2 เท่าโดยไม่ต้องฝึกโมเดลใหม่ Skeleton-of-Thought Parallel Decoding เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการถอดรหัสแบบขนานของโครงกระดูกแห่งความคิดเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การออกแบบการถอดรหัสแบบ Skeleton-of-Thought Parallel Decoding จะแจ้งเตือน การดึงข้อมูล และการตรวจสอบลูปเป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ
ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร
ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ
ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
เร่งความเร็วแชทบอทที่ตอบว่า 'ขอ 8 เคล็ดลับในการลดต้นทุนระบบคลาวด์ให้ฉันหน่อย' โดยขยายเคล็ดลับทั้ง 8 ประการไปพร้อมๆ กัน
ผู้ช่วยฝ่ายสนับสนุนลูกค้าที่สร้างคู่มือการแก้ไขปัญหาแบบหลายส่วนที่มีโครงสร้างพร้อมเวลาแฝงในการตอบสนองที่ต่ำกว่า
สร้างคำตอบเปรียบเทียบ (ข้อดีข้อเสียของผลิตภัณฑ์สองรายการ) โดยเติมกระสุนแต่ละนัดพร้อมกัน
ระบบการให้บริการแบ็กเอนด์ที่แยกส่วนคำตอบอิสระเป็นชุดเพื่อเพิ่มการใช้งาน GPU ในระหว่างการสร้างรูปแบบยาว
รูปแบบการดำเนินงาน
การถอดรหัสแบบขนานโครงกระดูกของความคิดในทางปฏิบัติ
เร่งความเร็วแชทบอทที่ตอบว่า 'ขอ 8 เคล็ดลับในการลดต้นทุนระบบคลาวด์ให้ฉันหน่อย' โดยขยายเคล็ดลับทั้ง 8 ประการไปพร้อมๆ กัน
การเร่งความเร็วแชทบอตที่ตอบว่า 'ขอคำแนะนำ 8 ข้อในการลดต้นทุนบนคลาวด์หน่อย' โดยการขยายเคล็ดลับทั้ง 8 ข้อในคราวเดียว โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การถอดรหัสแบบขนานโครงกระดูกของความคิดในทางปฏิบัติ
ผู้ช่วยฝ่ายสนับสนุนลูกค้าที่สร้างคู่มือการแก้ไขปัญหาแบบหลายส่วนที่มีโครงสร้างพร้อมเวลาแฝงในการตอบสนองที่ต่ำกว่า
ผู้ช่วยฝ่ายสนับสนุนลูกค้าที่สร้างคู่มือการแก้ไขปัญหาแบบหลายส่วนที่มีโครงสร้างพร้อมเวลาแฝงในการตอบสนองที่ต่ำกว่า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การถอดรหัสแบบขนานโครงกระดูกของความคิดในทางปฏิบัติ
สร้างคำตอบเปรียบเทียบ (ข้อดีข้อเสียของผลิตภัณฑ์สองรายการ) โดยเติมกระสุนแต่ละนัดพร้อมกัน
การสร้างคำตอบในการเปรียบเทียบ (ข้อดีและข้อเสียของผลิตภัณฑ์สองรายการ) โดยที่แต่ละสัญลักษณ์แสดงหัวข้อย่อยถูกเติมไปพร้อมๆ กัน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การถอดรหัสแบบขนานโครงกระดูกของความคิดในทางปฏิบัติ
ระบบการให้บริการแบ็กเอนด์ที่แยกส่วนคำตอบอิสระเป็นชุดเพื่อเพิ่มการใช้งาน GPU ในระหว่างการสร้างรูปแบบยาว
ระบบการให้บริการแบ็กเอนด์ที่รวบรวมส่วนคำตอบที่เป็นอิสระเป็นชุดเพื่อเพิ่มการใช้งาน GPU ในระหว่างการสร้างรูปแบบยาว ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ
ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน
ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ
แผนงานการดำเนินงาน
กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว
กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ
การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง
รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ
ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น