คู่มือทางเทคนิค

Tokenization และการเข้ารหัสคู่ไบต์

โทเค็นไนซ์จะแบ่งข้อความออกเป็นหน่วยเล็กๆ ตามที่โมเดลภาษาอ่านได้จริง และการเข้ารหัสคู่ไบต์ (BPE) เป็นวิธีที่ได้รับความนิยมในการสร้างคำศัพท์นั้น

ภาพรวม

โทเค็นไนซ์จะแบ่งข้อความออกเป็นหน่วยเล็กๆ ตามที่โมเดลภาษาอ่านได้จริง และการเข้ารหัสคู่ไบต์ (BPE) เป็นวิธีที่ได้รับความนิยมในการสร้างคำศัพท์นั้น ทำให้การมีคำศัพท์ที่สามารถจัดการได้สมดุลกับการจัดการคำใดๆ ที่โมเดลอาจพบ

การแปลงโทเค็นและการเข้ารหัสคู่ไบต์เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

โมเดลภาษาจะไม่เห็นอักขระดิบหรือทั้งคำ โดยจะเห็นโทเค็น รหัสจำนวนเต็มที่ถูกแมปกับส่วนของข้อความ การเลือกชิ้นส่วนเหล่านั้นถือเป็นข้อดี: คำศัพท์ระดับคำมีขนาดใหญ่และทำให้คำที่มองไม่เห็นหรือสะกดผิดติดขัด ในขณะที่คำศัพท์ระดับตัวละครจะทำให้ลำดับยาวมาก การเข้ารหัสคู่ไบต์เน้นที่จุดกึ่งกลาง ยืมมาจากอัลกอริธึมการบีบอัดข้อมูลในทศวรรษ 1990 BPE เริ่มต้นจากอักขระแต่ละตัว (หรือไบต์ดิบ) และรวมคู่ที่อยู่ติดกันบ่อยที่สุดเข้ากับโทเค็นใหม่ซ้ำ ๆ เพื่อเพิ่มคำศัพท์ไปสู่คำย่อยทั่วไป คำที่ใช้บ่อยๆ จะกลายเป็นสัญลักษณ์เดี่ยวๆ ในขณะที่คำที่หายากจะแบ่งออกเป็นเศษๆ ที่นำมาใช้ซ้ำได้ BPE ระดับไบต์ซึ่งใช้โดยโมเดล GPT ทำงานบนไบต์ดิบ เพื่อให้สามารถแสดงข้อความ Unicode ใดๆ รวมถึงอิโมจิและภาษาใดๆ ก็ได้ โดยไม่มีข้อผิดพลาดจากคำศัพท์เลย

ข้อมูลเชิงลึกทางเทคนิค

การฝึกอบรม BPE เป็นเรื่องที่โลภและขับเคลื่อนด้วยความถี่ เริ่มต้นจากตัวอักษรพื้นฐาน โดยจะนับคู่สัญลักษณ์ที่อยู่ติดกันทั่วทั้งคลังข้อมูลและรวมคู่ที่พบบ่อยที่สุด โดยบันทึกการผสานแต่ละครั้งตามกฎ การทำซ้ำหลายพันครั้งนี้จะทำให้เกิดรายการผสานที่เรียงลำดับและคำศัพท์คงที่ ในการอนุมาน ข้อความจะถูกเข้ารหัสโดยใช้กฎการผสานเหล่านั้นตามลำดับ นี่คือสาเหตุที่การนับโทเค็นไม่ค่อยตรงกับจำนวนคำ การเว้นวรรค การใช้อักษรตัวพิมพ์ใหญ่ และคำที่หายาก ล้วนเปลี่ยนวิธีการแบ่งส่วนของข้อความเป็นโทเค็น และคำเดียวสามารถกลายเป็นโทเค็นได้หลายรายการ

การเรียนรู้โทเค็นและการเข้ารหัสคู่ไบต์

โทเค็นไนซ์จะแบ่งข้อความออกเป็นหน่วยเล็กๆ ตามที่โมเดลภาษาอ่านได้จริง และการเข้ารหัสคู่ไบต์ (BPE) เป็นวิธีที่ได้รับความนิยมในการสร้างคำศัพท์นั้น ทำให้การมีคำศัพท์ที่สามารถจัดการได้สมดุลกับการจัดการคำใดๆ ที่โมเดลอาจพบ การแปลงโทเค็นและการเข้ารหัสคู่ไบต์เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Tokenization และ Byte Pair Encoding เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้โทเค็นและการเข้ารหัสคู่ไบต์จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการแปลงโทเค็นและการเข้ารหัสคู่ไบต์

Tokenization อยู่ระหว่างการคิดใหม่อย่างแข็งขัน โมเดลระดับไบต์และอักขระ เช่น ByT5 และสถาปัตยกรรมไร้โทเค็นหรือสถาปัตยกรรม 'ไบต์แฝง' ที่เกิดขึ้นใหม่ มีเป้าหมายที่จะทิ้งคำศัพท์คงที่ทั้งหมด เพื่อให้โมเดลจัดการกับอินพุตและภาษาใด ๆ ได้อย่างเท่าเทียมกัน นักวิจัยยังจัดการกับความเป็นธรรมของโทเค็นด้วย — ภาษาที่ไม่ใช่ภาษาอังกฤษและทรัพยากรต่ำจำนวนมากในปัจจุบันมีราคาโทเค็นต่อประโยคสูงกว่ามาก ทำให้ราคาสูงขึ้นและลดบริบทที่มีประสิทธิภาพลง คาดว่าโทเค็นไนเซอร์จะได้รับการปรับแต่งสำหรับโค้ด คณิตศาสตร์ และความสมดุลในหลายภาษา รวมถึงการทดลองอย่างต่อเนื่องเพื่อผลักดันขอบเขตกลับไปสู่ไบต์ดิบ

การใช้งานจริงในโลกแห่งความเป็นจริง

โมเดล GPT และ Llama ใช้โทเค็นสไตล์ BPE เพื่อเปลี่ยนข้อความแจ้งเป็นรหัสโทเค็นที่เครือข่ายดำเนินการ

ราคา API และขีดจำกัดหน้าต่างบริบทจะวัดเป็นโทเค็น ดังนั้นโทเค็นจึงส่งผลโดยตรงต่อต้นทุนและจำนวนข้อความที่พอดี

การจัดการอีโมจิ โค้ด และคำที่หายากอย่างงดงามโดยการแยกออกเป็นคำย่อยหรือแฟรกเมนต์ไบต์ที่นำมาใช้ซ้ำได้

รองรับหลายภาษาในรูปแบบเดียวโดยไม่ต้องมีพจนานุกรมแยกต่างหากต่อภาษา ผ่านการเข้ารหัสระดับไบต์

รูปแบบการดำเนินงาน

Tokenization และการเข้ารหัสคู่ไบต์ในทางปฏิบัติ

โมเดล GPT และ Llama ใช้โทเค็นสไตล์ BPE เพื่อเปลี่ยนข้อความแจ้งเป็นรหัสโทเค็นที่เครือข่ายดำเนินการ

โมเดล GPT และ Llama ใช้โทเค็นสไตล์ BPE เพื่อเปลี่ยนข้อความแจ้งเป็น ID โทเค็นที่กระบวนการเครือข่าย ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Tokenization และการเข้ารหัสคู่ไบต์ในทางปฏิบัติ

ราคา API และขีดจำกัดหน้าต่างบริบทจะวัดเป็นโทเค็น ดังนั้นโทเค็นจึงส่งผลโดยตรงต่อต้นทุนและจำนวนข้อความที่พอดี

ราคา API และขีดจำกัดหน้าต่างบริบทวัดเป็นโทเค็น ดังนั้นโทเค็นจึงส่งผลโดยตรงต่อต้นทุนและจำนวนข้อความที่เหมาะกับทีมมักจะได้รับผลลัพธ์ที่ดีขึ้น เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Tokenization และการเข้ารหัสคู่ไบต์ในทางปฏิบัติ

การจัดการอีโมจิ โค้ด และคำที่หายากอย่างงดงามโดยการแยกออกเป็นคำย่อยหรือแฟรกเมนต์ไบต์ที่นำมาใช้ซ้ำได้

การจัดการอีโมจิ โค้ด และคำที่หายากอย่างงดงามโดยการแยกคำเหล่านั้นออกเป็นคำย่อยหรือแฟรกเมนต์ไบต์ที่นำมาใช้ซ้ำได้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Tokenization และการเข้ารหัสคู่ไบต์ในทางปฏิบัติ

รองรับหลายภาษาในรูปแบบเดียวโดยไม่ต้องมีพจนานุกรมแยกต่างหากต่อภาษา ผ่านการเข้ารหัสระดับไบต์

รองรับหลายภาษาในโมเดลเดียวโดยไม่มีพจนานุกรมแยกต่อภาษา ผ่านการเข้ารหัสระดับไบต์ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป