คู่มือการใช้โทเค็น

ภาพรวม

Tokenization เป็นขั้นตอนที่สับข้อความเป็นส่วนเล็กๆ ที่เรียกว่า token ซึ่งเป็นหน่วยที่โมเดลภาษาอ่านและทำนายได้จริง โดยจะกำหนดต้นทุน ขีดจำกัดบริบท และแม้กระทั่งว่าโมเดลจัดการกับการสะกดและคำที่หายากได้ดีเพียงใด

Tokenization อยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น

เจาะลึก

ก่อนที่โมเดลจะเห็นข้อความของคุณ โทเค็นไนเซอร์จะแยกออกเป็นโทเค็น ซึ่งโดยปกติจะเป็นส่วนของคำย่อย แทนที่จะเป็นคำทั้งหมดหรือตัวอักษรตัวเดียว คำว่า 'ความทุกข์' อาจกลายเป็น 'un', 'ความสุข' หรือ 'tokenization' อาจแบ่งออกเป็น 'token' และ 'ization' คำทั่วไปมักจะจับคู่กับโทเค็นเดียว ในขณะที่คำ ชื่อ หรือรหัสที่หายากแบ่งออกเป็นหลายคำ จากนั้นแต่ละโทเค็นจะถูกแมปกับหมายเลข ID ที่โมเดลแปลงเป็นเวกเตอร์ สิ่งนี้มีความสำคัญในทางปฏิบัติเนื่องจากโมเดลมีหน้าต่างบริบทคงที่ซึ่งวัดเป็นโทเค็น และ APIs เรียกเก็บเงินต่อโทเค็น ดังนั้นกฎง่ายๆ ของภาษาอังกฤษคือประมาณ 4 อักขระหรือ 0.75 คำต่อโทเค็น โทเค็นไนเซชันยังอธิบายลักษณะเฉพาะของโมเดลคลาสสิกด้วย นั่นคือ การนับตัวอักษรหรือการสะกดคำให้ถูกต้องเป็นเรื่องยาก เนื่องจากโมเดลมองเห็นชิ้นส่วน ไม่ใช่อักขระแต่ละตัว

ข้อมูลเชิงลึกทางเทคนิค

LLM สมัยใหม่ส่วนใหญ่ใช้โทเค็นคำย่อย เช่น Byte Pair Encoding (BPE) หรือตัวแปรระดับไบต์ BPE เริ่มต้นจากอักขระและรวมคู่ที่อยู่ติดกันบ่อยที่สุดซ้ำแล้วซ้ำเล่าเพื่อสร้างคำศัพท์คงที่ (มักจะมีโทเค็น 30,000 ถึง 100,000+ รายการ) สิ่งนี้ทำให้เกิดความสมดุลระหว่างสองขั้ว: โทเค็นระดับคำไม่สามารถจัดการกับคำที่มองไม่เห็นได้ ในขณะที่ระดับอักขระจะทำให้ลำดับยาวมาก คำย่อยช่วยให้โมเดลเป็นตัวแทนของสตริงใดๆ ก็ตาม รวมถึงการสะกดผิดและคำใหม่ ด้วยการเขียนส่วนที่รู้จัก ขณะเดียวกันก็รักษาลำดับให้สั้นพอสมควร

การเรียนรู้โทเค็น

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Tokenization เป็นเพียงโมเดลการดำเนินงาน ไม่ใช่เพียงฟีเจอร์เดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Tokenization จะสร้างโมเดลเชิงแนวคิดที่แข็งแกร่งก่อน จากนั้นจึงจับคู่โมเดลเหล่านั้นกับข้อจำกัดในการผลิตจริง โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในเวลาเดียวกัน ทีมต่างๆ อาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของโทเค็น

Tokenization เป็นสาขาการวิจัยเชิงรุกเนื่องจากจำกัดประสิทธิภาพและความเป็นธรรม ภาษาที่แปลงเป็นชิ้นส่วนมากขึ้นมีค่าใช้จ่ายมากขึ้นและใช้บริบทได้เร็วขึ้น ดังนั้นความเป็นธรรมในหลายภาษาจึงเป็นเรื่องที่ต้องคำนึงถึงอย่างแท้จริงด้วยคำศัพท์ที่ดีและสมดุลมากขึ้น นักวิจัยยังกำลังสำรวจโมเดลที่ไม่มีโทเค็นหรือระดับไบต์ (เช่น ByT5) และเรียนรู้การใช้โทเค็นซึ่งสามารถขจัดขั้นตอนการปรับแต่งที่เปราะบางด้วยมือโดยสิ้นเชิงได้ สำหรับตอนนี้ คาดว่าจะมีคำศัพท์มากขึ้น โทเค็นไนเซอร์หลายภาษาที่ชาญฉลาดยิ่งขึ้น และการรับรู้ของผู้ใช้ที่เพิ่มขึ้นเกี่ยวกับการกำหนดราคาตามโทเค็นและการกำหนดงบประมาณตามบริบท

การใช้งานจริงในโลกแห่งความเป็นจริง

ราคา API สำหรับโมเดล เช่น GPT และ Claude จะถูกเรียกเก็บเงินต่อโทเค็นอินพุตและเอาต์พุต ดังนั้นการนับโทเค็นจึงส่งผลโดยตรงต่อต้นทุน

ขีดจำกัดหน้าต่างบริบท (เช่น โทเค็น 128K หรือ 200K) จะวัดเป็นโทเค็น โดยกำหนดจำนวนข้อความหรือโค้ดที่คุณสามารถใส่ได้

นักพัฒนาใช้โทเค็น (เช่น tiktoken) เพื่อประมาณขนาดที่พร้อมท์และตัดเนื้อหาก่อนส่งคำขอ

Tokenization อธิบายว่าทำไมโมเดลถึงมีปัญหาในการนับตัวอักษรในคำหรือย้อนกลับสตริง เนื่องจากพวกเขาเห็นกลุ่มคำย่อย ไม่ใช่ตัวอักษร

รูปแบบการดำเนินงาน

โทเค็นไนซ์ในทางปฏิบัติ

ราคา API สำหรับโมเดล เช่น GPT และ Claude จะถูกเรียกเก็บเงินต่อโทเค็นอินพุตและเอาต์พุต ดังนั้นการนับโทเค็นจึงส่งผลโดยตรงต่อต้นทุน

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

โทเค็นไนซ์ในทางปฏิบัติ

ขีดจำกัดหน้าต่างบริบท (เช่น โทเค็น 128K หรือ 200K) จะวัดเป็นโทเค็น โดยกำหนดจำนวนข้อความหรือโค้ดที่คุณสามารถใส่ได้

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

โทเค็นไนซ์ในทางปฏิบัติ

นักพัฒนาใช้โทเค็น (เช่น tiktoken) เพื่อประมาณขนาดที่พร้อมท์และตัดเนื้อหาก่อนส่งคำขอ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

โทเค็นไนซ์ในทางปฏิบัติ

Tokenization อธิบายว่าทำไมโมเดลถึงมีปัญหาในการนับตัวอักษรในคำหรือย้อนกลับสตริง เนื่องจากพวกเขาเห็นกลุ่มคำย่อย ไม่ใช่ตัวอักษร

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

แต่ละทีมอาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ

!

เกณฑ์มาตรฐานอาจดูแข็งแกร่งในขณะที่ประสิทธิภาพในโลกแห่งความเป็นจริงไม่เท่ากัน

!

การเพิกเฉยต่อคุณภาพข้อมูลและแผนการประเมินมักสร้างผลลัพธ์ที่เปราะบาง

แผนงานการดำเนินงาน

1

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เอกสารที่การใช้ Tokenization ช่วยได้ และวิธีที่ง่ายกว่าจะดีกว่า

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เอไอคืออะไร?

รับแนวคิดที่สำคัญก่อนดำน้ำลึก

อ่านคู่มือ

AI เรียนรู้อย่างไร

เข้าใจกระบวนการฝึกอบรมเบื้องหลังระบบที่ทันสมัย

อ่านคู่มือ

โทเค็น

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้โทเค็น

ผลกระทบเชิงกลยุทธ์

อนาคตของโทเค็น

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

โทเค็นไนซ์ในทางปฏิบัติ

โทเค็นไนซ์ในทางปฏิบัติ

โทเค็นไนซ์ในทางปฏิบัติ

โทเค็นไนซ์ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เอไอคืออะไร?

AI เรียนรู้อย่างไร

Related guides