คู่มือ AI ภาษา

การฝังคำย่อย FastText

FastText เป็นวิธีการของ Facebook AI ในปี 2016 ที่แสดงแต่ละคำในรูปแบบถุงอักขระ n-gram ดังนั้นจึงสามารถสร้างเวกเตอร์ได้แม้กระทั่งคำที่ไม่เคยเห็นระหว่างการฝึก

ภาพรวม

FastText เป็นวิธีการของ Facebook AI ในปี 2016 ที่แสดงแต่ละคำในรูปแบบถุงอักขระ n-gram ดังนั้นจึงสามารถสร้างเวกเตอร์ได้แม้กระทั่งคำที่ไม่เคยเห็นระหว่างการฝึก วิธีการใช้คำย่อยนี้ใช้ได้กับภาษาที่มีสัณฐานวิทยามากมาย การพิมพ์ผิด และคำที่หายากซึ่ง Word2Vec และ GloVe ล้มเหลว

FastText Subword Embeddings เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด

เจาะลึก

FastText พัฒนาโดย Facebook AI Research (Bojanowski, Grave, Joulin, Mikolov) ในปี 2559 ขยายโมเดล Skip-Gram โดยการแบ่งแต่ละคำออกเป็นอักขระ n-gram คำว่า "where" ที่มีความยาว n กรัม 3 จะกลายเป็น <wh, whe, her, ere, re> บวกกับโทเค็นคำเต็ม โดยที่วงเล็บมุมทำเครื่องหมายขอบเขตคำ เวกเตอร์ของคำคือผลรวมของเวกเตอร์ n-gram ซึ่งหมายความว่า FastText สามารถสร้างเวกเตอร์สำหรับคำที่ไม่อยู่ในคำศัพท์ เช่น "ความไม่น่าเชื่อ" จากชิ้นส่วนย่อยที่คุ้นเคย และรวบรวมสัณฐานวิทยาที่ใช้ร่วมกัน ดังนั้น "การวิ่ง" "นักวิ่ง" และ "การวิ่ง" จึงมีความสัมพันธ์กันอย่างเป็นธรรมชาติ โปรเจ็กต์เดียวกันนี้ยังมีตัวแยกประเภทข้อความเชิงเส้นที่รวดเร็วและแม่นยำ (โหมดควบคุม "fastText") ซึ่งใช้สำหรับงานต่างๆ เช่น การระบุภาษาและการแท็กในวงกว้าง

ข้อมูลเชิงลึกทางเทคนิค

อักขระ n-gram แต่ละตัวถูกแฮชลงในตารางถังขนาดคงที่และกำหนดเวกเตอร์ของตัวเอง การแสดงคำคือผลรวมของเวกเตอร์ n-gram ที่เป็นส่วนประกอบ ซึ่งได้รับการฝึกฝนด้วยวัตถุประสงค์ Skip-Gram การสุ่มตัวอย่างเชิงลบแบบเดียวกับ Word2Vec การแบ่งปันพารามิเตอร์คำย่อยระหว่างคำต่างๆ เป็นสาเหตุให้สัณฐานวิทยาถ่ายโอน และเหตุใดคำที่มองไม่เห็นจึงยังคงได้เวกเตอร์ที่สมเหตุสมผล ตัวแยกประเภทที่ได้รับการดูแลใช้โมเดลที่มีคุณสมบัติคล้ายกันซึ่งมีซอฟต์แม็กซ์แบบลำดับชั้น ทำให้ทำงานบน CPU ได้เร็วมาก

การเรียนรู้การฝังคำย่อย FastText

FastText เป็นวิธีการของ Facebook AI ในปี 2016 ที่แสดงแต่ละคำในรูปแบบถุงอักขระ n-gram ดังนั้นจึงสามารถสร้างเวกเตอร์ได้แม้กระทั่งคำที่ไม่เคยเห็นระหว่างการฝึก วิธีการใช้คำย่อยนี้ใช้ได้กับภาษาที่มีสัณฐานวิทยามากมาย การพิมพ์ผิด และคำที่หายากซึ่ง Word2Vec และ GloVe ล้มเหลว FastText Subword Embeddings เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า FastText Subword Embeddings เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ FastText Subword Embeddings จะออกแบบพร้อมท์ การดึงข้อมูล และการตรวจสอบลูปเป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการฝังคำย่อย FastText

แนวคิดคำย่อยของ FastText ได้รับการพิสูจน์แล้วว่าเป็นรากฐาน: หม้อแปลงสมัยใหม่ใช้เทคนิคที่เกี่ยวข้อง เช่น การเข้ารหัส Byte-Pair และการสร้างโทเค็น Word Piece เพื่อจัดการอินพุตใดๆ โดยไม่ต้องใช้คำศัพท์ที่ตายตัว Facebook เปิดตัวเวกเตอร์ FastText ที่ได้รับการฝึกอบรมมาแล้วสำหรับ 157 ภาษา ทำให้เป็นพื้นฐานสำหรับ NLP ที่พูดได้หลายภาษาและมีทรัพยากรต่ำ ซึ่งโมเดลขนาดใหญ่ไม่สามารถใช้งานได้จริง เนื่องจากโมเดลบนอุปกรณ์และ Edge ขนาดเล็กได้รับความสำคัญ พื้นที่ขนาดเล็กและความเร็ว CPU ของ FastText จึงทำให้มีความเกี่ยวข้องกับการจำแนกประเภทข้อความที่ใช้งานจริง

การใช้งานจริงในโลกแห่งความเป็นจริง

การสร้างเวกเตอร์สำหรับคำที่สะกดผิดหรือไม่เคยเห็นมาก่อน เช่น "จริงๆ" หรือชื่อผลิตภัณฑ์ใหม่

เวกเตอร์โอเพ่นซอร์สที่ได้รับการฝึกอบรมล่วงหน้าของ Facebook ครอบคลุม 157 ภาษาสำหรับการค้นหาและการแท็กหลายภาษา

การระบุภาษาความเร็วสูงและการจำแนกสแปม/หัวข้อบน CPU ที่ไม่มี GPU

การจัดการกับภาษาที่มีความหลากหลายทางสัณฐานวิทยา เช่น ภาษาฟินแลนด์หรือภาษาตุรกี ซึ่งคำต่างๆ มีรูปแบบที่ผันแปรได้หลากหลาย

รูปแบบการดำเนินงาน

การฝังคำย่อย FastText ในทางปฏิบัติ

การสร้างเวกเตอร์สำหรับคำที่สะกดผิดหรือไม่เคยเห็นมาก่อน เช่น "จริงๆ" หรือชื่อผลิตภัณฑ์ใหม่

การสร้างเวกเตอร์สำหรับคำที่สะกดผิดหรือไม่เคยเห็นมาก่อน เช่น "realy" หรือชื่อผลิตภัณฑ์ใหม่ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การฝังคำย่อย FastText ในทางปฏิบัติ

เวกเตอร์โอเพ่นซอร์สที่ได้รับการฝึกอบรมล่วงหน้าของ Facebook ครอบคลุม 157 ภาษาสำหรับการค้นหาและการแท็กหลายภาษา

เวกเตอร์ที่ได้รับการฝึกอบรมแบบโอเพ่นซอร์สของ Facebook ครอบคลุม 157 ภาษาสำหรับการค้นหาและการแท็กหลายภาษา ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การฝังคำย่อย FastText ในทางปฏิบัติ

การระบุภาษาความเร็วสูงและการจำแนกสแปม/หัวข้อบน CPU ที่ไม่มี GPU

การระบุภาษาความเร็วสูงและการจัดหมวดหมู่สแปม/หัวข้อบน CPU โดยไม่มี GPU ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การฝังคำย่อย FastText ในทางปฏิบัติ

การจัดการกับภาษาที่มีความหลากหลายทางสัณฐานวิทยา เช่น ภาษาฟินแลนด์หรือภาษาตุรกี ซึ่งคำต่างๆ มีรูปแบบที่ผันแปรได้หลากหลาย

การจัดการกับภาษาที่มีความหลากหลายทางสัณฐานวิทยา เช่น ฟินแลนด์หรือตุรกี ซึ่งคำมีรูปแบบที่หลากหลาย ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับของมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ

!

ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน

!

ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ

แผนงานการดำเนินงาน

1

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป