คู่มือ AI ภาษา

การฝังตามบริบทของ ELMo

ELMo (การฝังจากโมเดลภาษา) เป็นความก้าวหน้าในปี 2018 ที่ทำให้แต่ละคำเป็นตัวแทนตามประโยค ดังนั้น 'ธนาคาร' ใน 'ริมฝั่งแม่น้ำ' จึงแตกต่างจาก 'ธนาคาร' ใน 'ธนาคารออมสิน'

ภาพรวม

ELMo (การฝังจากโมเดลภาษา) เป็นความก้าวหน้าในปี 2018 ที่ทำให้แต่ละคำเป็นตัวแทนตามประโยค ดังนั้น 'ธนาคาร' ใน 'ริมฝั่งแม่น้ำ' จึงแตกต่างจาก 'ธนาคาร' ใน 'ธนาคารออมสิน' เป็นการทำเครื่องหมายการเปลี่ยนแปลงจากเวกเตอร์คำแบบคงที่ไปเป็น NLP ที่รับรู้บริบท

ELMo Contextual Embeddings เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด

เจาะลึก

ELMo ซึ่งเปิดตัวโดย Allen Institute สำหรับนักวิจัย AI (Peters et al., 2018) สร้างการแสดงคำโดยการรันประโยคผ่านโมเดลภาษา LSTM แบบสองทิศทางเชิงลึกที่ได้รับการฝึกฝนจากคลังคำนับพันล้านคำ ต่างจาก Word2Vec หรือ GloVe ซึ่งกำหนดเวกเตอร์คงที่หนึ่งตัวต่อคำ ELMo คำนวณเวกเตอร์ใหม่สำหรับทุกเหตุการณ์ตามบริบทโดยรอบ สิ่งสำคัญที่สุดคือ ELMo จะรวมเลเยอร์ LSTM ภายในทั้งหมดผ่านการเรียนรู้น้ำหนักเฉพาะงาน แทนที่จะใช้เฉพาะเลเยอร์บนสุด ชั้นล่างมีแนวโน้มที่จะจับไวยากรณ์ (ส่วนหนึ่งของคำพูด โครงสร้าง) ในขณะที่ชั้นที่สูงกว่าจะจับความหมายและความรู้สึกของคำ การเพิ่ม ELMo ให้กับโมเดลที่มีอยู่ทำให้เกิดประโยชน์อย่างมากในงานวัดประสิทธิภาพ 6 งาน ซึ่งรวมถึงการตอบคำถาม การวิเคราะห์ความรู้สึก และการรับรู้เอนทิตีที่มีชื่อ

ข้อมูลเชิงลึกทางเทคนิค

ELMo ซ้อน LSTM สองตัวเข้าด้วยกัน: โมเดลภาษาไปข้างหน้าทำนายคำถัดไปและโมเดลถอยหลังทำนายคำก่อนหน้า โดยแต่ละโมเดลอยู่เหนืออินพุต CNN ระดับอักขระ (ดังนั้นจึงจัดการกับคำที่มองไม่เห็น) สำหรับงานดาวน์สตรีม ELMo จะยุบการแสดงเลเยอร์โดยใช้ตุ้มน้ำหนักแบบ softmax-normalized บวกกับสเกลาร์ ซึ่งทั้งหมดนี้เรียนรู้ระหว่างการปรับแต่งแบบละเอียด ซึ่งหมายความว่าแต่ละงานสามารถตัดสินใจได้ว่าต้องการสัญญาณทางวากยสัมพันธ์และความหมายมากน้อยเพียงใดจาก biLM ที่ผ่านการฝึกอบรมแบบแช่แข็ง

การเรียนรู้การฝังตามบริบทของ ELMo

ELMo (การฝังจากโมเดลภาษา) เป็นความก้าวหน้าในปี 2018 ที่ทำให้แต่ละคำเป็นตัวแทนตามประโยค ดังนั้น 'ธนาคาร' ใน 'ริมฝั่งแม่น้ำ' จึงแตกต่างจาก 'ธนาคาร' ใน 'ธนาคารออมสิน' เป็นการทำเครื่องหมายการเปลี่ยนแปลงจากเวกเตอร์คำแบบคงที่ไปเป็น NLP ที่รับรู้บริบท ELMo Contextual Embeddings เป็นส่วนหนึ่งของสแต็กภาษา-AI ที่ใช้ในการอ่าน สร้าง จำแนก และแปลงข้อความและคำพูดตามขนาด เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า ELMo Contextual Embeddings เป็นโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้พรอมต์การออกแบบ การดึงข้อมูล และการตรวจสอบลูปของ ELMo Contextual Embeddings เป็นระบบการสื่อสารแบบรวมระบบเดียว โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในขณะเดียวกัน ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ

ขั้นตอนการทำงานของภาษาสามารถดำเนินไปได้เร็วขึ้นโดยไม่กระทบต่อความสม่ำเสมอ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร

ขยายการเข้าถึงภาษาและรูปแบบการสื่อสาร ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ

ทีมสามารถใช้เวลามากขึ้นในการตัดสิน ในขณะที่ระบบอัตโนมัติจัดการกับการทำซ้ำ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการฝังตามบริบทของ ELMo

แนวคิดหลักของ ELMo ซึ่งก็คือการนำเสนอตามบริบทจากการฝึกอบรมโมเดลภาษาล่วงหน้า กลายเป็นพื้นฐาน แต่สถาปัตยกรรม LSTM ที่เกิดขึ้นซ้ำนั้นถูกบดบังอย่างรวดเร็วโดยโมเดลที่ใช้ Transformer เช่น BERT ในปลายปี 2018 ซึ่งอ่านประโยคทั้งหมดในแบบคู่ขนานและปรับขนาดได้ดีกว่ามาก ปัจจุบัน ELMo มีความสำคัญทางประวัติศาสตร์และการศึกษาเป็นส่วนใหญ่ แม้ว่าการจัดการอินพุตของตัวละคร-CNN ​​และแนวคิดการถ่วงน้ำหนักเลเยอร์ยังคงมีอิทธิพลต่องานฝังเฉพาะทางในภาษาที่มีทรัพยากรต่ำและมีความหลากหลายทางสัณฐานวิทยา

การใช้งานจริงในโลกแห่งความเป็นจริง

การปรับปรุงระบบการรู้จำเอนทิตีที่มีชื่อซึ่งต้องบอกว่า 'วอชิงตัน' หมายถึงบุคคล รัฐ หรือเมืองตามคำที่อยู่รอบๆ

ส่งเสริมการวิเคราะห์ความรู้สึกโดยระบุว่า 'ป่วย' หมายถึงเชิงลบใน 'ฉันรู้สึกไม่สบาย' แต่เป็นบวกในคำสแลง 'นั่นป่วย'

ปรับปรุงระบบการตอบคำถามบนเกณฑ์มาตรฐาน SQuAD โดยการป้อนเวกเตอร์โทเค็นที่ไวต่อบริบทเข้าไปในเครื่องอ่าน

แยกแยะความรู้สึกของคำในการแปลด้วยเครื่อง ดังนั้นคำที่มีหลายรูปแบบ เช่น 'plant' จึงแปลบริบทที่กำหนดได้อย่างถูกต้อง

รูปแบบการดำเนินงาน

การฝังตามบริบทของ ELMo ในทางปฏิบัติ

การปรับปรุงระบบการจดจำเอนทิตีที่มีชื่อซึ่งจะต้องบอกว่า 'วอชิงตัน' หมายถึงบุคคล รัฐ หรือเมืองตามคำที่อยู่รอบๆ

การปรับปรุงระบบการจดจำเอนทิตีที่มีชื่อซึ่งจะต้องบอกว่า 'วอชิงตัน' อ้างถึงบุคคล รัฐ หรือเมืองตามคำที่อยู่รอบๆ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การฝังตามบริบทของ ELMo ในทางปฏิบัติ

ส่งเสริมการวิเคราะห์ความรู้สึกโดยระบุว่า 'ป่วย' หมายถึงเชิงลบใน 'ฉันรู้สึกไม่สบาย' แต่เป็นบวกในคำสแลง 'นั่นป่วย'

ส่งเสริมการวิเคราะห์ความรู้สึกโดยระบุว่า 'ป่วย' หมายถึงเชิงลบใน 'ฉันรู้สึกไม่สบาย' แต่เป็นบวกในคำสแลง 'ป่วย' ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การฝังตามบริบทของ ELMo ในทางปฏิบัติ

ปรับปรุงระบบการตอบคำถามบนเกณฑ์มาตรฐาน SQuAD โดยการป้อนเวกเตอร์โทเค็นที่ไวต่อบริบทเข้าไปในเครื่องอ่าน

การปรับปรุงระบบการตอบคำถามบนเกณฑ์มาตรฐาน SQuAD โดยการป้อนเวกเตอร์โทเค็นที่ไวต่อบริบทให้กับผู้อ่าน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การฝังตามบริบทของ ELMo ในทางปฏิบัติ

แยกแยะความรู้สึกของคำในการแปลด้วยเครื่อง ดังนั้นคำที่มีหลายรูปแบบ เช่น 'plant' จึงแปลบริบทที่กำหนดได้อย่างถูกต้อง

แยกความรู้สึกของคำในการแปลด้วยเครื่อง ดังนั้นคำที่มีความหมายหลากหลาย เช่น 'โรงงาน' แปลอย่างถูกต้องตามบริบท ทีมมักจะได้ผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

ข้อเท็จจริงที่หลอนประสาทสามารถเข้าสู่รายงาน กระแสสนับสนุน หรือผลการวิจัยได้อย่างเงียบๆ

!

ความละเอียดอ่อนของการแจ้งเตือนสามารถสร้างผลลัพธ์ที่ไม่สอดคล้องกันในคำขอที่คล้ายกัน

!

ข้อมูลข้อความที่ละเอียดอ่อนอาจถูกเปิดเผยหากการควบคุมการเข้าถึงอ่อนแอ

แผนงานการดำเนินงาน

1

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว

กำหนดรูปแบบเอาต์พุต โทนเสียง และมาตรฐานคุณภาพก่อนเปิดตัว ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ

การตอบสนองภาคพื้นดินกับแหล่งข้อมูลที่เชื่อถือได้เมื่อใดก็ตามที่ความแม่นยำมีความสำคัญ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง

รักษาจุดตรวจสอบการตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีเดิมพันสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ

ติดตามรูปแบบความล้มเหลวและฝึกอบรมพร้อมท์หรือเวิร์กโฟลว์เป็นประจำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป