คู่มือแอปพลิเคชัน

AI ในการเข้าถึงสำหรับผู้พิการทางสายตา

AI อธิบายโลกแห่งภาพออกมาดังๆ เช่น การอ่านข้อความ การระบุวัตถุ และการบรรยายฉากสำหรับผู้ที่ตาบอดหรือมีความบกพร่องทางการมองเห็น

ภาพรวม

AI อธิบายโลกแห่งภาพออกมาดังๆ เช่น การอ่านข้อความ การระบุวัตถุ และการบรรยายฉากสำหรับผู้ที่ตาบอดหรือมีความบกพร่องทางการมองเห็น สิ่งนี้สำคัญเพราะมันเปลี่ยนกล้องสมาร์ทโฟนให้เป็นดวงตาคู่ใจสำหรับงานประจำวัน

AI ในการเข้าถึงสำหรับผู้บกพร่องทางการมองเห็นมุ่งเน้นไปที่การใช้งานจริง: เปลี่ยนความสามารถของโมเดลให้เป็นขั้นตอนการทำงานรายวันที่เชื่อถือได้ซึ่งส่งมอบคุณค่าที่วัดได้

เจาะลึก

เป็นเวลาหลายทศวรรษแล้วที่การช่วยเหลือพิเศษต้องอาศัยเครื่องมือ เช่น โปรแกรมอ่านหน้าจอ (JAWS, NVDA, VoiceOver) ที่แปลงข้อความบนหน้าจอเป็นคำพูด AI ขยายสิ่งนี้ไปสู่โลกทางกายภาพอย่างมาก แอพต่างๆ เช่น Seeing AI, Be My Eyes และ Lookout ใช้คอมพิวเตอร์วิทัศน์และการรู้จำอักขระด้วยแสงเพื่ออ่านอีเมล ระบุสกุลเงิน จดจำใบหน้า และอธิบายห้อง การก้าวกระโดดที่ยิ่งใหญ่ที่สุดเกิดขึ้นเมื่อโมเดลหลายรูปแบบเช่น GPT-4 ขับเคลื่อน Be My Eyes, 'Be My AI' โดยให้ผู้ใช้ถ่ายภาพฉากใดๆ และถามคำถามติดตามผลในภาษาธรรมชาติว่า 'เตาเปิดอยู่หรือเปล่า' หรือ 'เสื้อตัวนี้สีอะไร' เครื่องมือเหล่านี้ช่วยเสริมอาสาสมัครของมนุษย์และสุนัขนำทาง แทนที่จะมาแทนที่ และเครื่องมือเหล่านี้ได้ผลเพราะทั้งการเข้าใจภาพและการสังเคราะห์เสียงพูดรวดเร็วและราคาถูกพอที่จะใช้งานบนโทรศัพท์ได้

ข้อมูลเชิงลึกทางเทคนิค

เทคโนโลยีสามอย่างรวมกัน: OCR แปลงข้อความที่ถ่ายภาพเป็นตัวอักษร โมเดลการตรวจจับวัตถุและคำอธิบายภาพจะระบุและอธิบายสิ่งที่กล้องมองเห็น และ LLM แบบต่อเนื่องหลายรูปแบบช่วยให้ผู้ใช้สามารถสอบถามการสนทนาเกี่ยวกับรูปภาพต่อไปได้ การเร่งความเร็วบนอุปกรณ์และเครื่องมือแปลงข้อความเป็นคำพูดให้คำตอบในรูปแบบเสียงที่เป็นธรรมชาติภายในไม่กี่วินาที สำหรับเนื้อหาดิจิทัล AI ยังสร้างคำอธิบาย 'ข้อความแสดงแทน' ของรูปภาพโดยอัตโนมัติ ทำให้หน้าเว็บและโพสต์โซเชียลสามารถนำทางได้ด้วยโปรแกรมอ่านหน้าจอ

การเรียนรู้ AI ในการเข้าถึงสำหรับผู้พิการทางสายตา

AI อธิบายโลกแห่งภาพออกมาดังๆ เช่น การอ่านข้อความ การระบุวัตถุ และการบรรยายฉากสำหรับผู้ที่ตาบอดหรือมีความบกพร่องทางการมองเห็น สิ่งนี้สำคัญเพราะมันเปลี่ยนกล้องสมาร์ทโฟนให้เป็นดวงตาคู่ใจสำหรับงานประจำวัน AI ในการเข้าถึงสำหรับผู้บกพร่องทางการมองเห็นมุ่งเน้นไปที่การใช้งานจริง: เปลี่ยนความสามารถของโมเดลให้เป็นขั้นตอนการทำงานรายวันที่เชื่อถือได้ซึ่งส่งมอบคุณค่าที่วัดได้ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ปฏิบัติต่อ AI ในการเข้าถึงสำหรับผู้พิการทางสายตาให้เป็นโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ AI ในการเข้าถึงสำหรับผู้บกพร่องทางการมองเห็นจะมุ่งเน้นไปที่ผลลัพธ์ของเวิร์กโฟลว์ ไม่ใช่สร้างแบบจำลองการสาธิต และกำหนดจุดตรวจสอบของมนุษย์ตั้งแต่เนิ่นๆ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การออกแบบระดับแอปพลิเคชันจะกำหนดว่า AI จะปรับปรุงผลลัพธ์ที่แท้จริงหรือไม่ ในขณะเดียวกัน การทำให้กระบวนการที่เสียหายเป็นอัตโนมัติสามารถขยายปัญหาที่มีอยู่ได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การออกแบบระดับแอปพลิเคชันจะกำหนดว่า AI จะปรับปรุงผลลัพธ์ที่แท้จริงหรือไม่

การออกแบบระดับแอปพลิเคชันจะกำหนดว่า AI จะปรับปรุงผลลัพธ์ที่แท้จริงหรือไม่ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การบูรณาการขั้นตอนการทำงานที่ดีจะช่วยเพิ่มผลผลิตที่ผู้ใช้ไว้วางใจได้

การบูรณาการขั้นตอนการทำงานที่ดีจะช่วยเพิ่มผลผลิตที่ผู้ใช้ไว้วางใจได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

กรณีการใช้งานที่มีขอบเขตดีจะช่วยลดความเหนื่อยล้าของการเปลี่ยนแปลงและความเสี่ยงในการดำเนินการ

กรณีการใช้งานที่มีขอบเขตดีจะช่วยลดความเหนื่อยล้าของการเปลี่ยนแปลงและความเสี่ยงในการดำเนินการ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ AI ในการเข้าถึงสำหรับผู้พิการทางสายตา

อุปกรณ์ที่สวมใส่ได้คือขอบเขตถัดไป แว่นตาอัจฉริยะ (Meta Ray-Bans, Envision Glasses) มอบการบรรยายต่อเนื่องแบบแฮนด์ฟรีและต่อเนื่อง ผู้ใช้จึงไม่จำเป็นต้องยกโทรศัพท์ คาดหวังคำอธิบายเชิงพื้นที่ที่สมบูรณ์ยิ่งขึ้น การนำทางแบบเรียลไทม์ที่อ่านป้ายจราจรและสิ่งกีดขวาง และการผสานรวมกับโปรแกรมอ่านหน้าจอที่เข้มงวดยิ่งขึ้น ความท้าทายคือความน่าเชื่อถือ: คำอธิบายที่ไม่ถูกต้องอย่างมั่นใจว่า ('เส้นทางชัดเจน') อาจเป็นอันตรายได้ ดังนั้นระบบในอนาคตจะต้องมีความไม่แน่นอนที่ได้รับการปรับเทียบและสัญญาณที่ชัดเจนเกี่ยวกับสิ่งที่พวกเขาไม่สามารถมองเห็นได้

การใช้งานจริงในโลกแห่งความเป็นจริง

การชี้โทรศัพท์ไปที่ฉลากตัวอักษรหรือยา และให้อ่านออกเสียงข้อความผ่าน OCR

การใช้ Be My AI ถ่ายภาพตู้เย็นและถามว่าอาหารเย็นมีส่วนผสมอะไรบ้าง

ระบุสกุลเงินกระดาษหรือสแกนบาร์โค้ดผลิตภัณฑ์ขณะช้อปปิ้ง

การสร้างคำอธิบายข้อความแสดงแทนสำหรับรูปภาพบนเว็บไซต์โดยอัตโนมัติ เพื่อให้ผู้ใช้โปรแกรมอ่านหน้าจอเข้าใจได้

รูปแบบการดำเนินงาน

AI ในการเข้าถึงสำหรับผู้พิการทางสายตาในทางปฏิบัติ

การชี้โทรศัพท์ไปที่ฉลากตัวอักษรหรือยา และให้อ่านออกเสียงข้อความผ่าน OCR

การชี้โทรศัพท์ไปที่ฉลากตัวอักษรหรือยา และให้อ่านออกเสียงข้อความผ่านทีม OCR มักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

AI ในการเข้าถึงสำหรับผู้พิการทางสายตาในทางปฏิบัติ

การใช้ Be My AI ถ่ายภาพตู้เย็นและถามว่าอาหารเย็นมีส่วนผสมอะไรบ้าง

การใช้ Be My AI เพื่อถ่ายภาพตู้เย็นและถามว่ามีส่วนผสมใดบ้างสำหรับมื้อเย็น ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

AI ในการเข้าถึงสำหรับผู้พิการทางสายตาในทางปฏิบัติ

ระบุสกุลเงินกระดาษหรือสแกนบาร์โค้ดผลิตภัณฑ์ขณะช้อปปิ้ง

การระบุสกุลเงินกระดาษหรือการสแกนบาร์โค้ดของผลิตภัณฑ์ในขณะที่ทีมช็อปปิ้งมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

AI ในการเข้าถึงสำหรับผู้พิการทางสายตาในทางปฏิบัติ

การสร้างคำอธิบายข้อความแสดงแทนสำหรับรูปภาพบนเว็บไซต์โดยอัตโนมัติ เพื่อให้ผู้ใช้โปรแกรมอ่านหน้าจอเข้าใจได้

คำอธิบายข้อความแสดงแทนที่สร้างโดยอัตโนมัติสำหรับรูปภาพบนเว็บไซต์ เพื่อให้ผู้ใช้โปรแกรมอ่านหน้าจอเข้าใจพวกเขา โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การทำให้กระบวนการที่เสียหายเป็นอัตโนมัติสามารถขยายปัญหาที่มีอยู่ได้

!

ทีมอาจดำเนินการอัตโนมัติมากเกินไปและลบวิจารณญาณของมนุษย์ที่จำเป็นออก

!

คุณภาพอาจคลาดเคลื่อนได้หากไม่ได้รับการประเมินผลลัพธ์อย่างต่อเนื่อง

แผนงานการดำเนินงาน

1

แมปขั้นตอนการทำงานปัจจุบันและระบุขั้นตอนที่มีแรงเสียดทานสูงสุด

แมปขั้นตอนการทำงานปัจจุบันและระบุขั้นตอนที่มีแรงเสียดทานสูงสุด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

กำหนดจุดตรวจของมนุษย์ก่อนระบบอัตโนมัติเต็มรูปแบบ

กำหนดจุดตรวจของมนุษย์ก่อนระบบอัตโนมัติเต็มรูปแบบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

ฝึกอบรมผู้ใช้เกี่ยวกับการแจ้งเตือน เส้นทางการยกระดับ และมาตรฐานคุณภาพ

ฝึกอบรมผู้ใช้เกี่ยวกับการแจ้งเตือน เส้นทางการยกระดับ และมาตรฐานคุณภาพ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามผลลัพธ์ระดับงานเพื่อยืนยันคุณค่าที่ยั่งยืน

ติดตามผลลัพธ์ระดับงานเพื่อยืนยันคุณค่าที่ยั่งยืน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป