دليل التطبيقات

الذكاء الاصطناعي في إمكانية الوصول للمعاقين بصريًا

يصف الذكاء الاصطناعي العالم المرئي بصوت عالٍ، حيث يقرأ النص، ويحدد الأشياء، ويروي المشاهد للأشخاص المكفوفين أو ضعاف البصر.

نظرة عامة

يصف الذكاء الاصطناعي العالم المرئي بصوت عالٍ، حيث يقرأ النص، ويحدد الأشياء، ويروي المشاهد للأشخاص المكفوفين أو ضعاف البصر. وهذا مهم لأنه يحول كاميرا الهاتف الذكي إلى عينين متاحتين دائمًا للمهام اليومية.

يركز الذكاء الاصطناعي في إمكانية الوصول للمعاقين بصريًا على النشر العملي: تحويل قدرة النموذج إلى سير عمل يومي موثوق به يقدم قيمة قابلة للقياس.

الغوص العميق

لعقود من الزمن، اعتمدت إمكانية الوصول على أدوات مثل قارئات الشاشة (JAWS وNVDA وVoiceOver) التي تحول النص المعروض على الشاشة إلى كلام. يقوم الذكاء الاصطناعي بتوسيع هذا بشكل كبير ليشمل العالم المادي. تستخدم تطبيقات مثل Seeing AI وBe My Eyes وLookout رؤية الكمبيوتر والتعرف البصري على الأحرف لقراءة البريد وتحديد العملة والتعرف على الوجوه ووصف الغرفة. جاءت القفزة الأكبر عندما قامت نماذج متعددة الوسائط مثل GPT-4 بدعم Be My Eyes "Be My AI"، مما يسمح للمستخدم بتصوير أي مشهد وطرح أسئلة متابعة باللغة الطبيعية - "هل الموقد مفتوح؟" أو "ما لون هذا القميص؟" تكمل هذه الأدوات المتطوعين من البشر والكلاب المرشدة، ولا تحل محلهم، وهي فعالة لأن فهم الصور وتركيب الكلام أصبحا سريعين ورخيصين بما يكفي لتشغيلهما على الهاتف.

البصيرة الفنية

تجمع بين ثلاث تقنيات: تقنية التعرف الضوئي على الحروف (OCR) التي تحول النص المصور إلى أحرف؛ تحدد نماذج اكتشاف الأشياء والتعليق على الصور ما تراه الكاميرا وتصفه؛ وتتيح LLMs متعددة الوسائط للمستخدمين طلب متابعة محادثة حول الصورة. تقدم محركات التسريع وتحويل النص إلى كلام على الجهاز إجابات كصوت طبيعي في غضون ثوانٍ. بالنسبة للمحتوى الرقمي، يقوم الذكاء الاصطناعي أيضًا بإنشاء أوصاف "نص بديل" للصور تلقائيًا، مما يجعل صفحات الويب والمشاركات الاجتماعية قابلة للتنقل بواسطة قارئات الشاشة.

إتقان الذكاء الاصطناعي في إمكانية الوصول لضعاف البصر

يصف الذكاء الاصطناعي العالم المرئي بصوت عالٍ، حيث يقرأ النص، ويحدد الأشياء، ويروي المشاهد للأشخاص المكفوفين أو ضعاف البصر. وهذا مهم لأنه يحول كاميرا الهاتف الذكي إلى عينين متاحتين دائمًا للمهام اليومية. يركز الذكاء الاصطناعي في إمكانية الوصول للمعاقين بصريًا على النشر العملي: تحويل قدرة النموذج إلى سير عمل يومي موثوق به يقدم قيمة قابلة للقياس. لبناء فهم عميق، يجب التعامل مع الذكاء الاصطناعي في مجال إمكانية الوصول للمعاقين بصريًا كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرجوة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تركز الفرق القوية التي تستخدم الذكاء الاصطناعي في إمكانية الوصول للمعاقين بصريًا على نتائج سير العمل، وليس العروض التوضيحية النموذجية، وتحدد نقاط التفتيش البشرية مبكرًا. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يحدد التصميم على مستوى التطبيق ما إذا كان الذكاء الاصطناعي سيحسن النتائج الحقيقية. وفي الوقت نفسه، يمكن أن تؤدي أتمتة عملية معطلة إلى تضخيم المشاكل الموجودة. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يحدد التصميم على مستوى التطبيق ما إذا كان الذكاء الاصطناعي سيحسن النتائج الحقيقية.

يحدد التصميم على مستوى التطبيق ما إذا كان الذكاء الاصطناعي سيحسن النتائج الحقيقية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يؤدي التكامل الجيد لسير العمل إلى تحقيق مكاسب إنتاجية يمكن للمستخدمين الوثوق بها.

يؤدي التكامل الجيد لسير العمل إلى تحقيق مكاسب إنتاجية يمكن للمستخدمين الوثوق بها. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل حالات الاستخدام ذات النطاق الجيد على تقليل إجهاد التغيير ومخاطر التنفيذ.

تعمل حالات الاستخدام ذات النطاق الجيد على تقليل إجهاد التغيير ومخاطر التنفيذ. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل الذكاء الاصطناعي في مجال إمكانية الوصول لضعاف البصر

الأجهزة القابلة للارتداء هي الحدود التالية - النظارات الذكية (Meta Ray-Bans، Envision Glasses) تقدم رواية مستمرة بدون استخدام اليدين حتى لا يضطر المستخدمون إلى رفع الهاتف. توقع أوصافًا مكانية أكثر ثراءً، وملاحة في الوقت الفعلي تقرأ لافتات الشوارع والعوائق، وتكاملًا أكثر إحكامًا مع برامج قراءة الشاشة. ويتمثل التحدي في الموثوقية: فالوصف الخاطئ بثقة ("الطريق واضح") يمكن أن يكون خطيرا، لذا فإن الأنظمة المستقبلية سوف تحتاج إلى عدم يقين محسوب وإشارات واضحة حول ما لا تستطيع رؤيته.

التنفيذ في العالم الحقيقي

توجيه الهاتف نحو رسالة أو ملصق دواء وقراءة النص بصوت عالٍ عبر التعرف الضوئي على الحروف.

استخدام Be My AI لتصوير الثلاجة والسؤال عن المكونات المتوفرة لتناول العشاء.

التعرف على فئات العملات الورقية أو مسح الباركود الخاص بالمنتج أثناء التسوق.

إنشاء أوصاف نص بديل تلقائيًا للصور الموجودة على موقع ويب حتى يتمكن مستخدمو قارئ الشاشة من فهمها.

أنماط التنفيذ

الذكاء الاصطناعي في إمكانية الوصول للمعاقين بصريًا في الممارسة العملية

توجيه الهاتف نحو رسالة أو ملصق دواء وقراءة النص بصوت عالٍ عبر التعرف الضوئي على الحروف.

عادةً ما يؤدي توجيه الهاتف إلى خطاب أو ملصق دواء وقراءة النص بصوت عالٍ عبر فرق التعرف الضوئي على الحروف إلى نتائج أفضل عندما يحددون حدود الجودة مقدمًا، ويحتفظون بمسار تصعيد بشري لحالات الحافة، ويتتبعون مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الذكاء الاصطناعي في إمكانية الوصول للمعاقين بصريًا في الممارسة العملية

استخدام Be My AI لتصوير الثلاجة والسؤال عن المكونات المتوفرة لتناول العشاء.

استخدام Be My AI لتصوير الثلاجة والسؤال عن المكونات المتوفرة للعشاء، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الذكاء الاصطناعي في إمكانية الوصول للمعاقين بصريًا في الممارسة العملية

التعرف على فئات العملات الورقية أو مسح الباركود الخاص بالمنتج أثناء التسوق.

تحديد فئات العملات الورقية أو مسح الرموز الشريطية للمنتج أثناء التسوق عادةً ما تحصل فرق العمل على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الذكاء الاصطناعي في إمكانية الوصول للمعاقين بصريًا في الممارسة العملية

إنشاء أوصاف نص بديل تلقائيًا للصور الموجودة على موقع ويب حتى يتمكن مستخدمو قارئ الشاشة من فهمها.

إنشاء أوصاف نص بديل تلقائيًا للصور الموجودة على موقع ويب حتى يفهمها مستخدمو قارئ الشاشة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تؤدي أتمتة عملية معطلة إلى تضخيم المشاكل الموجودة.

!

قد تقوم الفرق بالإفراط في أتمتة وإزالة الحكم البشري المطلوب.

!

يمكن أن تنحرف الجودة إذا لم يتم تقييم المخرجات بشكل مستمر.

خارطة طريق التنفيذ

1

قم بتخطيط سير العمل الحالي وحدد خطوة الاحتكاك الأعلى.

قم بتخطيط سير العمل الحالي وحدد خطوة الاحتكاك الأعلى. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

تحديد نقاط التفتيش البشرية قبل الأتمتة الكاملة.

تحديد نقاط التفتيش البشرية قبل الأتمتة الكاملة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

تدريب المستخدمين على المطالبات ومسارات التصعيد ومعايير الجودة.

تدريب المستخدمين على المطالبات ومسارات التصعيد ومعايير الجودة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع النتائج على مستوى المهمة لتأكيد القيمة المستدامة.

تتبع النتائج على مستوى المهمة لتأكيد القيمة المستدامة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف