РУКОВОДСТВО ПО ПРИМЕНЕНИЮ

ИИ в доступности для слабовидящих

ИИ описывает визуальный мир вслух: читает текст, идентифицирует объекты и рассказывает сцены для слепых или слабовидящих людей.

Обзор

ИИ описывает визуальный мир вслух: читает текст, идентифицирует объекты и рассказывает сцены для слепых или слабовидящих людей. Это важно, поскольку превращает камеру смартфона в всегда доступную пару глаз для повседневных задач.

ИИ в сфере доступности для людей с нарушениями зрения фокусируется на практическом применении: превращении возможностей модели в надежные ежедневные рабочие процессы, приносящие измеримую ценность.

Глубокое погружение

На протяжении десятилетий доступность опиралась на такие инструменты, как программы чтения с экрана (JAWS, NVDA, VoiceOver), которые преобразуют экранный текст в речь. ИИ существенно расширяет это понятие на физический мир. Такие приложения, как Seeing AI, Be My Eyes и Lookout, используют компьютерное зрение и оптическое распознавание символов для чтения почты, идентификации валюты, распознавания лиц и описания комнаты. Самый большой прорыв произошел, когда появились мультимодальные модели, такие как Be My Eyes на базе GPT-4 «Be My AI», позволяющие пользователю фотографировать любую сцену и задавать дополнительные вопросы на естественном языке: «Включена ли плита?» или «Какого цвета эта рубашка?» Эти инструменты дополняют, а не заменяют людей-добровольцев и собак-поводырей, и они работают, потому что и понимание изображений, и синтез речи стали достаточно быстрыми и дешевыми, чтобы их можно было использовать на телефоне.

Техническая информация

Сочетаются три технологии: OCR преобразует сфотографированный текст в символы; Модели обнаружения объектов и субтитров к изображениям идентифицируют и описывают то, что видит камера; а мультимодальные LLM позволяют пользователям задавать вопросы в ходе разговора об изображении. Ускорение на устройстве и механизмы преобразования текста в речь обеспечивают ответы в виде естественно звучащего звука за считанные секунды. Для цифрового контента ИИ также автоматически генерирует описания изображений в виде замещающего текста, делая веб-страницы и публикации в социальных сетях доступными для навигации с помощью программ чтения с экрана.

Освоение искусственного интеллекта в обеспечении доступности для слабовидящих

ИИ описывает визуальный мир вслух: читает текст, идентифицирует объекты и рассказывает сцены для слепых или слабовидящих людей. Это важно, поскольку превращает камеру смартфона в всегда доступную пару глаз для повседневных задач. ИИ в сфере доступности для людей с нарушениями зрения фокусируется на практическом применении: превращении возможностей модели в надежные ежедневные рабочие процессы, приносящие измеримую ценность. Чтобы достичь глубокого понимания, рассматривайте ИИ в сфере доступности для людей с нарушениями зрения как операционную модель, а не как отдельную функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.

На практике сильные команды, использующие ИИ в сфере доступности для людей с нарушениями зрения, фокусируются на результатах рабочего процесса, а не на моделировании демонстраций, и заранее определяют контрольные точки для людей. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.

Проектирование на уровне приложения определяет, улучшит ли ИИ реальные результаты. В то же время автоматизация сломанного процесса может усугубить существующие проблемы. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.

Стратегическое воздействие

Проектирование на уровне приложения определяет, улучшит ли ИИ реальные результаты.

Проектирование на уровне приложения определяет, улучшит ли ИИ реальные результаты. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Хорошая интеграция рабочих процессов обеспечивает повышение производительности, которому пользователи могут доверять.

Хорошая интеграция рабочих процессов обеспечивает повышение производительности, которому пользователи могут доверять. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Хорошо продуманные варианты использования снижают усталость от изменений и риск внедрения.

Хорошо продуманные варианты использования снижают усталость от изменений и риск внедрения. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Будущее искусственного интеллекта в обеспечении доступности для слабовидящих

Носимые устройства — это следующий шаг вперед: умные очки (Meta Ray-Ban, Envision Glasses) обеспечивают непрерывное повествование без помощи рук, поэтому пользователям не нужно поднимать телефон. Ожидайте более подробного пространственного описания, навигации в реальном времени, которая считывает уличные знаки и препятствия, а также более тесной интеграции с программами чтения с экрана. Проблема заключается в надежности: заведомо неверное описание («путь свободен») может быть опасным, поэтому будущим системам потребуется выверенная неопределенность и четкие сигналы о том, чего они не могут видеть.

Реальная реализация

Наведите телефон на письмо или этикетку лекарства и зачитайте текст вслух с помощью OCR.

Используйте Be My AI, чтобы сфотографировать холодильник и узнать, какие ингредиенты доступны для ужина.

Определение номинала бумажных денег или сканирование штрих-кодов продуктов во время покупок.

Автоматическое создание замещающих текстовых описаний для изображений на веб-сайте, чтобы пользователи программ чтения с экрана их понимали.

Шаблоны реализации

ИИ в обеспечении доступности для слабовидящих на практике

Наведите телефон на письмо или этикетку лекарства и зачитайте текст вслух с помощью OCR.

Направляя телефон на письмо или этикетку с лекарством и читая текст вслух с помощью OCR, команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

ИИ в обеспечении доступности для слабовидящих на практике

Используйте Be My AI, чтобы сфотографировать холодильник и узнать, какие ингредиенты доступны для ужина.

Использование Be My AI, чтобы сфотографировать холодильник и узнать, какие ингредиенты доступны для ужина. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

ИИ в обеспечении доступности для слабовидящих на практике

Определение номинала бумажных денег или сканирование штрих-кодов продуктов во время покупок.

Идентификация номинала бумажных денег или сканирование штрих-кодов продуктов во время покупок. Команды обычно получают лучшие результаты, если заранее определяют пороговые значения качества, сохраняют возможность человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

ИИ в обеспечении доступности для слабовидящих на практике

Автоматическое создание замещающих текстовых описаний для изображений на веб-сайте, чтобы пользователи программ чтения с экрана их понимали.

Автоматическое создание замещающего текста для изображений на веб-сайте, чтобы пользователи, использующие программы чтения с экрана, могли их понять. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют возможность эскалации вручную для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Риски и ограничения

!

Автоматизация сломанного процесса может усугубить существующие проблемы.

!

Команды могут чрезмерно автоматизировать и исключить необходимое человеческое суждение.

!

Качество может ухудшиться, если результаты не будут оцениваться постоянно.

Дорожная карта реализации

1

Составьте карту текущего рабочего процесса и определите этап, вызывающий наибольшие затруднения.

Составьте карту текущего рабочего процесса и определите этап, вызывающий наибольшие затруднения. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

2

Определите человеческие контрольно-пропускные пункты перед полной автоматизацией.

Определите человеческие контрольно-пропускные пункты перед полной автоматизацией. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

3

Обучайте пользователей подсказкам, путям эскалации и стандартам качества.

Обучайте пользователей подсказкам, путям эскалации и стандартам качества. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

4

Отслеживайте результаты на уровне задач, чтобы подтвердить устойчивую ценность.

Отслеживайте результаты на уровне задач, чтобы подтвердить устойчивую ценность. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Продолжайте исследовать