Руководство по матрицам путаницы

Обзор

Матрица путаницы — это простая таблица, которая разбивает прогнозы классификатора на правильные и неправильные значения для каждого класса. Это необработанное табло, на основе которого рассчитываются почти все остальные показатели классификации.

Матрицы путаницы входят в основной набор инструментов искусственного интеллекта. Когда вы это поймете, другие темы ИИ станет легче оценивать и сравнивать.

Глубокое погружение

Матрица путаницы — это сетка, сравнивающая прогнозируемые метки с фактическими метками. Для двоичной классификации он имеет четыре ячейки: «Истинные положительные результаты» (правильно предсказанный положительный результат), «Истинные отрицательные значения» (правильно предсказанный отрицательный результат), «Ложные положительные результаты» (негативные значения, ошибочно помеченные как положительные, «ошибка типа I») и «Ложные отрицательные значения» (пропущенные положительные результаты, «ошибка типа II»). Из этих четырех чисел вы получаете точность ((TP+TN)/всего), прецизионность (TP/(TP+FP)), полноту или чувствительность (TP/(TP+FN)), специфичность (TN/(TN+FP)) и показатель F1 (среднее гармоническое значение точности и полноты). Для задач с более чем двумя классами матрица становится размером N на N, где диагональ содержит правильные предсказания, а недиагональные ячейки точно показывают, какие классы с какими другими путаются.

Техническая информация

Сила матрицы в том, что она сохраняет структуру ошибок, скрываемую одним числом точности. Две модели с одинаковой точностью 90% могут иметь совершенно разные показатели ложноотрицательных результатов, что имеет огромное значение, когда пропущенный диагноз рака стоит больше, чем ложная тревога. По соглашению строки часто представляют истинные классы, а столбцы — предсказанные классы (хотя некоторые библиотеки меняют это), поэтому всегда проверяйте метки осей перед вычислением точности по сравнению с отзывом из ячеек.

Освоение матриц путаницы

Чтобы добиться глубокого понимания, рассматривайте матрицы путаницы как операционную модель, а не как отдельную функцию. Определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.

На практике сильные команды, использующие матрицы неточностей, сначала создают надежные концептуальные модели, а затем сопоставляют эти модели с реальными производственными ограничениями. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.

Это поможет вам отделить четкие технические заявления от маркетингового языка. В то же время разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.

Стратегическое воздействие

Это поможет вам отделить четкие технические заявления от маркетингового языка.

Это поможет вам отделить четкие технические заявления от маркетингового языка. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время.

Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению.

Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Будущее матриц путаницы

Матрицы путаницы останутся основополагающими, но инструменты делают их богаче: интерактивные нормализованные тепловые карты, разбивка по классам для больших наборов меток и матрицы, взвешенные по стоимости, которые умножают каждый тип ошибки на его реальный штраф. При аудите справедливости специалисты-практики теперь рассчитывают отдельные матрицы путаницы для каждой демографической подгруппы, чтобы выявить неодинаковую частоту ошибок. Ожидайте продолжения интеграции в информационные панели моделей, где при нажатии на ячейку будут показаны фактически неправильно классифицированные примеры для проверки.

Реальная реализация

Диагностика того, где классификатор изображений дает сбой, наблюдая, что он часто путает хаски с волками в недиагональных ячейках.

Аудит инструмента медицинского скрининга путем проверки ложноотрицательных результатов — пациентов с заболеванием, которое модель объявила здоровым.

Сравнение двух спам-фильтров электронной почты, которые имеют одинаковую точность, но различаются количеством реальных писем, которые они ошибочно блокируют (ложные срабатывания).

Оценка многоклассового распознавателя рукописных цифр и обнаружение того, что 4 и 9 чаще всего путают друг с другом.

Шаблоны реализации

Матрицы путаницы на практике

Диагностика того, где классификатор изображений дает сбой, видя, что он часто путает хаски с волками в недиагональных ячейках.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Матрицы путаницы на практике

Аудит инструмента медицинского скрининга путем проверки ложноотрицательных результатов — пациентов с заболеванием, которое модель объявила здоровым.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Матрицы путаницы на практике

Сравнение двух спам-фильтров электронной почты, которые имеют одинаковую точность, но различаются количеством реальных писем, которые они ошибочно блокируют (ложные срабатывания).

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Матрицы путаницы на практике

Оценка многоклассового распознавателя рукописных цифр выявила, что 4 и 9 чаще всего путают друг с другом.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Риски и ограничения

!

Разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб.

!

Тесты могут выглядеть сильными, в то время как реальная производительность неравномерна.

!

Игнорирование качества данных и планов оценки часто приводит к нестабильным результатам.

Дорожная карта реализации

1

Начните с простого определения желаемого результата.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

2

Перед тестированием выберите один показатель успеха и одно условие отказа.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

3

Запустите небольшой пилотный проект с репрезентативными данными, а не отточенный демонстрационный набор.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

4

Документируйте, где матрицы путаницы помогают и где более простые методы лучше.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Продолжайте исследовать

Что такое ИИ?

Получите основные понятия, прежде чем погружаться глубже.

Читать руководство

Как учится ИИ

Понять процесс обучения, лежащий в основе современных систем.

Читать руководство

Матрицы путаницы

Обзор

Глубокое погружение

Техническая информация

Освоение матриц путаницы

Стратегическое воздействие

Будущее матриц путаницы

Реальная реализация

Шаблоны реализации

Матрицы путаницы на практике

Матрицы путаницы на практике

Матрицы путаницы на практике

Матрицы путаницы на практике

Риски и ограничения

Дорожная карта реализации

Продолжайте исследовать

Что такое ИИ?

Как учится ИИ

Related guides