Обзор
Уменьшение размерности сокращает данные из многих столбцов (функций) до нескольких, сохраняя при этом важную структуру. Он борется с «проклятием размерности», ускоряет модели и позволяет визуализировать сложные данные в 2D или 3D.
Снижение размерности входит в основной набор инструментов искусственного интеллекта. Когда вы это поймете, другие темы ИИ станет легче оценивать и сравнивать.
Глубокое погружение
Реальные наборы данных часто содержат сотни или тысячи функций: каждый пиксель изображения, каждое слово в словаре, каждый датчик на машине. В таких многомерных пространствах точки данных становятся разреженными и расположены далеко друг от друга, измерения расстояний становятся ненадежными, а модели имеют тенденцию переоценивать шум. Это проклятие размерности. Снижение размерности отображает данные в гораздо меньшем количестве измерений, сохраняя при этом значимые связи. PCA делает это линейно, находя направления наибольшего отклонения. t-SNE и UMAP являются нелинейными и превосходно выявляют кластеры для визуализации. Уменьшение размеров удаляет избыточные или зашумленные функции, сокращает объем памяти и вычислений и часто повышает точность последующей модели, поскольку меньше нерелевантных сигналов, которые могут ее сбить с толку.
Техническая информация
PCA работает путем вычисления ковариации признаков и поиска собственных векторов, «главных компонентов», которые указывают в направлениях максимальной дисперсии. Вы сохраняете несколько верхних компонентов и проецируете на них данные, отбрасывая направления с малой дисперсией, которые в основном представляют собой шум. Вместо этого t-SNE и UMAP моделируют отношения соседей: они пытаются сохранить точки, которые были близки в больших измерениях, близко к низкоразмерной карте. UMAP строит граф близлежащих точек, что делает его быстрее, чем t-SNE, и лучше сохраняет более широкую глобальную структуру.
Освоение уменьшения размерности
Уменьшение размерности сокращает данные из многих столбцов (функций) до нескольких, сохраняя при этом важную структуру. Он борется с «проклятием размерности», ускоряет модели и позволяет визуализировать сложные данные в 2D или 3D. Снижение размерности входит в основной набор инструментов искусственного интеллекта. Когда вы это поймете, другие темы ИИ станет легче оценивать и сравнивать. Чтобы достичь глубокого понимания, рассматривайте уменьшение размерности как операционную модель, а не как отдельную функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.
На практике сильные команды, использующие уменьшение размерности, сначала создают надежные концептуальные модели, а затем сопоставляют эти модели с реальными производственными ограничениями. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.
Это поможет вам отделить четкие технические заявления от маркетингового языка. В то же время разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.
Стратегическое воздействие
Это поможет вам отделить четкие технические заявления от маркетингового языка.
Это поможет вам отделить четкие технические заявления от маркетингового языка. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время.
Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению.
Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Реальная реализация
Построение вложений слов или предложений из языковой модели в 2D с помощью UMAP, чтобы увидеть, какие понятия модель группирует вместе.
Сжатие тысяч измерений экспрессии генов на одного пациента в несколько компонентов перед кластеризацией подтипов заболеваний
Уменьшение характеристик изображения перед подачей их в классификатор, чтобы обучение происходило быстрее и было менее подвержено переобучению.
Визуализация поведения клиентов по сотням показателей в виде двухмерной диаграммы рассеяния для выявления отдельных сегментов рынка.
Шаблоны реализации
Снижение размерности на практике
Построение вложений слов или предложений из языковой модели в 2D с помощью UMAP, чтобы увидеть, какие концепции группируются вместе в модели.
Построение вложений слов или предложений из языковой модели в 2D с помощью UMAP, чтобы увидеть, какие понятия модель группирует вместе. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.
Снижение размерности на практике
Сжатие тысяч измерений экспрессии генов на одного пациента в несколько компонентов перед кластеризацией подтипов заболеваний.
Сжатие тысяч измерений экспрессии генов у каждого пациента в несколько компонентов перед кластеризацией подтипов заболеваний. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.
Снижение размерности на практике
Уменьшение характеристик изображения перед подачей их в классификатор, чтобы обучение происходило быстрее и было менее подвержено переобучению.
Сокращение характеристик изображения перед их передачей в классификатор, чтобы обучение проходило быстрее и было менее подвержено переоснащению. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.
Снижение размерности на практике
Визуализация поведения клиентов по сотням показателей в виде двухмерной диаграммы рассеяния для выявления отдельных сегментов рынка.
Визуализация поведения клиентов по сотням показателей в виде двухмерной диаграммы рассеяния для выявления отдельных сегментов рынка. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.
Риски и ограничения
Разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб.
Тесты могут выглядеть сильными, в то время как реальная производительность неравномерна.
Игнорирование качества данных и планов оценки часто приводит к нестабильным результатам.
Дорожная карта реализации
Начните с простого определения желаемого результата.
Начните с простого определения желаемого результата. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Перед тестированием выберите один показатель успеха и одно условие отказа.
Перед тестированием выберите один показатель успеха и одно условие отказа. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Запустите небольшой пилотный проект с репрезентативными данными, а не отточенный демонстрационный набор.
Запустите небольшой пилотный проект с репрезентативными данными, а не отточенный демонстрационный набор. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Документируйте, где помогает уменьшение размерности и где более простые методы лучше.
Документируйте, где помогает уменьшение размерности и где более простые методы лучше. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.