РУКОВОДСТВО ПО ОСНОВАМ

Уменьшение размерности

Уменьшение размерности сокращает данные из многих столбцов (функций) до нескольких, сохраняя при этом важную структуру.

Обзор

Уменьшение размерности сокращает данные из многих столбцов (функций) до нескольких, сохраняя при этом важную структуру. Он борется с «проклятием размерности», ускоряет модели и позволяет визуализировать сложные данные в 2D или 3D.

Снижение размерности входит в основной набор инструментов искусственного интеллекта. Когда вы это поймете, другие темы ИИ станет легче оценивать и сравнивать.

Глубокое погружение

Реальные наборы данных часто содержат сотни или тысячи функций: каждый пиксель изображения, каждое слово в словаре, каждый датчик на машине. В таких многомерных пространствах точки данных становятся разреженными и расположены далеко друг от друга, измерения расстояний становятся ненадежными, а модели имеют тенденцию переоценивать шум. Это проклятие размерности. Снижение размерности отображает данные в гораздо меньшем количестве измерений, сохраняя при этом значимые связи. PCA делает это линейно, находя направления наибольшего отклонения. t-SNE и UMAP являются нелинейными и превосходно выявляют кластеры для визуализации. Уменьшение размеров удаляет избыточные или зашумленные функции, сокращает объем памяти и вычислений и часто повышает точность последующей модели, поскольку меньше нерелевантных сигналов, которые могут ее сбить с толку.

Техническая информация

PCA работает путем вычисления ковариации признаков и поиска собственных векторов, «главных компонентов», которые указывают в направлениях максимальной дисперсии. Вы сохраняете несколько верхних компонентов и проецируете на них данные, отбрасывая направления с малой дисперсией, которые в основном представляют собой шум. Вместо этого t-SNE и UMAP моделируют отношения соседей: они пытаются сохранить точки, которые были близки в больших измерениях, близко к низкоразмерной карте. UMAP строит граф близлежащих точек, что делает его быстрее, чем t-SNE, и лучше сохраняет более широкую глобальную структуру.

Освоение уменьшения размерности

Уменьшение размерности сокращает данные из многих столбцов (функций) до нескольких, сохраняя при этом важную структуру. Он борется с «проклятием размерности», ускоряет модели и позволяет визуализировать сложные данные в 2D или 3D. Снижение размерности входит в основной набор инструментов искусственного интеллекта. Когда вы это поймете, другие темы ИИ станет легче оценивать и сравнивать. Чтобы достичь глубокого понимания, рассматривайте уменьшение размерности как операционную модель, а не как отдельную функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.

На практике сильные команды, использующие уменьшение размерности, сначала создают надежные концептуальные модели, а затем сопоставляют эти модели с реальными производственными ограничениями. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.

Это поможет вам отделить четкие технические заявления от маркетингового языка. В то же время разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.

Стратегическое воздействие

Это поможет вам отделить четкие технические заявления от маркетингового языка.

Это поможет вам отделить четкие технические заявления от маркетингового языка. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время.

Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению.

Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Будущее уменьшения размерности

Уменьшение размерности теперь является обычным шагом в более крупных конвейерах ИИ, а не отдельной задачей. UMAP во многом стал стандартом для изучения вложений из больших языковых и зрительных моделей, когда инженеры проецируют тысячи измерений на 2D-карту, чтобы проверить, чему научилась модель. Ожидайте более тесной интеграции с интерактивными панелями мониторинга, более быстрой реализации с графическим ускорением наборов данных из миллиардов строк и растущего использования в работе по интерпретации, когда исследователи сокращают внутренние активации модели, чтобы понять и отладить ее поведение.

Реальная реализация

Построение вложений слов или предложений из языковой модели в 2D с помощью UMAP, чтобы увидеть, какие понятия модель группирует вместе.

Сжатие тысяч измерений экспрессии генов на одного пациента в несколько компонентов перед кластеризацией подтипов заболеваний

Уменьшение характеристик изображения перед подачей их в классификатор, чтобы обучение происходило быстрее и было менее подвержено переобучению.

Визуализация поведения клиентов по сотням показателей в виде двухмерной диаграммы рассеяния для выявления отдельных сегментов рынка.

Шаблоны реализации

Снижение размерности на практике

Построение вложений слов или предложений из языковой модели в 2D с помощью UMAP, чтобы увидеть, какие концепции группируются вместе в модели.

Построение вложений слов или предложений из языковой модели в 2D с помощью UMAP, чтобы увидеть, какие понятия модель группирует вместе. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.

Снижение размерности на практике

Сжатие тысяч измерений экспрессии генов на одного пациента в несколько компонентов перед кластеризацией подтипов заболеваний.

Сжатие тысяч измерений экспрессии генов у каждого пациента в несколько компонентов перед кластеризацией подтипов заболеваний. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.

Снижение размерности на практике

Уменьшение характеристик изображения перед подачей их в классификатор, чтобы обучение происходило быстрее и было менее подвержено переобучению.

Сокращение характеристик изображения перед их передачей в классификатор, чтобы обучение проходило быстрее и было менее подвержено переоснащению. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Снижение размерности на практике

Визуализация поведения клиентов по сотням показателей в виде двухмерной диаграммы рассеяния для выявления отдельных сегментов рынка.

Визуализация поведения клиентов по сотням показателей в виде двухмерной диаграммы рассеяния для выявления отдельных сегментов рынка. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Риски и ограничения

!

Разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб.

!

Тесты могут выглядеть сильными, в то время как реальная производительность неравномерна.

!

Игнорирование качества данных и планов оценки часто приводит к нестабильным результатам.

Дорожная карта реализации

1

Начните с простого определения желаемого результата.

Начните с простого определения желаемого результата. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

2

Перед тестированием выберите один показатель успеха и одно условие отказа.

Перед тестированием выберите один показатель успеха и одно условие отказа. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

3

Запустите небольшой пилотный проект с репрезентативными данными, а не отточенный демонстрационный набор.

Запустите небольшой пилотный проект с репрезентативными данными, а не отточенный демонстрационный набор. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

4

Документируйте, где помогает уменьшение размерности и где более простые методы лучше.

Документируйте, где помогает уменьшение размерности и где более простые методы лучше. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Продолжайте исследовать