РУКОВОДСТВО ПО ОСНОВАМ

Особенности проектирования

Разработка функций — это искусство превращения необработанных данных в информативные входные данные (функции), которые помогают модели учиться.

Обзор

Разработка функций — это искусство превращения необработанных данных в информативные входные данные (функции), которые помогают модели учиться. В классическом машинном обучении это часто является самым важным фактором точности, а не выбором алгоритма.

Разработка функций входит в основной набор инструментов искусственного интеллекта. Когда вы это поймете, другие темы ИИ станет легче оценивать и сравнивать.

Глубокое погружение

Модель может учиться только на тех входных данных, которые вы ей предоставляете, а необработанные данные редко поступают в полезной форме. Разработка функций меняет его: извлечение дня недели из временной метки, вычисление средней покупки клиента, кодирование категорий в виде чисел, масштабирование значений до общего диапазона или объединение столбцов в соотношения. Если все сделано правильно, он раскрывает закономерности, необходимые алгоритму, поэтому простая модель с отличными функциями часто превосходит сложную модель на необработанных данных. Это также требует знания предметной области, поскольку знание того, что, скажем, «транзакции в минуту» сигнализирует о мошенничестве, создает мощную функцию. Классический риск — это утечка данных, случайное создание функции на основе информации, которая не будет доступна во время прогнозирования, что приводит к завышению результатов тестов, но терпит неудачу в работе. Глубокое обучение автоматизирует некоторые из этих операций, но структурированные/табличные задачи по-прежнему во многом зависят от него.

Техническая информация

Общие методы включают нормализацию или стандартизацию (масштабирование чисел, чтобы ни один признак не доминировал), горячее или целевое кодирование для категориальных переменных, объединение непрерывных значений и создание взаимодействующих или агрегированных признаков. Важнейшей дисциплиной является подгонка преобразований (таких как среднее и стандартное отклонение масштабатора) только к обучающим данным, а затем их применение к проверочным и тестовым наборам. Их вычисление на основе полного набора данных приводит к утечке информации и дает чрезмерно оптимистичные результаты, которые не сохранятся при развертывании.

Освоение разработки функций

Разработка функций — это искусство превращения необработанных данных в информативные входные данные (функции), которые помогают модели учиться. В классическом машинном обучении это часто является самым важным фактором точности, а не выбором алгоритма. Разработка функций входит в основной набор инструментов искусственного интеллекта. Когда вы это поймете, другие темы ИИ станет легче оценивать и сравнивать. Чтобы достичь глубокого понимания, рассматривайте проектирование функций как операционную модель, а не как отдельную функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.

На практике сильные команды, использующие Feature Engineering, сначала создают надежные концептуальные модели, а затем сопоставляют эти модели с реальными производственными ограничениями. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.

Это поможет вам отделить четкие технические заявления от маркетингового языка. В то же время разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.

Стратегическое воздействие

Это поможет вам отделить четкие технические заявления от маркетингового языка.

Это поможет вам отделить четкие технические заявления от маркетингового языка. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время.

Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению.

Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Будущее разработки функций

Глубокое обучение позволяет автоматически извлекать признаки из изображений, аудио и текста, при этом сети изучают представления непосредственно из необработанных входных данных. Но для табличных и бизнес-данных, а именно для большинства корпоративных данных, решающее значение остается продуманная разработка функций. Эта область смещается в сторону автоматизации (AutoML, автоматическое создание функций) и многоразовых «хранилищ функций», которые позволяют командам совместно использовать согласованные, хорошо протестированные функции в разных моделях. Ожидайте больше инструментов, которые предлагают функции и защищают от утечек, в то время как человеческий опыт остается важным для наиболее ценных функций.

Реальная реализация

Обнаружение мошенничества: получение таких характеристик, как частота транзакций, время с момента последней покупки и расстояние от обычного местоположения.

Прогнозирование спроса: извлечение дней недели, флагов праздников и скользящих средних значений из необработанных временных меток продаж.

Кредитный скоринг: превращение необработанной истории в соотношения, такие как соотношение долга к доходу и подсчет недавних просроченных платежей.

Отток клиентов: агрегирование активности в такие функции, как количество входов в систему в месяц и дней с момента последнего взаимодействия.

Шаблоны реализации

Функциональное проектирование на практике

Обнаружение мошенничества: получение таких характеристик, как частота транзакций, время с момента последней покупки и расстояние от обычного местоположения.

Обнаружение мошенничества: получение таких функций, как частота транзакций, время с момента последней покупки и расстояние от обычного местоположения. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Функциональное проектирование на практике

Прогнозирование спроса: извлечение дней недели, флагов праздников и скользящих средних значений из необработанных временных меток продаж.

Прогнозирование спроса: извлечение дней недели, флагов праздников и скользящих средних значений из необработанных временных меток продаж. Команды обычно получают лучшие результаты, если заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Функциональное проектирование на практике

Кредитный скоринг: превращение необработанной истории в соотношения, такие как соотношение долга к доходу и подсчет недавних просроченных платежей.

Кредитный скоринг: преобразование необработанной истории в такие соотношения, как долг к доходу и количество недавних просроченных платежей. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Функциональное проектирование на практике

Отток клиентов: агрегирование активности в такие функции, как количество входов в систему в месяц и дней с момента последнего взаимодействия.

Отток клиентов: агрегирование активности в такие функции, как количество входов в систему в месяц и дни с момента последнего взаимодействия. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Риски и ограничения

!

Разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб.

!

Тесты могут выглядеть сильными, в то время как реальная производительность неравномерна.

!

Игнорирование качества данных и планов оценки часто приводит к нестабильным результатам.

Дорожная карта реализации

1

Начните с простого определения желаемого результата.

Начните с простого определения желаемого результата. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

2

Перед тестированием выберите один показатель успеха и одно условие отказа.

Перед тестированием выберите один показатель успеха и одно условие отказа. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

3

Запустите небольшой пилотный проект с репрезентативными данными, а не отточенный демонстрационный набор.

Запустите небольшой пилотный проект с репрезентативными данными, а не отточенный демонстрационный набор. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

4

Документируйте, где помогает разработка функций и где более простые методы лучше.

Документируйте, где помогает разработка функций и где более простые методы лучше. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Продолжайте исследовать