РЪКОВОДСТВО по основи

Инженеринг на характеристиките

Инженерингът на функции е занаятът за превръщане на необработените данни в информативни входове (характеристики), които помагат на модела да се учи.

Преглед

Инженерингът на функции е занаятът за превръщане на необработените данни в информативни входове (характеристики), които помагат на модела да се учи. В класическото машинно обучение това често е най-големият двигател на точността, повече от избора на алгоритъм.

Инженерингът на функции се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

Един модел може да се учи само от входните данни, които му давате, а суровите данни рядко пристигат в полезна форма. Инженерингът на функции го преоформя: извличане на деня от седмицата от клеймо за време, изчисляване на средната покупка на клиента, кодиране на категории като числа, мащабиране на стойности до общ диапазон или комбиниране на колони в съотношения. Направено добре, то разкрива моделите, от които се нуждае алгоритъмът, така че прост модел на страхотни функции често бие сложен модел на необработени данни. Това също изисква познаване на домейна, тъй като знанието, че, да речем, „транзакции в минута“ сигнализира за измама е това, което създава мощна функция. Класическият риск е изтичане на данни, случайно изграждане на функция от информация, която не би била налична в момента на прогнозиране, което увеличава резултатите от теста, но се проваля в производството. Дълбокото обучение автоматизира част от това, но структурираните/таблични проблеми все още разчитат в голяма степен на него.

Техническа информация

Общите техники включват нормализация или стандартизация (мащабиране на числа, така че нито една функция да не доминира), еднократно или целево кодиране за категорични променливи, групиране на непрекъснати стойности и създаване на взаимодействие или агрегатни характеристики. Критична дисциплина е монтиране на трансформации (като средна стойност и стандартно отклонение на скалер) само върху данните за обучение, след което прилагането им към набори за валидиране и тестване. Изчисляването им върху пълния набор от данни води до изтичане на информация и дава прекалено оптимистични резултати, които няма да се задържат при внедряване.

Овладяване на Feature Engineering

Инженерингът на функции е занаятът за превръщане на необработените данни в информативни входове (характеристики), които помагат на модела да се учи. В класическото машинно обучение това често е най-големият двигател на точността, повече от избора на алгоритъм. Инженерингът на функции се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте Feature Engineering като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи Feature Engineering, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на инженерството на характеристиките

Дълбокото обучение има автоматизирано извличане на функции за изображения, аудио и текст, където мрежите научават представяния директно от необработени входове. Но за таблични и бизнес данни, които са повечето корпоративни данни, обмисленото проектиране на функции остава решаващо. Полето се измества към автоматизация (AutoML, автоматизирано генериране на функции) и повторно използваеми „хранилища за функции“, които позволяват на екипите да споделят последователни, добре тествани функции в различните модели. Очаквайте повече инструменти, които предлагат функции и предпазват от изтичане, докато експертизата в човешкия домейн остава от съществено значение за характеристиките с най-висока стойност.

Внедряване в реалния свят

Откриване на измами: извличане на функции като честота на транзакция, време от последната покупка и разстояние от обичайното местоположение.

Прогнозиране на търсенето: извличане на знамена за ден от седмицата, празници и пълзящи средни стойности от необработени времеви клейма на продажбите.

Кредитен скоринг: превръщане на необработената история в съотношения като дълг към доход и брой скорошни закъснели плащания.

Изтичане на клиенти: обобщаване на активността в функции като влизания на месец и дни от последното ангажиране.

Модели на изпълнение

Feature Engineering на практика

Откриване на измами: извличане на функции като честота на транзакция, време от последната покупка и разстояние от обичайното местоположение.

Откриване на измами: извличане на характеристики като честота на транзакция, време от последната покупка и разстояние от обичайното местоположение Екипите обикновено получават по-добри резултати, когато предварително определят прагове за качество, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Feature Engineering на практика

Прогнозиране на търсенето: извличане на знамена за ден от седмицата, празници и пълзящи средни стойности от необработени времеви клейма на продажбите.

Прогнозиране на търсенето: извличане на флагове за ден от седмицата, празници и подвижни средни стойности от необработени времеви клейма на продажби Екипите обикновено получават по-добри резултати, когато предварително определят праговете на качеството, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Feature Engineering на практика

Кредитен скоринг: превръщане на необработената история в съотношения като дълг към доход и брой скорошни закъснели плащания.

Кредитен точкуване: превръщане на необработената история в съотношения като дълг към доход и броя на скорошни закъснели плащания Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Feature Engineering на практика

Изтичане на клиенти: обобщаване на активността в функции като влизания на месец и дни от последното ангажиране.

Изтичане на клиенти: агрегиране на активността в функции като влизания на месец и дни от последното ангажиране Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде Feature Engineering помага и къде по-простите методи са по-добри.

Документирайте къде Feature Engineering помага и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате