PODSTAWOWY PRZEWODNIK

Inżynieria funkcji

Inżynieria cech to sztuka przekształcania surowych danych w dane wejściowe (cechy), które pomagają modelowi w uczeniu się.

Przegląd

Inżynieria cech to sztuka przekształcania surowych danych w dane wejściowe (cechy), które pomagają modelowi w uczeniu się. W klasycznym uczeniu maszynowym jest to często najważniejszy czynnik wpływający na dokładność, a nie wybór algorytmu.

Inżynieria funkcji znajduje się w podstawowym zestawie narzędzi AI. Kiedy to zrozumiesz, inne tematy związane ze sztuczną inteligencją staną się łatwiejsze do oceny i porównania.

Głębokie nurkowanie

Model może uczyć się jedynie na podstawie danych wejściowych, które mu przekazujesz, a surowe dane rzadko pojawiają się w użytecznej formie. Inżynieria funkcji zmienia to podejście: wyodrębnianie dnia tygodnia ze znacznika czasu, obliczanie średniego zakupu klienta, kodowanie kategorii jako liczb, skalowanie wartości do wspólnego zakresu lub łączenie kolumn w współczynniki. Dobrze wykonany, ujawnia wzorce potrzebne algorytmowi, więc prosty model oparty na świetnych funkcjach często pokonuje złożony model oparty na surowych danych. Wymaga to również znajomości domeny, ponieważ wiedza, że, powiedzmy, „transakcje na minutę” sygnalizuje oszustwo, jest tym, co tworzy potężną funkcję. Klasycznym ryzykiem jest wyciek danych, przypadkowe zbudowanie funkcji na podstawie informacji, które nie byłyby dostępne w momencie przewidywania, co zawyża wyniki testów, ale kończy się niepowodzeniem w produkcji. Głębokie uczenie się automatyzuje część tych procesów, ale problemy strukturalne/tabelaryczne nadal w dużym stopniu na tym polegają.

Wgląd techniczny

Typowe techniki obejmują normalizację lub standaryzację (skalowanie liczb, tak aby żadna pojedyncza cecha nie dominowała), kodowanie jednopunktowe lub docelowe dla zmiennych kategorycznych, kategoryzacja wartości ciągłych oraz tworzenie interakcji lub cech agregowanych. Krytyczną dyscypliną jest dopasowanie transformacji (takich jak średnia skalera i odchylenie standardowe) tylko do danych uczących, a następnie zastosowanie ich do walidacji i zbiorów testowych. Obliczanie ich na pełnym zestawie danych powoduje wyciek informacji i daje zbyt optymistyczne wyniki, które nie będą obowiązywać we wdrożeniu.

Opanowanie inżynierii funkcji

Inżynieria cech to sztuka przekształcania surowych danych w dane wejściowe (cechy), które pomagają modelowi w uczeniu się. W klasycznym uczeniu maszynowym jest to często najważniejszy czynnik wpływający na dokładność, a nie wybór algorytmu. Inżynieria funkcji znajduje się w podstawowym zestawie narzędzi AI. Kiedy to zrozumiesz, inne tematy związane ze sztuczną inteligencją staną się łatwiejsze do oceny i porównania. Aby zbudować głębokie zrozumienie, traktuj Inżynierię Cech jako model operacyjny, a nie pojedynczą funkcję: zdefiniuj pożądane wyniki, wyjaśnij założenia i oddziel to, co system może niezawodnie zrobić, od tego, co wciąż wymaga fachowej oceny.

W praktyce silne zespoły korzystające z inżynierii cech najpierw budują silne modele koncepcyjne, a następnie mapują te modele na rzeczywiste ograniczenia produkcyjne. Dokumentują wyraźne kryteria sukcesu, testują realistyczne dane i przepływy pracy oraz wykonują iteracje w oparciu o zaobserwowane wzorce niepowodzeń, a nie jednorazowe zwycięstwa w testach porównawczych. W tym miejscu teoretyczne zrozumienie zamienia się w trwałe możliwości w zakresie produktu, polityki i operacji.

Pomaga oddzielić jasne twierdzenia techniczne od języka marketingowego. Jednocześnie różne zespoły mogą używać tego samego terminu w różny sposób, dlatego należy wcześniej zdefiniować zakres. Najbardziej odporne podejście polega na połączeniu szybkości eksperymentowania z dyscypliną zarządzania: przeprowadzanie programów pilotażowych, gromadzenie dowodów, publikowanie dzienników decyzji i ciągłe aktualizowanie zabezpieczeń w miarę ewolucji zachowań modelu, oczekiwań użytkowników i wymagań prawnych.

Wpływ strategiczny

Pomaga oddzielić jasne twierdzenia techniczne od języka marketingowego.

Pomaga oddzielić jasne twierdzenia techniczne od języka marketingowego. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Możesz zadawać pytania dotyczące lepszego wdrożenia, zanim wydasz pieniądze lub czas.

Możesz zadawać pytania dotyczące lepszego wdrożenia, zanim wydasz pieniądze lub czas. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Zespoły charakteryzujące się wspólnym zrozumieniem podejmują lepsze decyzje dotyczące produktów, zasad i uczenia się.

Zespoły charakteryzujące się wspólnym zrozumieniem podejmują lepsze decyzje dotyczące produktów, zasad i uczenia się. W przypadku wdrożeń wysokiej jakości przekłada się to na mierzalne zasady działania, granice własności i rytuały cyklicznych przeglądów, dzięki czemu zespoły mogą zwiększać pewność siebie zamiast skalować niejednoznaczność.

Przyszłość inżynierii cech

Głębokie uczenie umożliwia automatyczną ekstrakcję funkcji obrazów, dźwięku i tekstu, dzięki czemu sieci uczą się reprezentacji bezpośrednio na podstawie nieprzetworzonych danych wejściowych. Jednak w przypadku danych tabelarycznych i biznesowych, które stanowią większość danych korporacyjnych, decydujące znaczenie ma przemyślana inżynieria funkcji. Obszar ten zmierza w kierunku automatyzacji (AutoML, automatyczne generowanie funkcji) i „magazynów funkcji” wielokrotnego użytku, które umożliwiają zespołom udostępnianie spójnych, dobrze przetestowanych funkcji w różnych modelach. Oczekuj większej liczby narzędzi, które sugerują funkcje i chronią przed wyciekami, podczas gdy wiedza specjalistyczna w dziedzinie ludzkiej pozostaje niezbędna do tworzenia funkcji o najwyższej wartości.

Implementacja w świecie rzeczywistym

Wykrywanie oszustw: na podstawie takich cech, jak częstotliwość transakcji, czas od ostatniego zakupu i odległość od zwykłej lokalizacji.

Prognozowanie popytu: wyodrębnianie dni tygodnia, flag świątecznych i średnich kroczących z surowych znaczników czasu sprzedaży.

Scoring kredytowy: przekształcanie surowej historii w wskaźniki takie jak dług do dochodu i liczba ostatnich opóźnień w płatnościach.

Odpływ klientów: agregowanie aktywności w funkcje takie jak liczba logowań miesięcznie i liczba dni od ostatniego zaangażowania.

Wzorce implementacyjne

Inżynieria Cech w praktyce

Wykrywanie oszustw: na podstawie takich cech, jak częstotliwość transakcji, czas od ostatniego zakupu i odległość od zwykłej lokalizacji.

Wykrywanie oszustw: funkcje pochodne, takie jak częstotliwość transakcji, czas od ostatniego zakupu i odległość od zwykłej lokalizacji. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych oraz śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Inżynieria Cech w praktyce

Prognozowanie popytu: wyodrębnianie dni tygodnia, flag świątecznych i średnich kroczących z surowych znaczników czasu sprzedaży.

Prognozowanie popytu: wyodrębnianie dni tygodnia, flag świątecznych i średnich kroczących z surowych znaczników czasu sprzedaży Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych oraz śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Inżynieria Cech w praktyce

Scoring kredytowy: przekształcanie surowej historii w wskaźniki takie jak dług do dochodu i liczba ostatnich opóźnień w płatnościach.

Scoring kredytowy: przekształcanie surowej historii w wskaźniki takie jak dług do dochodu i liczba ostatnich opóźnień w płatnościach Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych oraz śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Inżynieria Cech w praktyce

Odpływ klientów: agregowanie aktywności w funkcje takie jak liczba logowań miesięcznie i liczba dni od ostatniego zaangażowania.

Odpływ klientów: agregowanie aktywności w takie funkcje, jak liczba logowań miesięcznie i liczba dni od ostatniego zaangażowania. Zespoły zwykle uzyskują lepsze wyniki, gdy z góry zdefiniują progi jakości, utrzymują ludzką ścieżkę eskalacji w przypadku przypadków brzegowych oraz śledzą zarówno wzrost produktywności, jak i koszty błędów w czasie.

Zagrożenia i poręcze

!

Różne zespoły mogą odmiennie używać tego samego terminu, dlatego należy wcześniej zdefiniować zakres.

!

Testy porównawcze mogą wyglądać dobrze, podczas gdy wydajność w świecie rzeczywistym jest nierówna.

!

Ignorowanie planów dotyczących jakości danych i oceny często skutkuje kruchymi wynikami.

Plan wdrożenia

1

Zacznij od jasnej definicji potrzebnego wyniku.

Zacznij od jasnej definicji potrzebnego wyniku. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

2

Przed testowaniem wybierz jedną metrykę sukcesu i jeden warunek niepowodzenia.

Przed testowaniem wybierz jedną metrykę sukcesu i jeden warunek niepowodzenia. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

3

Przeprowadź mały pilotaż z reprezentatywnymi danymi, a nie dopracowanym zestawem demonstracyjnym.

Przeprowadź mały pilotaż z reprezentatywnymi danymi, a nie dopracowanym zestawem demonstracyjnym. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

4

Dokumentuj, gdzie pomaga inżynieria cech i gdzie prostsze metody są lepsze.

Dokumentuj, gdzie pomaga inżynieria cech i gdzie prostsze metody są lepsze. Traktuj każdy krok jako bramkę dowodową: jeśli kryteria nie są spełnione, wstrzymaj wdrażanie, uzupełnij lukę i dopiero wtedy zwiększ wykorzystanie.

Odkrywaj dalej