РЪКОВОДСТВО по основи

K-означава групиране

K-Means е неконтролиран алгоритъм, който автоматично сортира данните в K групи чрез намиране на центрове на клъстери.

Преглед

K-Means е неконтролиран алгоритъм, който автоматично сортира данните в K групи чрез намиране на центрове на клъстери. Има значение, защото разкрива скрита структура в немаркирани данни, от клиентски сегменти до цветове на изображението.

K-Means Clustering се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

K-Means разделя данните в избран брой клъстери, K, без никакви етикети. Започва с поставяне на K точки, наречени центроиди, често на случаен принцип. След това повтаря две стъпки: присвоява всяка точка от данни на най-близкия й центроид и премества всеки центроид до средната позиция на присвоените му точки. Тези стъпки се повтарят, докато заданията спрат да се променят, което означава, че алгоритъмът се е сближил. Целта е да се минимизира дисперсията в клъстера, общото квадратно разстояние между точките и техния център. Тъй като резултатите зависят от началните позиции, интелигентната инициализация като K-Means++ раздалечава началните центроиди. Трябва да изберете K предварително, като често се ръководите от „метода на лакътя“ на кривата на грешката.

Техническа информация

K-Means минимизира инерцията, сумата от квадратите на разстоянията от всяка точка до зададения й центроид. Цикълът присвояване след това актуализиране е процедура в стил на максимизиране на очакванията, която винаги намалява инерцията, гарантирайки сближаване до локален минимум, макар и не непременно най-доброто в световен мащаб. Предполага се, че клъстерите са приблизително сферични и подобни по размер, тъй като разчита на евклидово разстояние, така че удължени или неравномерни групи могат да го заблудят.

Овладяване на групирането на K-Means

K-Means е неконтролиран алгоритъм, който автоматично сортира данните в K групи чрез намиране на центрове на клъстери. Има значение, защото разкрива скрита структура в немаркирани данни, от клиентски сегменти до цветове на изображението. K-Means Clustering се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте K-Means Clustering като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи K-Means Clustering, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на групирането на K-Means

K-Means остава работен кон, защото е бърз и се мащабира до огромни набори от данни чрез мини-партидни версии, които актуализират центроидите на малки извадки. Продължават изследванията за автоматичен избор на K, по-интелигентна инициализация и варианти на ядро ​​или дълбоко обучение, които обработват несферични клъстери. Той все повече се използва като стъпка на предварителна обработка, компресиране на данни или генериране на характеристики преди захранване на по-сложни модели и във векторни бази данни за ускоряване на търсенето на сходство при вграждане.

Внедряване в реалния свят

Сегментиране на клиенти: групиране на купувачи по разходи и честота на посещения за насочване на маркетингови кампании.

Компресиране на цвета на изображението: намаляване на милиони пикселни цветове до K представителни нюанса, за да се намали размерът на файла.

Организация на документи: групиране на новинарски статии или билети за поддръжка по теми без предварително дефинирани категории.

Откриване на аномалии: маркиране на точки далеч от който и да е клъстерен център като потенциална измама или грешка на сензора.

Модели на изпълнение

K-означава групиране на практика

Сегментиране на клиенти: групиране на купувачи по разходи и честота на посещения за насочване на маркетингови кампании.

Сегментиране на клиентите: групиране на купувачи по разходи и честота на посещения за насочване на маркетингови кампании Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

K-означава групиране на практика

Компресиране на цвета на изображението: намаляване на милиони пикселни цветове до K представителни нюанса, за да се намали размерът на файла.

Компресиране на цвета на изображението: намаляване на милиони пикселни цветове до K представителни нюанси, за да се намали размерът на файла. Екипите обикновено получават по-добри резултати, когато определят праговете на качеството предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

K-означава групиране на практика

Организация на документи: групиране на новинарски статии или билети за поддръжка по теми без предварително дефинирани категории.

Организация на документи: групиране на новинарски статии или билети за поддръжка по тема без предварително дефинирани категории Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

K-означава групиране на практика

Откриване на аномалии: маркиране на точки далеч от който и да е клъстерен център като потенциална измама или грешка на сензора.

Откриване на аномалии: маркиране на точки далеч от който и да е клъстерен център като потенциална измама или дефекти на сензора Екипите обикновено получават по-добри резултати, когато дефинират предварително прагове за качество, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде K-Means Clustering помага и къде по-простите методи са по-добри.

Документирайте къде K-Means Clustering помага и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате