РЪКОВОДСТВО по основи

K-най-близки съседи

K-Nearest Neighbors (KNN) класифицира нова точка от данни, като разглежда K най-близките примери и взема мнозинство от гласовете.

Преглед

K-Nearest Neighbors (KNN) класифицира нова точка от данни, като разглежда K най-близките примери и взема мнозинство от гласовете. Има значение като един от най-простите, най-интуитивните алгоритми в машинното обучение, който не изисква почти никакво обучение.

K-Nearest Neighbors се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

KNN е „мързелив учащ“: той не извършва истинско обучение и вместо това просто съхранява целия набор от данни. За да класифицира нова точка, измерва разстоянието, обикновено евклидово, до всеки съхранен пример, намира K най-близките съседи и присвоява най-често срещания клас сред тях. За регресия вместо това осреднява стойностите на съседите. Изборът на K е от значение: малкото K е чувствително към шум и може да прекалява, докато голямото K изглажда решенията, но може да размие реалните граници. Тъй като всички функции допринасят за разстоянието, KNN изисква мащабиране на характеристиките, така че променливите с голям обхват да не доминират. Основната му слабост е скоростта на прогнозиране, тъй като всяка заявка се сравнява с целия набор от данни.

Техническа информация

KNN е непараметричен и базиран на екземпляри: той не прави предположения за формата на данните и съхранява примери, вместо да научава тегла. Метриките на разстоянието, евклидови, манхатънски или косинусови, определят „близостта“ и границата на вземане на решения, която формира, може да бъде силно неправилна. Тъй като сравнява всяка заявка с всички точки, простото търсене е бавно, така че библиотеките използват KD-дървета, топкови дървета или приблизителни индекси на най-близките съседи, за да ускорят търсенето в по-ниски измерения.

Овладяване на K-най-близките съседи

K-Nearest Neighbors (KNN) класифицира нова точка от данни, като разглежда K най-близките примери и взема мнозинство от гласовете. Има значение като един от най-простите, най-интуитивните алгоритми в машинното обучение, който не изисква почти никакво обучение. K-Nearest Neighbors се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте K-Nearest Neighbors като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно от това, което все още изисква експертна преценка.

На практика силни екипи, използващи K-най-близки съседи, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на K-най-близките съседи

Основната идея на KNN, намиране на най-сходните примери, захранва модерното векторно търсене и генериране с разширено извличане, където системите извличат най-близките вектори за вграждане, за да заземят големи езикови модели. Библиотеките с приблизителни най-близки съседи като FAISS и HNSW правят търсенето на прилики в милиард мащаб практично. Въпреки че рядко е крайният класификатор в големи тръбопроводи, принципът на най-близкия съсед е по-уместен от всякога като гръбнакът на семантичното търсене и препоръки.

Внедряване в реалния свят

Системи за препоръчване: предлагане на филми или продукти, подобни на тези, които потребителят вече е харесал.

Разпознаване на ръкописни цифри: класифициране на цифра чрез сравняването й с най-сходните етикетирани изображения.

Поддръжка на медицинска диагноза: прогнозиране на състояние въз основа на пациенти с най-сходни резултати от теста.

Семантично търсене: извличане на най-близките текстови вграждания, за да се отговори на заявка във векторна база данни.

Модели на изпълнение

K-най-близките съседи на практика

Системи за препоръчване: предлагане на филми или продукти, подобни на тези, които потребителят вече е харесал.

Системи за препоръчване: предлагане на филми или продукти, подобни на тези, които потребителят вече е харесал. Екипите обикновено получават по-добри резултати, когато определят прагове за качество предварително, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

K-най-близките съседи на практика

Разпознаване на ръкописни цифри: класифициране на цифра чрез сравняването й с най-сходните етикетирани изображения.

Разпознаване на ръкописни цифри: класифициране на цифра чрез сравняването й с най-сходните етикетирани изображения Екипите обикновено получават по-добри резултати, когато определят прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

K-най-близките съседи на практика

Поддръжка на медицинска диагноза: прогнозиране на състояние въз основа на пациенти с най-сходни резултати от теста.

Подкрепа за медицинска диагноза: прогнозиране на състояние въз основа на пациенти с най-сходни резултати от тестове Екипите обикновено получават по-добри резултати, когато определят праговете на качеството предварително, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

K-най-близките съседи на практика

Семантично търсене: извличане на най-близките текстови вграждания, за да се отговори на заявка във векторна база данни.

Семантично търсене: извличане на най-близките текстови вграждания, за да се отговори на заявка във векторна база данни. Екипите обикновено получават по-добри резултати, когато дефинират предварително прагове за качество, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде K-Nearest Neighbors помага и къде по-простите методи са по-добри.

Документирайте къде K-Nearest Neighbors помага и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате