РЪКОВОДСТВО по основи

Прецизност и припомняне

Прецизността и припомнянето са два допълващи се показателя за оценка на класификаторите, особено когато класовете са небалансирани.

Преглед

Прецизността и припомнянето са два допълващи се показателя за оценка на класификаторите, особено когато класовете са небалансирани. Заедно те разкриват какво крие обикновената точност - колко често положителните прогнози на даден модел са верни и колко реални положителни резултати той всъщност улавя.

Precision and Recall се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

Когато модел маркира елементи като положителни, два въпроса са от значение. Прецизността пита: от всичко, което маркирахме, колко беше наистина положително? Той се равнява на истинските положителни резултати, разделени на всички прогнозирани положителни резултати, наказвайки фалшивите аларми. Припомнянето (чувствителността) пита: от всички реални позитиви там, колко сме уловили? Равнява се на истинските положителни резултати, разделени на всички действителни положителни резултати, наказващи пропуските. Те обикновено са компромис: понижаването на прага за вземане на решение улавя повече положителни резултати (по-високо запомняне), но маркира повече боклуци (по-ниска прецизност) и обратно. Кое да се приоритизира зависи от разходите – филтърът за нежелана поща предпочита прецизността (не изхвърляйте истинската поща), докато екранът за рак предпочита извикването (не пропускайте тумор). Резултатът F1, тяхната хармонична средна стойност, балансира и двете в едно число.

Техническа информация

И двата показателя идват от истинските положителни резултати (TP), фалшивите положителни резултати (FP) и фалшивите отрицателни резултати (FN) на матрицата на объркване: прецизност = TP / (TP + FP), извикване = TP / (TP + FN). Трябва да се отбележи, че нито един от тях не използва истински негативи, поради което те остават информативни, когато негативите са значително повече от положителните. Премахването на класификационния праг проследява крива на прецизност-припомняне; площта под него (средна точност) обобщава производителността и се предпочита пред ROC-AUC при силно небалансирани данни.

Овладяване на прецизност и припомняне

Прецизността и припомнянето са два допълващи се показателя за оценка на класификаторите, особено когато класовете са небалансирани. Заедно те разкриват какво крие обикновената точност - колко често положителните прогнози на даден модел са верни и колко реални положителни резултати той всъщност улавя. Precision and Recall се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте Precision и Recall като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи Precision и Recall, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на прецизността и припомнянето

Тъй като AI навлиза в области с високи залози – медицинска диагностика, модериране на съдържание, измами – екипите все повече докладват за прецизност и припомняне (и техните криви), а не само за точност, и настройват праговете, за да съответстват на разходите в реалния свят и ограниченията за справедливост. Одитите на прецизност/изземване на група се превръщат в стандарт за откриване на различни нива на грешки в демографските групи. Очаквайте по-богати показатели, чувствителни към разходите, калибрирани вероятности и инструменти, които позволяват на заинтересованите страни да избират работни точки интерактивно, вместо да приемат праг по подразбиране от 0,5.

Внедряване в реалния свят

Филтрите за нежелана поща се настройват за висока прецизност, така че законните имейли почти никога не се изпращат погрешно в папката за спам.

Медицинските скринингови тестове дават приоритет на високото припомняне, за да се избегне пропускането на пациенти, които действително имат заболяването, приемайки повече фалшиви положителни резултати за проследяване.

Системите за търсене и препоръки отчитат precision@k (колко от първите k резултати са подходящи), за да се измери качеството на класирането.

Откриването на измами балансира прецизността и припомнянето чрез оценка F1, тъй като както фалшивите аларми, така и пропуснатите измами са скъпи.

Модели на изпълнение

Прецизност и припомняне на практика

Филтрите за нежелана поща се настройват за висока прецизност, така че законните имейли почти никога не се изпращат погрешно в папката за спам.

Филтрите за нежелана поща се настройват за висока прецизност, така че легитимните имейли почти никога не се изпращат погрешно в папката за нежелана поща. Екипите обикновено получават по-добри резултати, когато предварително определят прагове за качество, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Прецизност и припомняне на практика

Медицинските скринингови тестове дават приоритет на високото припомняне, за да се избегне пропускането на пациенти, които действително имат заболяването, приемайки повече фалшиви положителни резултати за проследяване.

Медицинските скринингови тестове дават приоритет на високото припомняне, за да избегнат пропускането на пациенти, които действително имат заболяването, като приемат повече фалшиви положителни резултати за проследяване. Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешки път на ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Прецизност и припомняне на практика

Системите за търсене и препоръки отчитат precision@k (колко от първите k резултати са подходящи), за да се измери качеството на класирането.

Системите за търсене и препоръки отчитат precision@k (колко от най-добрите k резултати са релевантни), за да измерват качеството на класирането. Екипите обикновено получават по-добри резултати, когато дефинират предварително прагове за качество, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Прецизност и припомняне на практика

Откриването на измами балансира прецизността и припомнянето чрез оценка F1, тъй като както фалшивите аларми, така и пропуснатите измами са скъпи.

Откриването на измами балансира прецизността и припомнянето чрез оценка F1, тъй като както фалшивите аларми, така и пропуснатите измами са скъпи. Екипите обикновено получават по-добри резултати, когато предварително определят прагове за качество, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде прецизността и припомнянето помагат и къде по-простите методи са по-добри.

Документирайте къде прецизността и припомнянето помагат и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате