Преглед
Матрицата на объркване е проста таблица, която разделя прогнозите на класификатора на правилни и неправилни стойности за всеки клас. Това е необработената таблица с резултати, от която се изчислява почти всеки друг класификационен показател.
Матриците на объркване се намират в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.
Дълбоко гмуркане
Матрицата на объркването е решетка, сравняваща предвидените етикети с действителните етикети. За двоична класификация има четири клетки: истински положителни (правилно предвидени положителни), истински отрицателни (правилно предвидени отрицателни), фалшиви положителни (отрицателни, погрешно отбелязани като положителни, „грешка от тип I“) и фалшиви отрицателни (пропуснати положителни резултати, „грешка от тип II“). От тези четири числа извличате точност ((TP+TN)/общо), прецизност (TP/(TP+FP)), припомняне или чувствителност (TP/(TP+FN)), специфичност (TN/(TN+FP)) и резултат F1 (хармонична средна стойност на прецизност и припомняне). За проблеми с повече от два класа матрицата става N-по-N, където диагоналът съдържа правилни прогнози, а недиагоналните клетки разкриват точно кои класове се объркват за кои други.
Техническа информация
Силата на матрицата е, че запазва структурата на грешките, които едно число за точност крие. Два модела с еднаква точност от 90% могат да имат изключително различни проценти на фалшиви отрицателни резултати, което е от огромно значение, когато пропуснатата диагноза за рак струва повече от фалшива аларма. По конвенция редовете често представляват истински класове, а колоните предсказани класове (въпреки че някои библиотеки обръщат това), така че винаги проверявайте етикетите на осите, преди да изчислите точността спрямо извикването от клетките.
Овладяване на матрици на объркване
Матрицата на объркване е проста таблица, която разделя прогнозите на класификатора на правилни и неправилни стойности за всеки клас. Това е необработената таблица с резултати, от която се изчислява почти всеки друг класификационен показател. Матриците на объркване се намират в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте Матриците на объркване като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.
На практика силни екипи, използващи матрици на объркване, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.
Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.
Стратегическо въздействие
Помага ви да отделите ясните технически твърдения от маркетинговия език.
Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.
Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.
Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Внедряване в реалния свят
Диагностициране къде класификаторът на изображения се проваля, като вижда, че често бърка хъскита с вълци в недиагоналните клетки
Одитиране на инструмент за медицински скрининг чрез изследване на фалшиви негативи — пациенти с болестта, която моделът обяви за здрав
Сравняване на два имейл филтъра за нежелана поща, които споделят същата точност, но се различават по това колко реални имейла погрешно блокират (фалшиви положителни резултати)
Оценяване на многокласово разпознаване на ръкописни цифри, за да се установи, че 4 и 9 най-често се бъркат една с друга
Модели на изпълнение
Матрици на объркване на практика
Диагностика къде класификаторът на изображения се проваля, като вижда, че често бърка хъскита с вълци в недиагоналните клетки.
Диагностициране на случаите, когато класификаторът на изображения се проваля, като вижда, че често бърка хъскита с вълци в клетките извън диагонала Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество отпред, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Матрици на объркване на практика
Одитиране на инструмент за медицински скрининг чрез изследване на фалшиви негативи — пациенти с болестта, която моделът обяви за здрав.
Одитиране на инструмент за медицински скрининг чрез изследване на фалшиви отрицателни резултати — пациенти със заболяването, което моделът обяви за здрави Екипите обикновено получават по-добри резултати, когато предварително определят прагове за качество, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Матрици на объркване на практика
Сравняване на два имейл филтъра за нежелана поща, които споделят същата точност, но се различават по това колко реални имейла погрешно блокират (фалшиви положителни резултати).
Сравняване на два имейл филтъра за нежелана поща, които споделят една и съща точност, но се различават по това колко реални имейла блокират погрешно (фалшиви положителни резултати) Екипите обикновено получават по-добри резултати, когато предварително определят прагове за качество, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Матрици на объркване на практика
Оценяване на многокласово разпознаване на ръкописни цифри, за да се установи, че 4-ките и 9-ките най-често се бъркат една с друга.
Оценяване на многокласово разпознаване на ръкописни цифри, за да се установи, че 4s и 9s най-често се бъркат едни с други Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Рискове и предпазни огради
Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.
Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.
Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.
Пътна карта за изпълнение
Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.
Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Изберете един показател за успех и едно условие за неуспех преди тестване.
Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.
Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Документирайте къде матриците на объркване помагат и къде по-простите методи са по-добри.
Документирайте къде матриците на объркване помагат и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.