Alapok ÚTMUTATÓ

Pontosság és visszahívás

A pontosság és az előhívás két egymást kiegészítő mérőszám az osztályozók értékeléséhez, különösen akkor, ha az osztályok kiegyensúlyozatlanok.

Áttekintés

A pontosság és az előhívás két egymást kiegészítő mérőszám az osztályozók értékeléséhez, különösen akkor, ha az osztályok kiegyensúlyozatlanok. Együtt felfedik, mit rejt az egyszerű pontosság – milyen gyakran igazak a modell pozitív előrejelzései, és mennyi valós pozitívumot ragad meg valójában.

A Precision and Recall az AI eszközkészletben található. Ha megérti, más AI témák könnyebben értékelhetők és összehasonlíthatók.

Mély merülés

Amikor egy modell pozitívként jelöli meg az elemeket, két kérdés számít. A Precision azt kérdezi: mindabból, amit megjelöltünk, mennyi volt az igazán pozitív? Ez egyenlő a valódi pozitív értékek osztva az összes előrejelzett pozitív értékkel, ami bünteti a téves riasztásokat. A visszahívás (érzékenység) azt kérdezi: az összes valódi pozitívum közül hányat fogtunk ki? Ez egyenlő a valódi pozitívumok osztva az összes tényleges pozitív értékkel, ami bünteti a kihagyásokat. Ezek általában megegyeznek: a döntési küszöb csökkentése több pozitívumot (magasabb visszahívást) fog ki, de több szemetet jelez (alacsonyabb pontosság), és fordítva. A költségektől függ, hogy melyiket kell előnyben részesíteni – a spamszűrő a precizitást részesíti előnyben (ne dobja kukába a valódi leveleket), míg a rákszűrés a visszahívást (ne hagyja ki a daganatot). Az F1 pontszám, harmonikus átlaguk mindkettőt egy számban egyensúlyozza.

Technikai betekintés

Mindkét mérőszám a zavaros mátrix valódi pozitív (TP), hamis pozitív (FP) és hamis negatív (FN) értékéből származik: Pontosság = TP / (TP + FP), Visszahívás = TP / (TP + FN). Figyelemre méltó, hogy egyik sem használ valódi negatívumot, ezért továbbra is informatívak maradnak, amikor a negatívok száma jóval meghaladja a pozitívakat. Az osztályozási küszöb áthúzása precíziós-visszahívási görbét mutat; az alatta lévő terület (átlagos precizitás) összegzi a teljesítményt, és előnyben részesítik a ROC-AUC-val szemben erősen kiegyensúlyozatlan adatok esetén.

A pontosság és a visszahívás elsajátítása

A pontosság és az előhívás két egymást kiegészítő mérőszám az osztályozók értékeléséhez, különösen akkor, ha az osztályok kiegyensúlyozatlanok. Együtt felfedik, mit rejt az egyszerű pontosság – milyen gyakran igazak a modell pozitív előrejelzései, és mennyi valós pozitívumot ragad meg valójában. A Precision and Recall az AI eszközkészletben található. Ha megérti, más AI témák könnyebben értékelhetők és összehasonlíthatók. A mélyreható megértés kialakítása érdekében a Precision and Recallt működési modellként kezelje, ne egyetlen jellemzőként: határozza meg a kívánt eredményeket, tisztázza a feltételezéseket, és válassza szét azt, amit a rendszer megbízhatóan képes elvégezni, attól, ami még szakértői megítélést igényel.

A gyakorlatban a Precision and Recallt használó erős csapatok először erős koncepcionális modelleket készítenek, majd ezeket a modelleket leképezik a valós gyártási korlátokhoz. Dokumentálják az explicit sikerkritériumokat, tesztelik a valósághű adatokat és munkafolyamatokat, és a megfigyelt hibaminták alapján iterálnak, nem pedig egyszeri benchmark győzelmek alapján. Ez az a hely, ahol az elméleti megértés tartós képességgé válik a termék, a politika és a műveletek között.

Segít elkülöníteni a világos technikai állításokat a marketing nyelvezettől. Ugyanakkor a különböző csapatok eltérően használhatják ugyanazt a kifejezést, ezért korán határozza meg a hatókört. A legrugalmasabb megközelítés a kísérleti sebesség és az irányítási fegyelem kombinálása: kísérleti kísérletek futtatása, bizonyítékok rögzítése, döntési naplók közzététele és a biztosítékok folyamatos frissítése a modell viselkedésének, a felhasználói elvárásoknak és a szabályozási követelményeknek megfelelően.

Stratégiai hatás

Segít elkülöníteni a világos technikai állításokat a marketing nyelvezettől.

Segít elkülöníteni a világos technikai állításokat a marketing nyelvezettől. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

Feltehet jobb végrehajtási kérdéseket, mielőtt pénzt vagy időt költene.

Feltehet jobb végrehajtási kérdéseket, mielőtt pénzt vagy időt költene. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A közös tudással rendelkező csapatok jobb döntéseket hoznak a termékekkel, irányelvekkel és tanulással kapcsolatban.

A közös tudással rendelkező csapatok jobb döntéseket hoznak a termékekkel, irányelvekkel és tanulással kapcsolatban. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A pontosság és visszahívás jövője

Ahogy a mesterséges intelligencia belép a nagy téttel bíró területekre – orvosi diagnózis, tartalom moderálása, csalás –, a csapatok egyre gyakrabban számolnak be a pontosságról és a visszahívásról (és görbéikről), nem pedig a pontosságról, és a küszöbértékeket a valós költségekhez és a méltányossági korlátokhoz igazítják. A csoportonkénti precíziós/visszahívási auditok szabványossá válnak a demográfiai csoportok közötti eltérő hibaarányok kimutatására. Gazdagabb költségérzékeny mérőszámokra, kalibrált valószínűségekre és olyan eszközökre számíthat, amelyek lehetővé teszik az érdekeltek számára, hogy interaktív módon válasszák ki a működési pontokat az alapértelmezett 0,5-ös küszöb elfogadása helyett.

Valós megvalósítás

A levélszemétszűrők nagy pontosságúra hangolódnak, így a jogos e-mailek szinte soha nem kerülnek tévesen a spam mappába.

Az orvosi szűrővizsgálatok prioritásként kezelik a magas visszahívást, hogy elkerüljék a ténylegesen betegségben szenvedő betegek hiányát, és több hamis pozitív eredményt fogadjanak el a nyomon követésre.

A keresési és ajánlási rendszerek a precision@k jelentést jelentik (az első k találat közül hány releváns) a rangsor minőségének mérésére.

A csalásészlelés egyensúlyba hozza a pontosságot és a visszahívást az F1-es pontszámon keresztül, mivel mind a téves riasztások, mind az elmulasztott csalások költségesek.

Megvalósítási minták

Precízió és visszahívás a gyakorlatban

A levélszemétszűrők nagy pontosságúra hangolódnak, így a jogos e-mailek szinte soha nem kerülnek tévesen a spam mappába.

A levélszemétszűrők nagy pontosságúra hangolódnak, így a jogos e-mailek szinte soha nem kerülnek tévesen a levélszemét mappába. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböt, emberi eszkalációs útvonalat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket az idő múlásával.

Precízió és visszahívás a gyakorlatban

Az orvosi szűrővizsgálatok prioritásként kezelik a magas visszahívást, hogy elkerüljék a ténylegesen betegségben szenvedő betegek hiányát, és több hamis pozitív eredményt fogadjanak el a nyomon követésre.

Az orvosi szűrővizsgálatok kiemelten fontosnak tartják a visszahívást, hogy elkerüljék a ténylegesen betegségben szenvedő betegek hiányát, és több hamis pozitív eredményt fogadnak el a nyomon követésre. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, megtartják az emberi eszkalációs utat a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

Precízió és visszahívás a gyakorlatban

A keresési és ajánlási rendszerek a precision@k jelentést jelentik (az első k találat közül hány releváns) a rangsor minőségének mérésére.

A kereső- és ajánlórendszerek a precision@k jelentést jelentik (az első k találat közül hány releváns) a rangsorolás minőségének méréséhez. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, emberi eszkalációs utat tartanak a szélsőséges eseteknél, és nyomon követik mind a termelékenységnövekedést, mind a hibaköltségeket az idő múlásával.

Precízió és visszahívás a gyakorlatban

A csalásészlelés egyensúlyba hozza a pontosságot és a visszahívást az F1-es pontszámon keresztül, mivel mind a téves riasztások, mind az elmulasztott csalások költségesek.

A csalásészlelés egyensúlyba hozza a pontosságot és a visszahívást az F1-es pontszámon keresztül, mivel a téves riasztások és az elmulasztott csalások is költségesek. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböt, emberi eszkalációs utat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

Kockázatok és védőkorlátok

!

A különböző csapatok eltérően használhatják ugyanazt a kifejezést, ezért korán határozza meg a hatókört.

!

A benchmarkok erősnek tűnhetnek, miközben a valós teljesítmény egyenetlen.

!

Az adatminőségi és értékelési tervek figyelmen kívül hagyása gyakran törékeny eredményekhez vezet.

Végrehajtási ütemterv

1

Kezdje a kívánt eredmény egyszerű nyelvű meghatározásával.

Kezdje a kívánt eredmény egyszerű nyelvű meghatározásával. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

2

A tesztelés előtt válasszon egy sikermutatót és egy hibafeltételt.

A tesztelés előtt válasszon egy sikermutatót és egy hibafeltételt. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

3

Futtasson egy kis pilotot reprezentatív adatokkal, ne egy csiszolt demókészlettel.

Futtasson egy kis pilotot reprezentatív adatokkal, ne egy csiszolt demókészlettel. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

4

Dokumentálja, ahol a Precision and Recall segít, és hol jobbak az egyszerűbb módszerek.

Dokumentálja, ahol a Precision and Recall segít, és hol jobbak az egyszerűbb módszerek. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

Folytassa a felfedezést