Език AI РЪКОВОДСТВО

Модели TF-IDF и Bag-of-Words

Bag-of-words превръща текста в преброяване на думи, като игнорира реда, а TF-IDF претегля тези преброявания, така че редките, отличителни думи са по-важни от обичайните.

Преглед

Bag-of-words превръща текста в преброяване на думи, като игнорира реда, а TF-IDF претегля тези преброявания, така че редките, отличителни думи са по-важни от обичайните. Заедно те бяха работните коне на търсенето и класифицирането на текст преди дълбокото обучение.

Моделите TF-IDF и Bag-of-Words са част от стека език-AI, използван за четене, генериране, класифициране и трансформиране на текст и реч в мащаб.

Дълбоко гмуркане

Моделът на чантата с думи (BoW) представя документ като вектор от преброяване на думи, отхвърляйки граматиката и словореда: „кучето ухапа човека“ и „човекът ухапа кучето“ изглеждат идентични. Тази простота работи изненадващо добре за много задачи. TF-IDF прецизира BoW, като претегля термините. Честотата на термините (TF) измерва колко често се появява дума в документ, докато обратната честота на документа (IDF) намалява думите, които се появяват в много документи. Умножаването им дава високи резултати на думи, които са чести в един документ, но рядко срещани в колекцията, като отличителна ключова дума за тема, докато общи думи като „the“ получават почти нулева тежест. TF-IDF вектори захранват класирането при търсене по ключови думи и захранват класически класификатори като Naive Bayes и SVM.

Техническа информация

IDF обикновено се изчислява като log(N / df), където N е общият брой документи, а df е броят на документите, съдържащи термина, така че една дума във всеки документ дава IDF близо до нула. Крайният TF-IDF резултат е TF, умножен по IDF. Векторите на документи обикновено са L2-нормализирани и се сравняват с косинусово сходство, което измерва ъгъла между векторите и игнорира разликите в дължината на документа.

Овладяване на модели TF-IDF и Bag-of-Words

Bag-of-words превръща текста в преброяване на думи, като игнорира реда, а TF-IDF претегля тези преброявания, така че редките, отличителни думи са по-важни от обичайните. Заедно те бяха работните коне на търсенето и класифицирането на текст преди дълбокото обучение. Моделите TF-IDF и Bag-of-Words са част от стека език-AI, използван за четене, генериране, класифициране и трансформиране на текст и реч в мащаб. За да изградите дълбоко разбиране, третирайте моделите TF-IDF и Bag-of-Words като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи модели TF-IDF и Bag-of-Words, проектират цикли за подкани, извличане и преглед като една интегрирана комуникационна система. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Езиковите работни процеси могат да се движат по-бързо, без да се жертва последователността. В същото време халюцинираните факти могат тихо да влизат в отчети, поддържащи потоци или резултати от изследвания. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Езиковите работни процеси могат да се движат по-бързо, без да се жертва последователността.

Езиковите работни процеси могат да се движат по-бързо, без да се жертва последователността. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Той разширява достъпа между езици и стилове на комуникация.

Той разширява достъпа между езици и стилове на комуникация. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипите могат да отделят повече време за преценка, докато автоматизацията се справя с повторението.

Екипите могат да отделят повече време за преценка, докато автоматизацията се справя с повторението. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на моделите TF-IDF и Bag-of-Words

Плътните невронни вграждания и трансформиращите модели сега улавят реда на думите и означават, че BoW и TF-IDF не могат, така че дълбоките модели доминират в най-съвременното НЛП. И все пак TF-IDF остава бърза, интерпретируема базова линия с малко ресурси, която е трудно да се победи за търсене по ключови думи, и все още е в основата на хибридни системи за извличане, където оскъдни TF-IDF/BM25 резултати се комбинират с плътни вграждания, за да се подобри търсенето и разширеното генериране на извличане.

Внедряване в реалния свят

Търсачките класират документи от TF-IDF или неговия наследник BM25 спрямо заявка

Филтри за нежелана поща, използвайки функции за пакет от думи, въведени в Naive Bayes класификатор

Извличане на ключови думи или етикети от статия чрез избиране на нейните най-високи TF-IDF условия

Препоръчване на подобни новинарски статии чрез сравняване на TF-IDF вектори с косинусово сходство

Модели на изпълнение

TF-IDF и Bag-of-Words модели на практика

Търсачките класират документи от TF-IDF или неговия наследник BM25 спрямо заявка.

Търсачките класират документите от TF-IDF или неговия наследник BM25 спрямо заявка. Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

TF-IDF и Bag-of-Words модели на практика

Филтри за нежелана поща, използвайки функции за пакет от думи, въведени в Naive Bayes класификатор.

Филтри за нежелана поща, използвайки функции за пакет от думи, въведени в Naive Bayes класификатор. Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

TF-IDF и Bag-of-Words модели на практика

Извличане на ключови думи или етикети от статия чрез избиране на нейните най-високи TF-IDF условия.

Извличане на ключови думи или етикети от статия чрез избиране на нейните най-високи TF-IDF термини Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

TF-IDF и Bag-of-Words модели на практика

Препоръчване на подобни новинарски статии чрез сравняване на TF-IDF вектори с косинусово сходство.

Препоръчване на подобни новинарски статии чрез сравняване на TF-IDF вектори с косинусово сходство Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Халюцинираните факти могат тихо да влязат в отчети, потоци за поддръжка или резултати от изследвания.

!

Бързата чувствителност може да създаде противоречиви резултати при подобни заявки.

!

Чувствителните текстови данни могат да бъдат разкрити, ако контролите за достъп са слаби.

Пътна карта за изпълнение

1

Определете изходен формат, тон и стандарти за качество преди внедряване.

Определете изходен формат, тон и стандарти за качество преди внедряване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Наземни отговори с доверени източници винаги, когато точността има значение.

Наземни отговори с доверени източници винаги, когато точността има значение. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Поддържайте контролна точка за човешки преглед за изходи с високи залози.

Поддържайте контролна точка за човешки преглед за изходи с високи залози. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Проследявайте моделите на неуспехи и редовно обучавайте подкани или работни потоци.

Проследявайте моделите на неуспехи и редовно обучавайте подкани или работни потоци. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате