Мова AI GUIDE

BM25 і лексичний пошук

BM25 — це класична функція ранжирування на основі ключових слів, яка оцінює документи за частотою появи термінів у запиті з урахуванням рідкості термінів і довжини документа.

Огляд

BM25 and Lexical Retrieval є частиною стеку мовного штучного інтелекту, який використовується для читання, генерації, класифікації та трансформації тексту та мови в масштабі.

Глибоке занурення

BM25 (Best Matching 25) — це функція ранжирування сумки слів із імовірнісної системи Okapi 1990-х років. Для кожного терміну запиту він об’єднує три сигнали: частоту терміну (як часто слово з’являється в документі, із зменшенням результатів, що контролюється параметром k1), зворотну частоту документа (більш рідкісні слова в колекції вважаються більшими) і нормалізацію довжини документа (параметр b, тому довгі документи не мають несправедливої переваги). Підсумуйте ці бали за семестр, і ви отримаєте рейтинг документа. Він не потребує навчання та працює надзвичайно швидко за допомогою інвертованих індексів, тому пошукові системи, такі як Elasticsearch і Lucene, використовують його за замовчуванням. Незважаючи на зростання нейронного пошуку, BM25 все ще перемагає або зрівняється з багатьма тестами, особливо для рідкісних термінів, точних ідентифікаторів і запитів поза доменом.

Технічне розуміння

Термін-частота компонента BM25 насичується: параметр k1 обмежує кількість повторюваних слів, які підвищують оцінку, тому термін, який з’являється 50 разів, не є в 50 разів релевантнішим, ніж один раз. Параметр b поєднує необроблену та нормалізовану за довжиною частоту. IDF зменшує вагу таких загальних слів, як «the», і винагороджує характерні. Оскільки він працює на основі перевернутого індексу, що відображає кожне слово у списку документів, підрахунок балів стосується лише документів, які містять терміни запиту, що робить його надзвичайно ефективним.

Освоєння BM25 і лексичного пошуку

BM25 — це класична функція ранжирування на основі ключових слів, яка оцінює документи за частотою появи термінів у запиті з урахуванням рідкості термінів і довжини документа. Десятиліття тому він залишається надзвичайно надійною та повсюдною базою для пошуку. BM25 and Lexical Retrieval є частиною стеку мовного штучного інтелекту, який використовується для читання, генерації, класифікації та трансформації тексту та мови в масштабі. Щоб побудувати глибоке розуміння, розглядайте BM25 і Lexical Retrieval як операційну модель, а не як окрему функцію: визначте бажані результати, уточніть припущення та відокремте те, що система може зробити надійно, від того, що все ще вимагає експертної оцінки.

На практиці сильні команди, які використовують BM25 і Lexical Retrieval, проектують підказки, цикли пошуку та перегляду як одну інтегровану систему зв’язку. Вони документують чіткі критерії успіху, перевіряють реалістичні дані та робочі процеси та виконують ітерацію на основі спостережуваних моделей невдач, а не одноразових перемог у тестах. Саме тут теоретичне розуміння перетворюється на довготривалу здатність щодо продуктів, політики та операцій.

Мовні робочі процеси можуть рухатися швидше без шкоди для узгодженості. У той же час галюциновані факти можуть непомітно входити у звіти, допоміжні потоки або результати досліджень. Найбільш стійкий підхід полягає в поєднанні швидкості експериментів із дисципліною управління: запускайте пілотні проекти, збирайте докази, публікуйте журнали рішень і постійно оновлюйте запобіжні заходи в міру розвитку поведінки моделі, очікувань користувачів і нормативних вимог.

Стратегічний вплив

Мовні робочі процеси можуть рухатися швидше без шкоди для узгодженості.

Мовні робочі процеси можуть рухатися швидше без шкоди для узгодженості. У високоякісних розгортаннях це перетворюється на вимірювані правила роботи, межі власності та повторювані ритуали перевірки, щоб команди могли масштабувати впевненість замість масштабування неоднозначності.

Це розширює доступ до різних мов і стилів спілкування.

Це розширює доступ до різних мов і стилів спілкування. У високоякісних розгортаннях це перетворюється на вимірювані правила роботи, межі власності та повторювані ритуали перевірки, щоб команди могли масштабувати впевненість замість масштабування неоднозначності.

Команди можуть витрачати більше часу на оцінювання, поки автоматизація справляється з повторенням.

Команди можуть витрачати більше часу на оцінювання, поки автоматизація справляється з повторенням. У високоякісних розгортаннях це перетворюється на вимірювані правила роботи, межі власності та повторювані ритуали перевірки, щоб команди могли масштабувати впевненість замість масштабування неоднозначності.

Майбутнє BM25 і лексичного пошуку

BM25 навряд чи зникне; замість цього він все частіше поєднується з нейронними методами в гібридному пошуку, де лексичні та щільні бали зливаються (часто через взаємне злиття рангів). Вивчені розріджені моделі, такі як SPLADE, поєднують розрідженість у стилі BM25 із зважуванням нейронних термінів, і BM25 часто служить першим етапом відновлення перед нейронними реранжерами. Його швидкість, можливість інтерпретації та нульові витрати на навчання гарантують тривалу роль у виробничому пошуку.

Впровадження в реальному світі

Ранжування релевантності за замовчуванням у Elasticsearch, OpenSearch і Apache Lucene/Solr

Пошук кандидатів на першому етапі, який подає повільніший нейронний реранжер у двоетапному пошуку

Пошук коду та журналу, де точні ідентифікатори та коди помилок мають точно збігатися

Видобуток важких негативних прикладів для тренування щільних ретриверів, таких як DPR

Шаблони реалізації

BM25 і лексичний пошук на практиці

Ранжування релевантності за замовчуванням у Elasticsearch, OpenSearch і Apache Lucene/Solr.

Ранжування релевантності за замовчуванням у Elasticsearch, OpenSearch і Apache Lucene/Solr Teams зазвичай отримують кращі результати, коли вони визначають порогові значення якості наперед, зберігають шлях ескалації людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

BM25 і лексичний пошук на практиці

Пошук кандидатів на першому етапі, який подає повільніший нейронний реранжер у двоетапному пошуку.

Пошук кандидатів на першому етапі, який подає повільніший нейронний реранжировщик у двоетапному пошуку. Команди зазвичай отримують кращі результати, коли заздалегідь визначають порогові значення якості, зберігають шлях ескалації людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

BM25 і лексичний пошук на практиці

Пошук коду та журналу, де точні ідентифікатори та коди помилок мають точно збігатися.

Пошук коду та журналу, де точні ідентифікатори та коди помилок мають точно збігатися. Команди зазвичай отримують кращі результати, коли заздалегідь визначають порогові значення якості, зберігають шлях ескалації людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

BM25 і лексичний пошук на практиці

Видобуток важких негативних прикладів для тренування щільних ретриверів, таких як DPR.

Видобуток важких негативних прикладів для тренування щільних ретриверів, таких як DPR Teams, зазвичай отримує кращі результати, коли вони визначають порогові значення якості наперед, зберігають шлях ескалації людини для крайніх випадків і відстежують підвищення продуктивності та витрати на помилки з часом.

Ризики та огорожі

Галюциновані факти можуть непомітно входити у звіти, допоміжні потоки або результати досліджень.

Делікатність підказок може створити суперечливі результати для подібних запитів.

Конфіденційні текстові дані можуть бути розкриті, якщо контроль доступу слабкий.

Дорожня карта впровадження

Визначте вихідний формат, тон і стандарти якості перед розгортанням.

Визначте вихідний формат, тон і стандарти якості перед розгортанням. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

Якщо точність має значення, зв’яжіться з надійними джерелами.

Якщо точність має значення, зв’яжіться з надійними джерелами. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

Тримайте контрольну точку перевірки людьми для отримання високих ставок.

Тримайте контрольну точку перевірки людьми для отримання високих ставок. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

Відстежуйте моделі збоїв і регулярно перенавчайте підказки або робочі процеси.

Відстежуйте моделі збоїв і регулярно перенавчайте підказки або робочі процеси. Розглядайте кожен крок як джерело доказів: якщо критерії не відповідають, призупиніть розгортання, закрийте прогалину й лише потім розширюйте використання.

Продовжуйте досліджувати

ChatGPT та магістра права

Подивіться, як сучасні мовні моделі породжують і міркують.

Прочитайте посібник

Основи НЛП

Вивчіть основи обробки мови, що лежать в основі цих інструментів.

Прочитайте посібник