РУКОВОДСТВО ПО ЯЗЫКУ ИИ

BM25 и лексический поиск

Обзор

BM25 и лексический поиск — это часть стека языка и искусственного интеллекта, используемого для чтения, генерации, классификации и преобразования текста и речи в любом масштабе.

Глубокое погружение

BM25 (25 лучших совпадений) — это функция ранжирования набора слов из вероятностной системы Окапи 1990-х годов. Для каждого термина запроса он объединяет три сигнала: частота термина (как часто слово появляется в документе, с убывающей отдачей, контролируемой параметром k1), обратная частота документов (более редкие слова в коллекции учитываются больше) и нормализация длины документа (параметр b, поэтому длинные документы не имеют несправедливого предпочтения). Суммируйте эти баллы за каждый термин, и вы получите рейтинг документа. Он не требует обучения и работает невероятно быстро с помощью инвертированных индексов, поэтому поисковые системы, такие как Elasticsearch и Lucene, используют его по умолчанию. Несмотря на рост популярности нейронного поиска, BM25 по-прежнему выигрывает или имеет равные результаты во многих тестах, особенно для редких терминов, точных идентификаторов и запросов из домена.

Техническая информация

Компонент частоты терминов BM25 насыщает: параметр k1 ограничивает, насколько повторяющиеся слова повышают оценку, поэтому термин, появляющийся 50 раз, не является в 50 раз более релевантным, чем один раз. Параметр b объединяет необработанную и нормализованную по длине частоту. ЦАХАЛ снижает вес таких обычных слов, как «the», и вознаграждает отличительные. Поскольку он работает на основе инвертированного индекса, сопоставляющего каждое слово со списком документов, оценка затрагивает только документы, содержащие термины запроса, что делает его чрезвычайно эффективным.

Освоение BM25 и лексического поиска

BM25 — это классическая функция ранжирования на основе ключевых слов, которая оценивает документы по частоте появления терминов запроса с поправкой на редкость термина и длину документа. Спустя десятилетия он остается чрезвычайно прочной и повсеместной основой для поиска. BM25 и лексический поиск — это часть стека языка и искусственного интеллекта, используемого для чтения, генерации, классификации и преобразования текста и речи в любом масштабе. Чтобы добиться глубокого понимания, рассматривайте BM25 и лексический поиск как операционную модель, а не как единую функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.

На практике сильные команды, использующие BM25 и лексический поиск, создают циклы подсказок, поиска и просмотра как одну интегрированную коммуникационную систему. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.

Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью. В то же время галлюцинированные факты могут незаметно войти в отчеты, потоки поддержки или результаты исследований. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.

Стратегическое воздействие

Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью.

Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Это расширяет доступ к различным языкам и стилям общения.

Это расширяет доступ к различным языкам и стилям общения. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Команды могут тратить больше времени на принятие решений, в то время как автоматизация занимается повторением.

Команды могут тратить больше времени на принятие решений, в то время как автоматизация занимается повторением. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Будущее BM25 и лексического поиска

БМ25 вряд ли исчезнет; вместо этого он все чаще сочетается с нейронными методами в гибридном поиске, где лексические и плотные оценки объединяются (часто посредством взаимного слияния рангов). Обученные разреженные модели, такие как SPLADE, сочетают в себе разреженность в стиле BM25 с нейронным взвешиванием терминов, а BM25 часто служит средством извлечения первого этапа перед нейронным переранжированием. Его скорость, интерпретируемость и нулевая стоимость обучения гарантируют его постоянную роль в поиске продукции.

Реальная реализация

Рейтинг релевантности по умолчанию в Elasticsearch, OpenSearch и Apache Lucene/Solr

Поиск кандидатов на первом этапе, который обеспечивает более медленный нейронный механизм изменения ранжирования в двухэтапном поиске.

Поиск по коду и журналу, где точные идентификаторы и коды ошибок должны точно совпадать.

Извлечение жестких отрицательных примеров для обучения плотных ретриверов, таких как DPR.

Шаблоны реализации

BM25 и лексический поиск на практике

Рейтинг релевантности по умолчанию в Elasticsearch, OpenSearch и Apache Lucene/Solr.

Ранжирование релевантности по умолчанию в Elasticsearch, OpenSearch и Apache Lucene/Solr. Команды обычно получают лучшие результаты, если заранее определяют пороговые значения качества, сохраняют возможность эскалации вручную для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

BM25 и лексический поиск на практике

Поиск кандидатов на первом этапе, который обеспечивает более медленное нейронное перераспределение рейтинга при двухэтапном поиске. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

BM25 и лексический поиск на практике

Поиск по коду и журналу, где точные идентификаторы и коды ошибок должны точно совпадать.

Поиск кода и журналов, где точные идентификаторы и коды ошибок должны точно совпадать. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

BM25 и лексический поиск на практике

Извлечение жестких негативных примеров для обучения плотных ретриверов, таких как DPR.

Анализ жестких негативных примеров для обучения плотных ретриверов, таких как команды DPR, обычно достигают лучших результатов, когда они заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Риски и ограничения

Галлюцинированные факты могут незаметно войти в отчеты, потоки поддержки или результаты исследований.

Незамедлительная чувствительность может привести к противоречивым результатам по схожим запросам.

Конфиденциальные текстовые данные могут быть раскрыты, если контроль доступа слабый.

Дорожная карта реализации

Перед развертыванием определите выходной формат, тон и стандарты качества.

Перед развертыванием определите выходной формат, тон и стандарты качества. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Наземные ответы с помощью надежных источников, когда точность имеет значение.

Наземные ответы с помощью надежных источников, когда точность имеет значение. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Обеспечьте контрольную точку человеческого контроля для получения важных результатов.

Обеспечьте контрольную точку человеческого контроля для получения важных результатов. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Отслеживайте закономерности сбоев и регулярно обновляйте подсказки или рабочие процессы.

Отслеживайте закономерности сбоев и регулярно обновляйте подсказки или рабочие процессы. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Продолжайте исследовать

ChatGPT и степень магистра права

Посмотрите, как генерируют и рассуждают современные языковые модели.

Читать руководство

Основы НЛП

Изучите основы обработки языка, лежащие в основе этих инструментов.

Читать руководство