GUIDE IA du langage

BM25 et récupération lexicale

Aperçu

BM25 et Lexical Retrieval font partie de la pile langage-IA utilisée pour lire, générer, classer et transformer du texte et de la parole à grande échelle.

Plongée profonde

BM25 (Best Matching 25) est une fonction de classement par sac de mots issue du cadre probabiliste Okapi des années 1990. Pour chaque terme de requête, il combine trois signaux : la fréquence du terme (la fréquence à laquelle le mot apparaît dans un document, avec des rendements décroissants contrôlés par un paramètre k1), la fréquence inverse du document (les mots les plus rares dans la collection comptent davantage) et la normalisation de la longueur du document (paramètre b, afin que les documents longs ne soient pas injustement favorisés). Additionnez ces scores par trimestre et vous obtenez le classement du document. Il ne nécessite aucune formation et s'exécute à une vitesse fulgurante via des index inversés, c'est pourquoi les moteurs de recherche comme Elasticsearch et Lucene l'utilisent par défaut. Malgré l'essor de la récupération neuronale, BM25 continue de gagner ou d'être à égalité dans de nombreux benchmarks, en particulier pour les termes rares, les identifiants exacts et les requêtes hors domaine.

Aperçu technique

La composante terme-fréquence du BM25 sature : le paramètre k1 limite la quantité de mots répétés qui améliorent un score, de sorte qu'un terme apparaissant 50 fois n'est pas 50 fois plus pertinent qu'une fois. Le paramètre b mélange la fréquence brute et la fréquence normalisée en longueur. La FID minimise les mots courants comme « le » et récompense les mots distinctifs. Parce qu'il fonctionne sur un index inversé mappant chaque mot à sa liste de documents, le scoring ne touche que les documents contenant des termes de requête, ce qui le rend extrêmement efficace.

Maîtriser le BM25 et la récupération lexicale

BM25 est la fonction de classement classique basée sur des mots clés qui classe les documents en fonction de la fréquence d'apparition des termes de requête, ajustés en fonction de la rareté des termes et de la longueur du document. Vieille de plusieurs décennies, elle reste une référence de recherche remarquablement solide et omniprésente. BM25 et Lexical Retrieval font partie de la pile langage-IA utilisée pour lire, générer, classer et transformer du texte et de la parole à grande échelle. Pour développer une compréhension approfondie, traitez BM25 et la récupération lexicale comme un modèle opérationnel et non comme une fonctionnalité unique : définissez les résultats souhaités, clarifiez les hypothèses et séparez ce que le système peut faire de manière fiable de ce qui nécessite encore un jugement d'expert.

Dans la pratique, des équipes solides utilisant BM25 et Lexical Retrieval conçoivent des invites, des récupérations et des boucles de révision comme un seul système de communication intégré. Ils documentent des critères de réussite explicites, testent par rapport à des données et des flux de travail réalistes et itèrent en fonction des modèles d'échec observés plutôt que des victoires de référence ponctuelles. C’est là que la compréhension théorique se transforme en capacité durable au niveau des produits, des politiques et des opérations.

Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence. Dans le même temps, les faits hallucinés peuvent discrètement entrer dans des rapports, des flux de support ou des résultats de recherche. L'approche la plus résiliente consiste à combiner vitesse d'expérimentation et discipline de gouvernance : exécuter des projets pilotes, capturer des preuves, publier des journaux de décision et mettre à jour en permanence les protections à mesure que le comportement du modèle, les attentes des utilisateurs et les exigences réglementaires évoluent.

Impact stratégique

Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence.

Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

Il étend l’accès à toutes les langues et styles de communication.

Il étend l’accès à toutes les langues et styles de communication. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

Les équipes peuvent consacrer plus de temps au jugement tandis que l’automatisation gère les répétitions.

Les équipes peuvent consacrer plus de temps au jugement tandis que l’automatisation gère les répétitions. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

L'avenir du BM25 et de la récupération lexicale

Il est peu probable que le BM25 disparaisse ; au lieu de cela, il est de plus en plus associé à des méthodes neuronales dans la récupération hybride, où les scores lexicaux et denses sont fusionnés (souvent via une fusion de rangs réciproques). Les modèles clairsemés appris comme SPLADE mélangent la parcimonie de style BM25 avec une pondération des termes neuronaux, et BM25 sert fréquemment de récupérateur de premier étage avant les reclassements neuronaux. Sa rapidité, son interprétabilité et son coût de formation nul garantissent un rôle durable dans la recherche de production.

Mise en œuvre dans le monde réel

Classement de pertinence par défaut dans Elasticsearch, OpenSearch et Apache Lucene/Solr

Récupération de candidats de première étape qui alimente un reclasseur neuronal plus lent dans une recherche en deux étapes

Recherche de codes et de journaux où les identifiants exacts et les codes d'erreur doivent correspondre précisément

Exploiter des exemples négatifs pour former des récupérateurs denses comme DPR

Modèles de mise en œuvre

BM25 et récupération lexicale en pratique

Classement de pertinence par défaut dans Elasticsearch, OpenSearch et Apache Lucene/Solr.

Le classement de pertinence par défaut dans Elasticsearch, OpenSearch et Apache Lucene/Solr Teams obtient généralement de meilleurs résultats lorsqu'il définit des seuils de qualité à l'avance, maintient un chemin de remontée humain pour les cas extrêmes et suit à la fois les gains de productivité et les coûts d'erreur au fil du temps.

BM25 et récupération lexicale en pratique

Récupération de candidats de première étape qui alimente un reclasseur neuronal plus lent dans une recherche en deux étapes.

Récupération de candidats de première étape qui alimente un reclassement neuronal plus lent dans la recherche en deux étapes. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

BM25 et récupération lexicale en pratique

Recherche de codes et de journaux où les identifiants exacts et les codes d'erreur doivent correspondre précisément.

Recherche de codes et de journaux où les identifiants exacts et les codes d'erreur doivent correspondre précisément. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin de remontée humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

BM25 et récupération lexicale en pratique

Exploiter des exemples négatifs pour former des récupérateurs denses comme DPR.

Exploiter des exemples négatifs concrets pour former des récupérateurs denses comme les équipes DPR obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Risques et garde-fous

Les faits hallucinés peuvent discrètement entrer dans des rapports, des flux de support ou des résultats de recherche.

La sensibilité des invites peut créer des résultats incohérents pour des demandes similaires.

Les données textuelles sensibles peuvent être exposées si les contrôles d’accès sont faibles.

Feuille de route de mise en œuvre

Définissez le format de sortie, le ton et les normes de qualité avant le déploiement.

Définissez le format de sortie, le ton et les normes de qualité avant le déploiement. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Établissez des réponses auprès de sources fiables chaque fois que la précision est importante.

Établissez des réponses auprès de sources fiables chaque fois que la précision est importante. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Gardez un point de contrôle d’examen humain pour les résultats à enjeux élevés.

Gardez un point de contrôle d’examen humain pour les résultats à enjeux élevés. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Suivez les modèles de défaillance et recyclez régulièrement les invites ou les flux de travail.

Suivez les modèles de défaillance et recyclez régulièrement les invites ou les flux de travail. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Continuez à explorer

ChatGPT et LLM

Découvrez comment les modèles de langage modernes génèrent et raisonnent.

Lire le guide

Bases de la PNL

Apprenez les principes fondamentaux du traitement du langage derrière ces outils.

Lire le guide