GHID AI limbaj

BM25 și Recuperare lexicală

Prezentare generală

BM25 și Lexical Retrieval fac parte din stiva de limbaj-AI folosită pentru a citi, genera, clasifica și transforma textul și vorbirea la scară.

Deep Dive

BM25 (Cea mai bună potrivire 25) este o funcție de clasificare a unui pachet de cuvinte din cadrul probabilistic Okapi din anii 1990. Pentru fiecare termen de interogare, acesta combină trei semnale: frecvența termenului (cât de des apare cuvântul într-un document, cu randamente descrescătoare controlate de un parametru k1), frecvența inversă a documentului (cuvintele mai rare din colecție contează mai mult) și normalizarea lungimii documentului (parametrul b, astfel încât documentele lungi să nu fie favorizate în mod nedrept). Însumați aceste scoruri pe termen și obțineți rangul documentului. Nu are nevoie de antrenament și rulează uluitor de rapid prin intermediul indecșilor inversați, motiv pentru care motoarele de căutare precum Elasticsearch și Lucene îl folosesc implicit. În ciuda creșterii recuperării neuronale, BM25 încă câștigă sau se leagă în multe puncte de referință, în special pentru termeni rari, identificatori exacti și interogări în afara domeniului.

Perspectivă tehnică

Componenta termen-frecvență a BM25 se saturează: parametrul k1 limitează cât de mult cuvintele repetate sporesc un scor, astfel încât un termen care apare de 50 de ori nu este de 50 de ori mai relevant decât o dată. Parametrul b îmbină frecvența brută și frecvența normalizată pe lungime. IDF reduce în jos cuvintele comune precum „the” și le recompensează pe cele distinctive. Deoarece funcționează pe un index inversat care mapează fiecare cuvânt cu lista de documente, scorul atinge doar documentele care conțin termeni de interogare, ceea ce îl face extrem de eficient.

Stăpânirea BM25 și Recuperarea lexicală

BM25 este funcția clasică de clasare bazată pe cuvinte cheie care punctează documentele în funcție de frecvența cu care apar termenii de interogare, ajustați pentru raritatea termenilor și lungimea documentului. Vechi de decenii, rămâne o bază remarcabil de puternică și omniprezentă pentru căutare. BM25 și Lexical Retrieval fac parte din stiva de limbaj-AI folosită pentru a citi, genera, clasifica și transforma textul și vorbirea la scară. Pentru a construi o înțelegere profundă, tratați BM25 și Lexical Retrieval ca un model de operare, nu o singură caracteristică: definiți rezultatele dorite, clarificați ipotezele și separați ceea ce poate face sistemul în mod fiabil de ceea ce necesită încă o judecată expertă.

În practică, echipele puternice care utilizează BM25 și Lexical Retrieval proiectează solicitări, recuperări și bucle de revizuire ca un singur sistem de comunicare integrat. Aceștia documentează criteriile de succes explicite, testează în funcție de date și fluxuri de lucru realiste și repetă pe baza modelelor de eșec observate, mai degrabă decât a câștigurilor de referință unice. Aici înțelegerea teoretică se transformă în capacitate durabilă pentru produse, politici și operațiuni.

Fluxurile de lucru lingvistice se pot deplasa mai rapid fără a sacrifica consistența. În același timp, faptele halucinate pot intra în liniște în rapoarte, fluxuri de suport sau rezultate ale cercetării. Cea mai rezistentă abordare este combinarea vitezei de experimentare cu disciplina de guvernare: desfășurați pilot, capturați dovezi, publicați jurnalele de decizie și actualizați continuu măsurile de protecție pe măsură ce comportamentul modelului, așteptările utilizatorilor și cerințele de reglementare evoluează.

Impact strategic

Fluxurile de lucru lingvistice se pot deplasa mai rapid fără a sacrifica consistența.

Fluxurile de lucru lingvistice se pot deplasa mai rapid fără a sacrifica consistența. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Extinde accesul în diferite limbi și stiluri de comunicare.

Extinde accesul în diferite limbi și stiluri de comunicare. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Echipele pot petrece mai mult timp jucând în timp ce automatizarea se ocupă de repetiție.

Echipele pot petrece mai mult timp jucând în timp ce automatizarea se ocupă de repetiție. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Viitorul BM25 și regăsirea lexicală

Este puțin probabil ca BM25 să dispară; în schimb, este din ce în ce mai asociat cu metode neuronale în regăsirea hibridă, unde scorurile lexicale și dense sunt fuzionate (adesea prin fuziunea de rang reciproc). Modelele rare învățate, cum ar fi SPLADE, îmbină scăderea în stilul BM25 cu ponderarea termenilor neuronali, iar BM25 servește frecvent ca retriever de primă etapă înaintea rerankersului neuronal. Viteza, interpretabilitatea și costul de instruire zero garantează un rol de durată în căutarea producției.

Implementare în lumea reală

Clasamentul implicit al relevanței în Elasticsearch, OpenSearch și Apache Lucene/Solr

Primul stadiu de regăsire a candidatului care alimentează un reranker neuronal mai lent în căutarea în două etape

Căutare de coduri și jurnal, unde identificatorii exacti și codurile de eroare trebuie să se potrivească exact

Exploatarea exemplelor negative dure pentru a antrena retrieveri densi precum DPR

Modele de implementare

BM25 și Lexical Retrieval în practică

Clasamentul implicit al relevanței în Elasticsearch, OpenSearch și Apache Lucene/Solr.

Clasamentul implicit al relevanței în echipele Elasticsearch, OpenSearch și Apache Lucene/Solr obțin de obicei rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile limită și urmăresc atât câștigurile de productivitate, cât și costurile erorilor în timp.

BM25 și Lexical Retrieval în practică

Primul stadiu de regăsire a candidatului care alimentează un reranker neuronal mai lent în căutarea în două etape.

Primul stadiu de regăsire a candidaților care alimentează un evaluator neuronal mai lent în căutarea în două etape.

BM25 și Lexical Retrieval în practică

Căutare de coduri și jurnal, unde identificatorii exacti și codurile de eroare trebuie să se potrivească exact.

Căutare de coduri și jurnal, unde identificatorii exacti și codurile de eroare trebuie să se potrivească precis. Echipele obțin de obicei rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile marginale și urmăresc atât câștigurile de productivitate, cât și costurile erorilor în timp.

BM25 și Lexical Retrieval în practică

Exploatarea exemplelor negative dure pentru a antrena retrieveri densi precum DPR.

Exploatarea exemplelor negative dificile pentru a antrena retrieveri densi, cum ar fi echipele DPR, obțin de obicei rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile marginale și urmăresc atât câștigurile de productivitate, cât și costurile erorilor în timp.

Riscuri și balustrade

Faptele halucinate pot intra în liniște în rapoarte, fluxuri de sprijin sau rezultate ale cercetării.

Sensibilitatea promptă poate crea rezultate inconsecvente pentru solicitări similare.

Datele text sensibile pot fi expuse dacă controalele de acces sunt slabe.

Foaia de parcurs de implementare

Definiți formatul de ieșire, tonul și standardele de calitate înainte de lansare.

Definiți formatul de ieșire, tonul și standardele de calitate înainte de lansare. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Răspunsurile la sol cu surse de încredere ori de câte ori acuratețea contează.

Răspunsurile la sol cu surse de încredere ori de câte ori acuratețea contează. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Păstrați un punct de control uman pentru rezultate cu mize mari.

Păstrați un punct de control uman pentru rezultate cu mize mari. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Urmăriți tiparele de eșec și reantrenați în mod regulat solicitările sau fluxurile de lucru.

Urmăriți tiparele de eșec și reantrenați în mod regulat solicitările sau fluxurile de lucru. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Continuați să explorați

ChatGPT și LLM

Vedeți cum generează și raționează modelele de limbaj moderne.

Citiți Ghidul

Bazele NLP

Aflați elementele fundamentale ale procesării limbajului din spatele acestor instrumente.

Citiți Ghidul