Okapi BM25

Okapi BM25 è un metodo di ponderazione utilizzato nel recupero delle informazioni . È un'applicazione del modello di rilevanza probabilistica proposto nel 1976 da Robertson e Jones.

Il metodo è più semplicemente chiamato BM25, il termine "Okapi" in riferimento al nome del sistema di ricerca dell'Università di Londra dove è stato inizialmente implementato.

Funzione di pianificazione

BM25 è un modello di borsa di parole che ordina i documenti in base alla frequenza dei termini che compaiono in ogni documento, indipendentemente dalle relazioni che possono esistere tra questi termini o dalle loro relative distanze all'interno del documento. Esiste un'intera famiglia di funzioni che assegnano un punteggio a ciascun documento per una determinata query. Una delle forme più note di questa famiglia di funzioni è la seguente. Per una query $Q$ , contenente le parole , il punteggio BM25 di un documento $D$ è: ${\ displaystyle q_ {1}, ..., q_ {n}}$

{\ displaystyle {\ text {score}} (D, Q) = \ sum _ {i = 1} ^ {n} {\ text {IDF}} (q_ {i}) \ cdot {\ frac {f (q_ {i}, D) \ cdot (k_ {1} +1)} {f (q_ {i}, D) + k_ {1} \ cdot \ left (1-b + b \ cdot {\ frac {| D |} {\ text {avgdl}}} \ right)}},}

dove è la frequenza del termine nel documento $D$ , è la lunghezza del documento $D$ in numero di parole e $avgdl$ è la lunghezza media dei documenti nella raccolta considerata. e $b$ sono parametri liberi che possono essere ottimizzati a seconda dei casi uso ma che, in assenza di alcuna ottimizzazione sono solitamente impostato e . è la frequenza inversa del documento ponderando il termine della query. In generale, questo è calcolato da: ${\ displaystyle f (q_ {i}, D)}$ $q_ {i}$ $| D |$ $k_ {1}$ ${\ displaystyle k_ {1} \ in [1.2,2.0]}$ ${\ displaystyle b = 0,75}$ ${\ displaystyle {\ text {IDF}} (q_ {i})}$ $q_ {i}$

{\ displaystyle {\ text {IDF}} (q_ {i}) = \ log {\ frac {Nn (q_ {i}) + 0,5} {n (q_ {i}) + 0,5}},}

dove $N$ è il numero di documenti nella raccolta ed è il numero di documenti che contengono . ${\ displaystyle n (q_ {i})}$ $q_ {i}$

Vedi anche

Riferimenti

(in) Stephen E. Robertson e SPARCK Karen Jones , " Ponderazione della rilevanza dei termini di ricerca " , Journal of the American Society for Information Science , vol. 27, n o 3, Maggio-giugno 1976, p. 129–146 ( leggi in linea )
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. An Introduction to Information Retrieval , Cambridge University Press, 2009, p. 233 .