Okapi BM25
Okapi BM25 è un metodo di ponderazione utilizzato nel recupero delle informazioni . È un'applicazione del modello di rilevanza probabilistica proposto nel 1976 da Robertson e Jones.
Il metodo è più semplicemente chiamato BM25, il termine "Okapi" in riferimento al nome del sistema di ricerca dell'Università di Londra dove è stato inizialmente implementato.
Funzione di pianificazione
BM25 è un modello di borsa di parole che ordina i documenti in base alla frequenza dei termini che compaiono in ogni documento, indipendentemente dalle relazioni che possono esistere tra questi termini o dalle loro relative distanze all'interno del documento. Esiste un'intera famiglia di funzioni che assegnano un punteggio a ciascun documento per una determinata query. Una delle forme più note di questa famiglia di funzioni è la seguente. Per una query Q , contenente le parole , il punteggio BM25 di un documento D è:
q1,...,qnon{\ displaystyle q_ {1}, ..., q_ {n}}
Punto(D,Q)=∑io=1nonIDF(qio)⋅f(qio,D)⋅(K1+1)f(qio,D)+K1⋅(1-b+b⋅|D|avgdl),{\ displaystyle {\ text {score}} (D, Q) = \ sum _ {i = 1} ^ {n} {\ text {IDF}} (q_ {i}) \ cdot {\ frac {f (q_ {i}, D) \ cdot (k_ {1} +1)} {f (q_ {i}, D) + k_ {1} \ cdot \ left (1-b + b \ cdot {\ frac {| D |} {\ text {avgdl}}} \ right)}},}dove è la frequenza del termine nel documento D , è la lunghezza del documento D in numero di parole e avgdl è la lunghezza media dei documenti nella raccolta considerata. e b sono parametri liberi che possono essere ottimizzati a seconda dei casi uso ma che, in assenza di alcuna ottimizzazione sono solitamente impostato e . è la frequenza inversa del documento ponderando il termine della query. In generale, questo è calcolato da:
f(qio,D){\ displaystyle f (q_ {i}, D)} qio{\ displaystyle q_ {i}}|D|{\ displaystyle | D |}K1{\ displaystyle k_ {1}}K1∈[1.2,2.0]{\ displaystyle k_ {1} \ in [1.2,2.0]}b=0.75{\ displaystyle b = 0,75}IDF(qio){\ displaystyle {\ text {IDF}} (q_ {i})}qio{\ displaystyle q_ {i}}
IDF(qio)=logNON-non(qio)+0,5non(qio)+0,5,{\ displaystyle {\ text {IDF}} (q_ {i}) = \ log {\ frac {Nn (q_ {i}) + 0,5} {n (q_ {i}) + 0,5}},}dove N è il numero di documenti nella raccolta ed è il numero di documenti che contengono .
non(qio){\ displaystyle n (q_ {i})}qio{\ displaystyle q_ {i}}
Vedi anche
Riferimenti
-
(in) Stephen E. Robertson e SPARCK Karen Jones , " Ponderazione della rilevanza dei termini di ricerca " , Journal of the American Society for Information Science , vol. 27, n o 3,
Maggio-giugno 1976, p. 129–146 ( leggi in linea )
-
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. An Introduction to Information Retrieval , Cambridge University Press, 2009, p. 233 .
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">