Ricerca a testo completo

La ricerca ( in ) full text (nota anche come full text search o free text search ) è una tecnica di ricerca in un documento elettronico o un testo di database , che consente al motore di ricerca di considerare tutte le parole in ogni documento salvato e di provare a abbinarli a quelli forniti dall'utente .

Le tecniche di ricerca sono diventate comuni nei database bibliografici online negli anni '70 . La maggior parte dei siti Web e dei programmi applicativi (come i software di elaborazione testi ) forniscono funzionalità di ricerca di testo completo. I motori di ricerca web, come AltaVista , impiegano tecniche di ricerca full-text, mentre altri indicizzano solo una parte delle pagine web esaminate dal suo sistema di indicizzazione.

L'approccio più comune nella ricerca full-text consiste nel generare un indice completo o una corrispondenza per tutti i documenti ricercabili. Per ogni parola (eccetto le parole strumento che sono troppo frequenti per essere utili) viene creata una voce che elenca la posizione esatta di ogni occorrenza della parola nel database del documento. Utilizzando tale elenco, è relativamente facile recuperare tutti i documenti che corrispondono a una query , senza dover scansionare ogni documento. Sebbene per corpora di documenti molto piccoli la ricerca full-text possa essere eseguita tramite esplorazione sequenziale, l'indicizzazione è il metodo preferito per quasi tutte le ricerche full-text.

Il problema dei falsi positivi

Come riconoscerà chiunque abbia eseguito una ricerca full text, è probabile che la ricerca full text recuperi molti documenti irrilevanti per la domanda posta. Tali documenti sono chiamati falsi positivi . Il recupero di documenti irrilevanti è spesso causato dall'ambiguità insita nel linguaggio naturale  ; per esempio, la parola avvocato designa sia un frutto che una professione , e i documenti che trattano uno sono irrilevanti per il ricercatore interessato all'altro.

Compromesso tra precisione e feedback

A causa delle ambiguità del linguaggio naturale , una ricerca full-text tipicamente produce un elenco di recupero che ha una bassa precisione  : la maggior parte del materiale recuperato è irrilevante. La ricerca sul vocabolario controllato cerca di risolvere questo problema etichettando i documenti in modo tale da eliminare le ambiguità. Tuttavia, questo metodo può perdere documenti rilevanti che una ricerca full-text avrebbe incluso.

Migliora le prestazioni della ricerca full-text

Le carenze della ricerca full-text sono state affrontate in due modi: fornendo agli utenti strumenti che consentono loro di esprimere le loro domande in modo più preciso e sviluppando nuovi algoritmi di ricerca che migliorano l'accuratezza dei recuperi.

Strumenti di query migliorati

Algoritmi di ricerca migliorati

I progressi tecnologici hanno notevolmente migliorato le prestazioni della ricerca full-text. Ad esempio, l' algoritmo PageRank di Google dà più importanza ai documenti che vengono puntati, tramite collegamenti ipertestuali, da un gran numero di altre pagine web . Questo algoritmo migliora notevolmente la percezione dell'accuratezza della ricerca da parte degli utenti, motivo per cui è popolare tra gli utenti di Internet . Vedi il motore di ricerca per ulteriori esempi.

Appunti

  1. Parere della Commissione generale di terminologia e neologia: vocabolario informatico (elenco di termini, espressioni e definizioni adottate) , JORF n .  93 del 20 aprile 2007, p.  7078, testo n .  84, CTNX0710138K su Lgifrance .
  2. In pratica, può essere difficile determinare il rendimento di un determinato motore di ricerca. Gli algoritmi di ricerca utilizzati dai servizi di ricerca Web vengono divulgati raramente per paura che le aziende specializzate nel Web utilizzino tecniche di ottimizzazione per i motori di ricerca per migliorare la loro importanza nella lista di ripristino.

Vedi anche