Estrazione di testo

Il text mining o "estrazione della conoscenza" nei testi è una specializzazione del data mining e fa parte del campo dell'intelligenza artificiale . Questa tecnica viene spesso definita anglicismo di estrazione del testo .

Indica un insieme di elaborazioni informatiche consistenti nell'estrazione di conoscenza secondo un criterio di novità o somiglianza in testi prodotti da esseri umani per esseri umani. In pratica, ciò equivale a mettere in un algoritmo un modello semplificato di teorie linguistiche nei sistemi informatici per l'apprendimento e la statistica, e tecnologie per la comprensione del linguaggio naturale .

Le discipline coinvolte sono quindi la linguistica computazionale , l' ingegneria del linguaggio , l' apprendimento automatico , la statistica e l' informatica .

Messa in opera

Possiamo distinguere due fasi principali nell'elaborazione implementata dal text mining.

Il primo passo, l' analisi , è riconoscere parole, frasi, i loro ruoli grammaticali, relazioni e significati. Questo primo passaggio è comune a tutti i trattamenti. L'analisi senza interpretazione è di scarso interesse e le due cose dipendono. È quindi il ruolo del secondo passo interpretare questa analisi.

Il secondo passaggio, interpretare l'analisi , consente di selezionare un testo tra gli altri. Esempi di applicazioni sono la classificazione dei messaggi di posta come spam , vale a dire posta non richiesta o non spam: l'applicazione di query in un motore di ricerca di documenti o il riepilogo del testo seleziona le frasi rappresentative di un testo o addirittura le riformula.

Il criterio di selezione può essere di almeno due tipi: novità e somiglianza. Quella della novità di una conoscenza consiste nello scoprire delle relazioni, in particolare delle implicazioni non esplicite perché indirette, o derivanti da due elementi distanti nel testo. Quella della somiglianza o contraddizione rispetto ad un altro testo, o anche la risposta a una domanda specifica, consiste nello scoprire testi che corrispondono maggiormente a un insieme di descrittori nella richiesta iniziale. I descrittori sono, ad esempio, i nomi e i verbi più frequenti in un testo.

Esempio: indicizzazione di testi

Il text mining può consistere nell'indicizzare un insieme di testi in relazione alle parole che contengono. Possiamo quindi interrogare l'indice così creato per scoprire le somiglianze tra una query e l'elenco dei testi.

L'algoritmo di indicizzazione è descritto come segue:

Indicizziamo il testo in relazione alle parole che lo compongono
Eseguiamo l' indice inverso (indicizziamo le parole contenute in relazione ai testi che le contengono)
Durante l'elaborazione di una query, testiamo la somiglianza di questa query con il nostro indice invertito
Ciò restituisce testi simili con la query e, per ogni testo, un rango.

Esistono molte applicazioni, che vanno dalla semplice indicizzazione per i motori di ricerca all'estrazione di conoscenza da documenti non strutturati.

Altre tecniche, come la lemmatizzazione , consentono di migliorare l'indicizzazione, perdendo parte del significato.

Applicazioni

Rilevamento di anomalie in un report di testo
Diagnosi medica

Alla ricerca di informazioni

La ricerca di informazioni (o informazioni di recupero in inglese) è un'attività specifica per le ricerche di testo. L'obiettivo è facilitare la ricerca di dati o documenti rilevanti in base alle esigenze dell'utente. Per questo il sistema fa affidamento sulle informazioni rilevanti da fornire all'utente, ma interpreta anche l'utilità dei dati visualizzati in relazione al comportamento dell'utente.

I motori di ricerca come Google , Exalead o Yahoo! sono note applicazioni di text mining su grandi masse di dati. Tuttavia, i motori di ricerca non si basano solo sul testo per indicizzarlo, ma anche su come le pagine vengono evidenziate l'una rispetto all'altra. L'algoritmo utilizzato da Google è il PageRank ed è comune vedere HITS nel mondo accademico.

Applicazioni biomediche

Un esempio di un'applicazione di text mining biomedicale è PubGene , che combina il text mining e la visualizzazione dei risultati come reti grafiche. Un altro esempio di utilizzo di ontologie con il text mining è GoPubMed.org .

Filtraggio delle comunicazioni

Molti gestori di posta elettronica ora sono dotati di un filtro antispam . Esiste anche un software anti-spam che si interfaccia tra il server di posta e il gestore di posta.

Applicazioni di sicurezza

Il sistema di intercettazione globale delle comunicazioni pubbliche e private di Echelon è un esempio di utilizzo militare ed economico del text mining.

Nel 2007, la divisione anticrimine di Europol ha acquisito un sistema di analisi per combattere la criminalità organizzata in modo più efficace. Questo sistema incorpora alcune delle tecnologie più avanzate nel campo dell'estrazione e dell'analisi del testo. Grazie a questo progetto Europol ha compiuto progressi molto significativi nel perseguimento di questi obiettivi.

Intelligenza economica

I metodi di text mining contribuiscono al processo di Economic Intelligence : mappatura delle relazioni, rilevamento di relazioni esplicite tra attori (concessioni di licenza, fusioni / acquisizioni, ecc.)

Marketing

Le tecniche di text mining sono ampiamente utilizzate per analizzare il comportamento degli utenti di Internet: percorso di visita, criteri che favoriscono l'avvio di un acquisto, efficacia delle campagne pubblicitarie, analisi del sentiment, ecc.

Discipline correlate

Il text mining differisce dall'elaborazione automatica del linguaggio per il suo approccio generale, massiccio, pratico e algoritmico dovuto alla sua affiliazione con il data mining. Il suo approccio è meno linguistico. Inoltre, il text mining non è interessato al linguaggio orale come fa il riconoscimento vocale .

Il text mining incrocia la ricerca di informazioni per la parte di query su un motore di ricerca di documenti. D'altra parte, la ricerca dell'informazione è a priori più interessata alle tipologie di possibili richieste e indicizzazioni associate che all'interpretazione dei testi.

E per le informazioni, poiché ci stiamo allontanando dal campo del text mining, l'interpretazione dell'analisi può anche generare un nuovo testo . Esempi di applicazioni sono la correzione di errori di ortografia , traduzione , dialogo uomo-macchina o imitazione di uno stile di scrittura.

Standard

Web semantico : RDF , RDF Schema , OWL , ecc.
Unstructured Information Management Architecture (en) sviluppato da IBM
Iniziativa per la codifica del testo
Comunità Open Language Archives
ISLE Meta Data Initiative (en)
Open Text Mining Interface della rivista Nature .

Piattaforme

Software WordStat per l' analisi dei contenuti e il text mining sviluppato da Recherches Provalis
Antelope, piattaforma di analisi dei contenuti sviluppata da Proxem

Open source

Elenco (non esaustivo) di piattaforme di text mining open source:

NOOJ
UIMA di Apache
Unitex / GramLab , sviluppato e mantenuto dal team di linguistica computazionale di LIGM , Université Paris-Est
TXM , sviluppato da un team dell'ENS Lyon
Weblab-progetto di OW2

Proprietario

Toolbox di analisi del testo in MATLAB

Note e riferimenti

(in) Tavish Srivastava, " Sistema di recupero delle informazioni spiegato in termini più semplici! » , Su www.analyticsvidhya.com ,7 aprile 2015(visitato il 30 agosto 2017 )
Per una spiegazione di come questi algoritmi e per risolvere alcune delle insidie che gli utenti chiedono di avere un posizionamento migliore, vedere (in) Mining page farms and Its Application in link spam detection , Zhou Bin, Master memory the Simon Fraser University , marzo 2007 .
Tor-Kristian Jenssen, Astrid Lægreid, Jan Komorowski1 e Eivind Hovig, " Una rete di letteratura di geni umani per l'analisi ad alto rendimento dell'espressione genica ", Nature Genetics , vol. 28,2001, p. 21–28 ( PMID 11326270 , DOI 10.1038 / ng0501-21 , leggi in linea )
- Riepilogo: Daniel R. Masys, " Collegamento dei dati di microarray alla letteratura ", Nature Genetics , vol. 28,2001, p. 9-10 ( PMID 11326264 , DOI 10.1038 / ng0501-9 )
GoPubMed trasforma un motore di ricerca monotono in un vero cervello , pubblicato il 18 dicembre 2009
" " Conferenza annuale IALEIA-LEIU a Boston il 9 aprile 2008 " " ( Archive • Wikiwix • Archive.is • Google • Cosa fare? )
Antelope, una piattaforma PNL per estrarre significati dal testo

Bibliografia

(it) Julia Silge e David Robinson , Text Mining with R: A Tidy Approach , O'Reilly,2017( leggi online )

Vedi anche

link esterno

Un'introduzione al text mining
Applicazioni di ricerca e text mining (ad es. AgroNLP )