Il text mining o "estrazione della conoscenza" nei testi è una specializzazione del data mining e fa parte del campo dell'intelligenza artificiale . Questa tecnica viene spesso definita anglicismo di estrazione del testo .
Indica un insieme di elaborazioni informatiche consistenti nell'estrazione di conoscenza secondo un criterio di novità o somiglianza in testi prodotti da esseri umani per esseri umani. In pratica, ciò equivale a mettere in un algoritmo un modello semplificato di teorie linguistiche nei sistemi informatici per l'apprendimento e la statistica, e tecnologie per la comprensione del linguaggio naturale .
Le discipline coinvolte sono quindi la linguistica computazionale , l' ingegneria del linguaggio , l' apprendimento automatico , la statistica e l' informatica .
Possiamo distinguere due fasi principali nell'elaborazione implementata dal text mining.
Il primo passo, l' analisi , è riconoscere parole, frasi, i loro ruoli grammaticali, relazioni e significati. Questo primo passaggio è comune a tutti i trattamenti. L'analisi senza interpretazione è di scarso interesse e le due cose dipendono. È quindi il ruolo del secondo passo interpretare questa analisi.
Il secondo passaggio, interpretare l'analisi , consente di selezionare un testo tra gli altri. Esempi di applicazioni sono la classificazione dei messaggi di posta come spam , vale a dire posta non richiesta o non spam: l'applicazione di query in un motore di ricerca di documenti o il riepilogo del testo seleziona le frasi rappresentative di un testo o addirittura le riformula.
Il criterio di selezione può essere di almeno due tipi: novità e somiglianza. Quella della novità di una conoscenza consiste nello scoprire delle relazioni, in particolare delle implicazioni non esplicite perché indirette, o derivanti da due elementi distanti nel testo. Quella della somiglianza o contraddizione rispetto ad un altro testo, o anche la risposta a una domanda specifica, consiste nello scoprire testi che corrispondono maggiormente a un insieme di descrittori nella richiesta iniziale. I descrittori sono, ad esempio, i nomi e i verbi più frequenti in un testo.
Il text mining può consistere nell'indicizzare un insieme di testi in relazione alle parole che contengono. Possiamo quindi interrogare l'indice così creato per scoprire le somiglianze tra una query e l'elenco dei testi.
L'algoritmo di indicizzazione è descritto come segue:
Esistono molte applicazioni, che vanno dalla semplice indicizzazione per i motori di ricerca all'estrazione di conoscenza da documenti non strutturati.
Altre tecniche, come la lemmatizzazione , consentono di migliorare l'indicizzazione, perdendo parte del significato.
La ricerca di informazioni (o informazioni di recupero in inglese) è un'attività specifica per le ricerche di testo. L'obiettivo è facilitare la ricerca di dati o documenti rilevanti in base alle esigenze dell'utente. Per questo il sistema fa affidamento sulle informazioni rilevanti da fornire all'utente, ma interpreta anche l'utilità dei dati visualizzati in relazione al comportamento dell'utente.
I motori di ricerca come Google , Exalead o Yahoo! sono note applicazioni di text mining su grandi masse di dati. Tuttavia, i motori di ricerca non si basano solo sul testo per indicizzarlo, ma anche su come le pagine vengono evidenziate l'una rispetto all'altra. L'algoritmo utilizzato da Google è il PageRank ed è comune vedere HITS nel mondo accademico.
Un esempio di un'applicazione di text mining biomedicale è PubGene , che combina il text mining e la visualizzazione dei risultati come reti grafiche. Un altro esempio di utilizzo di ontologie con il text mining è GoPubMed.org .
Molti gestori di posta elettronica ora sono dotati di un filtro antispam . Esiste anche un software anti-spam che si interfaccia tra il server di posta e il gestore di posta.
Il sistema di intercettazione globale delle comunicazioni pubbliche e private di Echelon è un esempio di utilizzo militare ed economico del text mining.
Nel 2007, la divisione anticrimine di Europol ha acquisito un sistema di analisi per combattere la criminalità organizzata in modo più efficace. Questo sistema incorpora alcune delle tecnologie più avanzate nel campo dell'estrazione e dell'analisi del testo. Grazie a questo progetto Europol ha compiuto progressi molto significativi nel perseguimento di questi obiettivi.
I metodi di text mining contribuiscono al processo di Economic Intelligence : mappatura delle relazioni, rilevamento di relazioni esplicite tra attori (concessioni di licenza, fusioni / acquisizioni, ecc.)
Le tecniche di text mining sono ampiamente utilizzate per analizzare il comportamento degli utenti di Internet: percorso di visita, criteri che favoriscono l'avvio di un acquisto, efficacia delle campagne pubblicitarie, analisi del sentiment, ecc.
Il text mining differisce dall'elaborazione automatica del linguaggio per il suo approccio generale, massiccio, pratico e algoritmico dovuto alla sua affiliazione con il data mining. Il suo approccio è meno linguistico. Inoltre, il text mining non è interessato al linguaggio orale come fa il riconoscimento vocale .
Il text mining incrocia la ricerca di informazioni per la parte di query su un motore di ricerca di documenti. D'altra parte, la ricerca dell'informazione è a priori più interessata alle tipologie di possibili richieste e indicizzazioni associate che all'interpretazione dei testi.
E per le informazioni, poiché ci stiamo allontanando dal campo del text mining, l'interpretazione dell'analisi può anche generare un nuovo testo . Esempi di applicazioni sono la correzione di errori di ortografia , traduzione , dialogo uomo-macchina o imitazione di uno stile di scrittura.
Elenco (non esaustivo) di piattaforme di text mining open source: