Estrazione dei dati

Il data mining , noto anche con l'espressione data mining , data mining , data mining , data mining o estrazione di conoscenza dai dati , si riferisce all'estrazione di una conoscenza o conoscenza da grandi quantità di dati , mediante metodi automatici.

Si propone di utilizzare un insieme di algoritmi di varie discipline scientifiche come statistica , intelligenza artificiale o informatica , per costruire modelli dai dati , vale a dire per trovare strutture o modelli interessanti secondo criteri fissati in anticipo, ed estrarre come quanta più conoscenza possibile .

L'uso industriale o operativo di questa conoscenza nel mondo professionale consente di risolvere un'ampia varietà di problemi, che vanno dalla gestione delle relazioni con i clienti alla manutenzione preventiva, compreso il rilevamento delle frodi e l'ottimizzazione del sito web . È anche il modo in cui funziona il data journalism .

Segue il data mining, nell'escalation del data mining aziendale, la business intelligence . Ciò consente di osservare un fatto, come il fatturato , e di spiegarlo come il fatturato declinato per prodotto, mentre il data mining permette di classificare i fatti e di prevederli in una certa misura o di illuminarli rivelando, ad esempio, le variabili oi parametri che potrebbero chiarire perché il fatturato di un punto vendita è superiore a quello di un altro.

Storia

La generazione di modelli da una grande quantità di dati non è un fenomeno recente. Perché ci sia la creazione del modello, deve esserci la raccolta dei dati. In Cina si attribuisce al mitico Imperatore Yao , il desiderio di identificare i raccolti nel 2238 a.C. ANNO DOMINI; in Egitto, il faraone Amasi organizzare il censimento della popolazione nel V °  secolo  aC. AD Non è stato fino al XVII °  secolo che iniziamo a analizzare i dati per cercare caratteristiche comuni. Nel 1662 , John Graunt pubblicò il suo libro Osservazioni naturali e politiche fatte sui conti della mortalità  " in cui analizzava la mortalità a Londra e cercava di prevedere l'apparizione della peste bubbonica. Nel 1763 , Thomas Bayes mostra che possiamo determinare, non solo le probabilità dalle osservazioni risultanti da un esperimento, ma anche i parametri relativi a queste probabilità. Presentato nel caso particolare di una distribuzione binomiale , questo risultato è esteso indipendentemente da Laplace , portando a una formulazione generale del teorema di Bayes . Legendre ha pubblicato nel 1805 un saggio sul metodo dei minimi quadrati che consente di confrontare un insieme di dati con un modello matematico. Tuttavia, i costosi calcoli manuali non consentono di utilizzare questi metodi al di fuori di un piccolo numero di casi semplici e illuminanti.

Dal 1919 al 1925, Ronald Fisher sviluppò l' analisi della varianza come strumento per il suo progetto di inferenza statistica medica. Gli anni '50 videro la comparsa di computer ancora costosi e tecniche di calcolo in batch su queste macchine. Contemporaneamente, stanno emergendo metodi e tecniche come la segmentazione , la classificazione (tra le altre con il metodo delle nuvole dinamiche ), una prima versione delle future reti neurali chiamata Perceptron e alcuni algoritmi autoevolutivi che verranno chiamati in seguito genetici . Negli anni '60 arrivarono gli alberi decisionali e il metodo del centro mobile ; queste tecniche consentono ai ricercatori di sfruttare e scoprire modelli sempre più precisi. In Francia , Jean-Paul Benzécri ha sviluppato un'analisi della corrispondenza nel 1962 . Tuttavia, restiamo nella prospettiva dell'elaborazione batch .

Nel 1969 apparve il lavoro di Myron Tribus Rational Descrizioni, decisioni e progetti che generalizza i metodi bayesiani nel calcolo automatico (professore a Dartmouth , usa abbastanza logicamente il linguaggio BASIC , che era stato creato alcuni anni prima, e la sua interattività ). La traduzione francese divenne disponibile nel 1973 con il nome di Rational Decisions in Uncertain . Un'idea importante del lavoro è la menzione del teorema di Cox-Jaynes che mostra che qualsiasi acquisizione di un modello viene eseguita secondo le regole di Bayes (ad eccezione di un omomorfismo ), o porta a incongruenze. Un'altra è che tra tutte le distribuzioni di probabilità che soddisfano le osservazioni (il loro numero è infinito), è necessario scegliere quella che contiene la minore arbitrarietà (quindi la minore informazione aggiunta, e di conseguenza quella di massima entropia . una semplice traduzione digitale di uno stato di conoscenza, senza una connotazione frequentista sottostante.Infine, questo lavoro rende popolare la notazione delle probabilità in decibel, che rende additiva la regola di Bayes e consente di quantificare in un modo unico la fornitura di osservazione nel ora indipendente che rende varie stime precedenti precedenti (vedere inferenza bayesiana ).

L'arrivo graduale dei microcomputer rende facile generalizzare questi metodi bayesiani senza gravare sui costi. Questo stimola la ricerca e le analisi bayesiane si stanno generalizzando, tanto più che Tribus ha dimostrato la loro convergenza, man mano che le osservazioni progrediscono, verso i risultati delle statistiche classiche pur consentendo di affinare la conoscenza nel tempo senza richiedere gli stessi tempi di acquisizione (vedi anche Piano sperimentale ) .

Si inizia quindi a svincolarsi dal classico protocollo statistico: non è più necessario impostare un'ipotesi e verificarla o meno a posteriori . Al contrario, le stime bayesiane costruiranno esse stesse queste ipotesi man mano che le osservazioni si accumulano.

L'espressione data mining  " ha avuto una connotazione peggiorativa nei primi anni '60, esprimendo il disprezzo degli statistici per gli approcci di ricerca di correlazione senza ipotesi di partenza . È dimenticato, quindi Rakesh Agrawal lo utilizza di nuovo negli anni '80 quando iniziò la sua ricerca su database di un volume di 1  MB . Il concetto di data mining è apparso per la prima volta, secondo Pal e Jain, alle conferenze IJCAI nel 1989 . Gregory Piatetsky-Shapiro ha cercato un nome per questo nuovo concetto alla fine degli anni '80 presso i laboratori GTE . Essendo il data mining  " protetto da copyright, ha utilizzato l'espressione Knowledge discovery in data basees  " (KDD).

Poi, negli anni '90, sono arrivate le tecniche di apprendimento automatico come gli SVM nel 1998 , che completavano gli strumenti dell'analista.

Agli inizi del XXI °  secolo, una società come Amazon.com utilizza tutti questi strumenti per offrire ai propri clienti prodotti che li può interessarti.

Applicazioni industriali

Per obiettivi

Al giorno d'oggi, le tecniche di data mining possono essere utilizzate in campi completamente diversi con scopi molto specifici. Le aziende di vendita per corrispondenza utilizzano questa tecnica per analizzare il comportamento dei consumatori per identificare somiglianze nel comportamento, concedere carte fedeltà o stabilire elenchi di prodotti da offrire per la vendita aggiuntiva (cross-selling).

Un direct mail ( mailing ) utilizzato per individuare nuovi clienti ha un tasso di risposta medio del 10%. Le società di marketing utilizzano il data mining per ridurre il costo dell'acquisizione di un nuovo cliente classificando i potenziali clienti in base a criteri che consentono loro di aumentare i tassi di risposta ai questionari inviati.

Queste stesse società, ma anche altre come banche, operatori di telefonia mobile o assicuratori, cercano attraverso il data mining di ridurre al minimo l' attrito (o l' abbandono ) dei propri clienti poiché il costo del mantenimento di un cliente è meno importante di quello dell'acquisizione di uno nuovo.

I servizi di polizia in tutti i paesi cercano di caratterizzare i crimini (rispondere alla domanda: "Cos'è un crimine" normale "?") E il comportamento dei criminali (rispondere alla domanda: "comportamento criminale" normale "?") Al fine di prevenire la criminalità e limitare rischi e pericoli per la popolazione.

Lo scoring dei clienti nelle banche è ormai ben noto, permette di identificare i clienti "buoni", senza fattori di rischio ( valutazione dei rischi del cliente ) a cui organizzazioni finanziarie, banche, assicurazioni, ecc., Possono offrire prezzi adeguati e prodotti attraenti, limitando al contempo il rischio di mancato rimborso o mancato pagamento o addirittura di perdita in caso di assicurazione.

I call center utilizzano questa tecnica per migliorare la qualità del servizio e consentire una risposta adeguata all'operatore per la soddisfazione del cliente.

Nella ricerca del genoma umano , sono state utilizzate tecniche di data mining per scoprire i geni e la loro funzione.

Si potrebbero trovare altri esempi in altri campi, ma quello che possiamo notare in questo momento è che tutti questi usi permettono di caratterizzare un fenomeno complesso (comportamento umano, espressione di un gene), per meglio comprenderlo, al fine di ridurre la ricerca o costi operativi legati a questo fenomeno, o per migliorare la qualità dei processi legati a questo fenomeno.

Per settore di attività

L'industria ha compreso l'importanza del patrimonio costituito dai suoi dati e cerca di sfruttarlo utilizzando la business intelligence e il data mining. Le aziende più avanzate in questo campo sono nel settore terziario . Secondo il sito kdnuggets.com, la distribuzione negli Stati Uniti , come percentuale delle risposte totali al sondaggio, dell'utilizzo del data mining per settore di attività è effettuata nel 2010 come segue:

Industrie e campi in cui viene utilizzato il data mining (%).
CRM / analisi dei consumi   26.8 Banca   19.2 Salute, risorse umane   13.1
Intercettazione di una frode   12.7 Finanza   11.3 Marketing diretto , raccolta fondi   11.3
Telecomunicazione   10.8 Assicurazione   10.3 Scienza   10.3
Formazione scolastica   9.9 Pubblicità   9.9 ragnatela   8.9
Medico   8.0 Produce   8.0 Vendita al dettaglio   8.0
Rating del credito   8.0
E-commerce   7.0
Motore di ricerca   6.6
Social networks   6.6
Governo, militare   6.1

Ricerca e think tank

Come mostrato nell'istogramma sopra, l' industria è molto interessata all'argomento, soprattutto in termini di standard e interoperabilità che facilitano l'uso di strumenti IT di diversi editori. Inoltre, le aziende, l'istruzione e la ricerca hanno notevolmente contribuito all'evoluzione e al miglioramento (in termini di rigore, ad esempio) di metodi e modelli; un articolo pubblicato nel 2008 dal Journal of Information Technology e il processo decisionale riassume uno studio che ripercorre e analizza questa evoluzione. Alcuni attori sono passati dalla ricerca all'industria.

Università come Konstanz in Germania , Dortmund in North Carolina , Stati Uniti , Waikato in Nuova Zelanda e Université Lumière Lyon 2 in Francia, hanno svolto ricerche per trovare nuovi algoritmi e migliorare gli anziani . Hanno anche sviluppato un software che consente ai loro studenti, insegnanti e ricercatori di progredire in questo campo, consentendo così all'industria di trarre vantaggio dai loro progressi.

D'altra parte, molti gruppi e associazioni interprofessionali sono stati creati per riflettere e supportare lo sviluppo del data mining. Il primo di questi gruppi professionali nel campo è il gruppo di interesse dell'Association for Computing Machinery sulla gestione della conoscenza e il data mining, il SIGKDD . Dal 1989 organizza una conferenza internazionale annuale e pubblica nuovi risultati, riflessioni e sviluppi dei suoi membri. Pertanto, dal 1999 , questa organizzazione ha pubblicato una rivista semestrale dal titolo SIGKDD Explorations  " .

Vengono organizzate altre conferenze sul data mining e il computing, ad esempio:

Queste ricerche e questi risultati finanziariamente convincenti obbligano i team specializzati nel data mining a svolgere un lavoro metodico in progetti strutturati.

Progetti, metodi e processi

Nel tempo sono emerse buone pratiche per migliorare la qualità dei progetti. Tra queste, le metodologie aiutano i team a organizzare i progetti in processi. Tra i metodi più utilizzati ci sono la metodologia SEMMA del SAS Institute e il CRISP-DM che è il metodo più utilizzato negli anni 2010.

Metodo CRISP-DM

Il metodo CRISP-DM divide il processo di data mining in sei fasi consentendo alla tecnica di essere strutturata e ancorata in un processo industriale. Più che una teoria standardizzata, è un processo di estrazione di conoscenza aziendale.

Devi prima capire il lavoro che pone la domanda all'analista, formalizzare il problema che l'organizzazione cerca di risolvere riguardo ai dati, capire le problematiche, conoscere i criteri di successo del progetto e impostare un piano iniziale per raggiungere questo obiettivo .

Quindi l'analista ha bisogno dei dati giusti. Non appena il team di progetto sa cosa fare, deve andare alla ricerca di dati, testi e tutto il materiale che gli permetterà di rispondere al problema. Quindi deve valutare la qualità, scoprire i primi schemi apparenti per fare ipotesi sui modelli nascosti.

I dati raccolti dal team del progetto sono eterogenei . Devono essere preparati secondo gli algoritmi utilizzati, rimuovendo i valori anomali, o estremi, completando i dati non compilati, con la media o con il metodo dei K vicini più vicini , rimuovendo i duplicati, le variabili invarianti e quelle avere troppi valori mancanti, o ad esempio discretizzando le variabili se l'algoritmo da utilizzare lo richiede, come è ad esempio il caso per l'analisi di corrispondenze multiple ACM, l' analisi discriminante DISQUAL, o il metodo di Condorcet .

Una volta che i dati sono pronti, devi esplorarli. La modellazione raggruppa classi di attività che possono essere utilizzate da sole o in aggiunta ad altre per scopi descrittivi o predittivi.

La segmentazione è il compito di scoprire gruppi e strutture nei dati che sono in qualche modo simili, senza utilizzare strutture note a priori nei dati. La classificazione è l'attività di generalizzazione delle strutture note e le applica ai nuovi dati.

La regressione cerca di trovare una funzione che modella dati continui, cioè non discreti, con il tasso di errore più basso per prevedere i valori futuri. L' associazione cerca le relazioni tra gli elementi. Ad esempio, un supermercato può raccogliere dati sulle abitudini di acquisto dei propri clienti. Utilizzando le regole dell'associazione, il supermercato può determinare quali prodotti vengono acquistati frequentemente insieme e quindi utilizzare questa conoscenza per scopi di marketing . In letteratura, questa tecnica viene spesso definita "analisi del paniere domestico".

Si tratta quindi di valutare i risultati ottenuti secondo i criteri di successo del mestiere e di valutare il processo stesso per rivelare le lacune e le fasi trascurate. Di conseguenza, è necessario prendere la decisione di distribuire o iterare il processo migliorando ciò che è andato storto o non è stato fatto.

Poi arriva la fase di consegna e la fine della valutazione del progetto. Vengono progettati i piani di controllo e manutenzione e viene redatta la relazione di fine progetto. Per distribuire un modello predittivo , viene utilizzato il linguaggio PMML , basato su XML . Viene utilizzato per descrivere tutte le caratteristiche del modello e per trasmetterlo ad altre applicazioni compatibili con PMML.

Altri metodi

SEMMA

La metodologia SEMMA ( Campione quindi Esplora, Modifica, Modello, Valuta per “Campionamento, quindi Esplora, Modifica, Modello, Valuta”), inventata dal SAS Institute , si concentra sulle attività tecniche di data mining. Sebbene presentato da SAS come solo un'organizzazione logica degli strumenti di mining di SAS Enterprise , SEMMA può essere utilizzato per organizzare il processo di data mining indipendentemente dal software utilizzato.

Six Sigma (DMAIC)

Six Sigma ( DMAIC è un acronimo che caratterizza il metodo come segue: Definisci, Misura, Analizza, Migliora, Controllo per "Definisci, Misura, Analizza, Migliora, Controlla") è una metodologia strutturata e orientata ai dati, il cui obiettivo è il eliminazione di difetti, licenziamenti e problemi di controllo della qualità di ogni genere nelle aree di produzione, fornitura di servizi, gestione e altre attività commerciali. Il data mining è un'area in cui questa guida metodologica può essere applicata.

Goffaggine da evitare

Le trappole più comuni incontrate da minatori di dati esperti e inesperti sono state descritte da Robert Nisbet, John Elder e Gary Miner nel loro Manuale di analisi statistica e applicazioni di data mining .

Il primo è fare la domanda sbagliata. Il che porta a cercare nel posto sbagliato. La domanda iniziale deve essere posta correttamente affinché la risposta sia utile.

Quindi, si accontenta di una piccola quantità di dati per un problema complesso. Dobbiamo avere dati per esplorarli, e casi interessanti per l'escavatore sono rari da osservare, dobbiamo quindi avere a disposizione molti dati per poter realizzare campioni che abbiano un valore di apprendimento e che consentano di prevedere un situazione, vale a dire rispondere a una domanda posta, sui dati esterni al campione. Inoltre, se i dati non sono adattati alla domanda posta, lo scavo sarà limitato: ad esempio se i dati non contengono variabili da prevedere, lo scavo sarà limitato alla descrizione e l'analista potrà solo suddividere i dati in sottoinsiemi coerenti ( clustering ) o trovare le dimensioni migliori che catturino la variabilità dei dati.

Il campione, che consente l'apprendimento, deve essere costruito con cura e non campionato alla leggera. L'apprendimento consente di costruire il modello da uno o più campioni. Impostare lo strumento di data mining fino a quando il modello restituisce il 100% dei casi ricercati equivale a concentrarsi sulle particolarità e allontanarsi dalla generalizzazione, necessaria, che consente di applicare il modello ai dati esterni. Esistono tecniche per evitare overfitting o overfitting . Questi sono metodi di ricampionamento come bootstrap , jackknife o convalida incrociata .

A volte, una singola tecnica (albero decisionale, reti neurali ...) non è sufficiente per ottenere un modello che dia buoni risultati su tutti i dati. Una delle soluzioni, in questo caso, consisterebbe in un insieme di strumenti, che si possono utilizzare uno dopo l'altro e confrontare i risultati sugli stessi dati oppure unificare i punti di forza di ogni metodo sia per apprendimento che per combinazione di risultati.

È importante mettere i dati e i risultati dello scavo in prospettiva nel loro contesto e non concentrarsi sui dati, altrimenti possono sorgere errori di interpretazione e perdite di tempo e denaro.

Eliminare a priori i risultati che appaiono assurdi, rispetto a quanto ci si aspetta, può essere fonte di errori perché forse sono questi risultati a dare la soluzione alla domanda posta.

È impossibile utilizzare e interpretare i risultati di un modello al di fuori del framework in cui è stato costruito. Anche l'interpretazione dei risultati sulla base di altri casi simili ma diversi è una fonte di errore, ma questo non è esclusivo del ragionamento del data mining. Infine, estrapolando i risultati, ottenuti su spazi a bassa dimensione, su spazi ad alta dimensione può anche portare ad errori.

Due citazioni di George Box , "Tutti i modelli sono sbagliati, ma alcuni sono utili" e "Gli statistici sono come artisti, si innamorano dei loro modelli", illustrano in modo umoristico che a volte alcuni analisti di data mining hanno bisogno di credere nel loro modello e di credere che il modello su cui stanno lavorando è il migliore. Usare una serie di modelli e interpretare la distribuzione dei risultati è molto più sicuro.

Piano

In un progetto di data mining è essenziale sapere cosa è importante e cosa no, cosa richiede tempo e cosa no; che non sempre coincide.

Stima del tempo da dedicare alle diverse fasi
Compiti Caricare Importanza
nel progetto
Inventario, preparazione ed esplorazione dei dati 38% 3
Sviluppo - Validazione di modelli 25% 2
Restituzione dei risultati 12% 4
Analisi delle prime prove 10% 3
Definizione degli obiettivi 8% 1
Documentazione - presentazioni 7% 5

Il cuore del data mining è la modellazione: tutta la preparazione viene effettuata in base al modello che l'analista intende produrre, i compiti svolti poi convalidano il modello scelto, lo completano e lo implementano. Il compito più serio nella modellazione è determinare gli algoritmi che produrranno il modello atteso. La questione importante è quindi quella dei criteri che permettono di scegliere questo o questi algoritmi.

Algoritmi

La risoluzione di un problema attraverso un processo di data mining generalmente richiede l'uso di un gran numero di metodi e algoritmi diversi più o meno facili da capire e utilizzare. Esistono due famiglie principali di algoritmi: metodi descrittivi e metodi predittivi.

Metodi descrittivi

Definizione

I metodi descrittivi organizzano, semplificano e aiutano a comprendere le informazioni alla base di un ampio set di dati.

Consentono di lavorare su un insieme di dati , organizzati in istanze di variabili, in cui nessuna delle variabili esplicative degli individui ha particolare importanza rispetto alle altre. Sono utilizzati ad esempio per identificare, da un insieme di individui, gruppi omogenei per tipologia, per costruire standard comportamentali e quindi deviazioni da questi standard come l'individuazione di frodi con carte bancarie nuove o sconosciute. O l' assicurazione , per effettuare la compressione delle informazioni o compressione delle immagini , ecc.

Esempi

Tra le tecniche disponibili possono essere utilizzate quelle derivate dalla statistica. Sono raggruppati sotto il termine analisi fattoriali , metodi statistici che consentono di identificare variabili nascoste in un insieme di misure; queste variabili nascoste sono chiamate "fattori". Nelle analisi fattoriali, assumiamo che se i dati dipendono l'uno dall'altro, è perché sono collegati a fattori a loro comuni. Il vantaggio dei fattori sta nel fatto che un piccolo numero di fattori spiega quasi altrettanto bene i dati quanto l'insieme di variabili, il che è utile quando ci sono un gran numero di variabili. Il fattore tecnico decompongono principalmente analisi principale componente , analisi delle componenti indipendenti , analisi delle corrispondenze , analisi delle corrispondenze multiple e scaling multidimensionale .

Per fissare le idee, l'analisi delle componenti principali abbina variabili quantitative che descrivono individui, fattori e componenti principali, in modo tale che la perdita di informazioni sia minima. In effetti, le componenti sono organizzate in ordine crescente di perdita di informazioni, la prima che perde di meno. Le componenti non sono linearmente correlate tra loro e gli individui vengono proiettati sugli assi definiti dai fattori rispettando la distanza che esiste tra loro. Le somiglianze e le differenze sono spiegate dai fattori.

Analisi fattoriale di corrispondenza e MCA corrispondono a variabili qualitative che descrivono le caratteristiche degli individui, fattori che utilizzano la tabella di contingenza , o la tabella di Burt nel caso di MCA, in modo tale che i fattori siano costituiti da variabili numeriche che meglio separano i valori di le variabili qualitative iniziali, che due individui sono vicini se hanno approssimativamente gli stessi valori delle variabili qualitative e che i valori di due variabili qualitative sono vicini se sono praticamente gli stessi individui che li possiedono.

Possiamo anche utilizzare metodi nati nell'ovile dell'intelligenza artificiale e più in particolare in quello del machine learning . La classificazione senza supervisione è una famiglia di metodi che consentono di raggruppare gli individui in classi, la cui caratteristica è che gli individui della stessa classe si somigliano, mentre quelli di due classi differenti sono dissimili. Le classi della classificazione non sono note in anticipo, vengono scoperte dal processo. In generale, i metodi di classificazione servono a rendere omogenei dati non omogenei a priori, e quindi consentono di elaborare ogni classe con algoritmi sensibili ai valori anomali. In questa prospettiva, i metodi di classificazione costituiscono un primo passo nel processo di analisi.

Queste tecniche mutuate dall'intelligenza artificiale utilizzano il partizionamento di tutte le informazioni ma anche il recupero . Il partizionamento è l'obiettivo degli algoritmi che utilizzano, ad esempio, metodi come quelli di k-means ("nuvole dinamiche" in francese), k-medoids ( k-medoids ), k-mode e k-prototypes, che possiamo usare per trovare outlier , reti Kohonen , che possono essere utilizzate anche per la classificazione, l' algoritmo EM o AdaBoost . La classificazione gerarchica è un caso speciale per il quale i prodotti grafici di partizionamento sono facilmente comprensibili. I metodi ascendenti partono dagli individui che vengono aggregati in classi, mentre i metodi discendenti partono dall'insieme e per divisioni successive arrivano agli individui che compongono le classi. Di fronte è stato disegnato il grafico di una classificazione ascendente per mostrare come le classi più vicine sono collegate tra loro per formare classi di livello superiore.

La sovrapposizione logica fuzzy è una forma di sovrapposizione dell'insieme di individui rappresentati dalle righe di una matrice in cui alcuni di essi hanno una probabilità diversa da zero di appartenere a due classi differenti. L'algoritmo più noto di questo tipo è FCM ( Fuzzy c-means ).

Da citare anche l' iconografia delle correlazioni associate all'uso delle Interazioni Logiche , metodo geometrico che ben si presta all'analisi di reti complesse di relazioni multiple.

In bioinformatica vengono utilizzate tecniche di doppia classificazione per raggruppare contemporaneamente in classi differenti gli individui e le variabili che li caratterizzano.

Per rendere conto dell'utilità di questi metodi di recupero, è necessario ricordare che la classificazione è un problema la cui grande complessità è stata definita da Eric Bell . Il numero di partizioni di un insieme di oggetti è pari a: . È quindi meglio disporre di metodi efficienti e veloci per trovare una partizione che risponda al problema posto piuttosto che passare attraverso tutte le possibili soluzioni.

Infine, quando l'analisi non si concentra su individui, elementi o oggetti, ma sulle relazioni che esistono tra loro, la ricerca di regole di associazione è lo strumento appropriato. Questa tecnica è stata originariamente utilizzata per l'analisi del carrello della spesa o l'analisi della sequenza. In questo caso, permette di sapere quali prodotti vengono acquistati contemporaneamente, ad esempio in un supermercato, da un numero molto elevato di clienti; viene applicato anche per risolvere problemi di analisi del percorso di navigazione del sito web. La ricerca delle regole di associazione può essere utilizzata in modo supervisionato; gli algoritmi APriori , GRI , Carma, ARD o anche PageRank utilizzano questa tecnica.

Metodi predittivi

Definizione

Lo scopo dei metodi predittivi è spiegare o prevedere uno o più fenomeni osservabili e misurati in modo efficace. In concreto, saranno interessati a una o più variabili definite come obiettivi dell'analisi. Ad esempio, valutare la probabilità che un individuo acquisti un prodotto rispetto a un altro, la probabilità di rispondere a un'operazione di marketing diretto , la probabilità di contrarre una particolare malattia, curarla, possibilità che un individuo che ha visitato una pagina di un sito web torni ad esso, sono tipicamente obiettivi che possono essere raggiunti con metodi predittivi.

Nel data mining predittivo, ci sono due tipi di operazioni: discriminazione o classificazione e regressione o previsione, tutto dipende dal tipo di variabile da spiegare. La discriminazione riguarda le variabili qualitative, mentre la regressione riguarda le variabili continue.

I metodi di classificazione e previsione consentono di separare gli individui in più classi. Se la classe è nota a priori e l'operazione di classificazione consiste nell'analizzare le caratteristiche degli individui per collocarli in una classe, il metodo si dice “supervisionato”. Altrimenti, parliamo di metodi "non supervisionati", essendo questo vocabolario derivato dall'apprendimento automatico . La differenza tra i metodi descrittivi di classificazione che abbiamo visto in precedenza e i metodi predittivi di classificazione deriva dal fatto che il loro obiettivo è diverso: il primo "ridurre, riassumere, sintetizzare i dati" per dare una visione più chiara dei dati. 'cluster di dati, mentre il secondo spiega una o più variabili obiettivo al fine di prevedere i valori di questi obiettivi per i nuovi arrivati.

Esempi

Possiamo fare riferimento ad alcuni esempi di metodi predittivi e presentarli in base al campo da cui provengono.

Tra i metodi derivati ​​dall'intelligenza artificiale, l'analista sarà in grado di utilizzare alberi decisionali , a volte per la previsione, a volte per discretizzare dati quantitativi, ragionamento basato sui casi , reti neurali , neuroni a base radiale per la classificazione e l'approssimazione di funzioni, o forse algoritmi genetici , alcuni a sostegno delle reti bayesiane, altri come Timeweaver alla ricerca di eventi rari.

Se l'analista è più incline a utilizzare metodi derivati ​​dalla statistica e dalla probabilità, si rivolgerà a tecniche di regressione lineare o non lineare in senso lato per trovare una funzione di approssimazione, l'analisi discriminante di Fisher , la regressione logistica e la regressione logistica PLS per prevedere una variabile categoriale , o il modello lineare generalizzato (GLM), il modello additivo generalizzato (GAM) o il modello log-lineare e modelli di regressione multipla postulati e non postulati per prevedere una variabile multidimensionale.

Per quanto riguarda l'inferenza bayesiana e più in particolare le reti bayesiane , possono essere utili all'analista se cerca le cause di un fenomeno o cerca la probabilità del verificarsi di un evento.

Se desidera completare i dati mancanti, il metodo dei k vicini più vicini (K-nn) rimane a sua disposizione.

L'elenco degli algoritmi si evolve ogni giorno, perché non hanno tutti lo stesso scopo, non si applicano agli stessi dati di input e nessuno è ottimale in tutti i casi. Inoltre, si dimostrano complementari tra loro nella pratica e combinandoli in modo intelligente costruendo modelli di modelli o metamodelli , è possibile ottenere prestazioni e guadagni qualitativi molto significativi. L'ICDM-IEEE ha stilato nel 2006 una classifica dei 10 algoritmi con maggiore influenza nel mondo del data mining: questa classifica è un valido aiuto nella scelta e nella comprensione di questi algoritmi.

La Stanford University ha messo in competizione nella sua stagione autunnale nel 2007 entrambe le squadre sul seguente progetto: basandosi sui film di base visti da ogni cliente di una rete di distribuzione i cui abbonamenti sono pagati con carta magnetica, determinare il pubblico più probabile per un film che ha ancora da vedere. Un team si è concentrato sulla ricerca di algoritmi estremamente fini dalle informazioni nel database, un altro, al contrario, ha preso algoritmi estremamente semplici, ma ha combinato il database fornito dal distributore con il contenuto di Internet Movie Database. (IMDB) per arricchirlo. le sue informazioni. La seconda squadra ha ottenuto risultati molto più precisi. Un articolo suggerisce che l' efficienza di Google è dovuta meno al suo algoritmo PageRank che alla grande quantità di informazioni che Google può correlare facendo riferimenti incrociati alle cronologie delle query e analizzando il comportamento di navigazione dei suoi utenti su diversi siti.

Con i moderni mezzi informatici, l'una o l'altra di queste due soluzioni può essere considerata in ogni progetto, ma sono apparse altre tecniche che hanno dimostrato la loro efficacia nel migliorare la qualità dei modelli e le loro prestazioni.

Qualità e prestazioni

Un modello di qualità è un modello veloce, il cui tasso di errore dovrebbe essere il più basso possibile. Non deve essere sensibile alle fluttuazioni nel campione per i metodi supervisionati, deve essere robusto e resistere a lenti cambiamenti nei dati. Inoltre, essere semplice, comprensibile e produrre risultati facilmente interpretabili ne aumenta il valore. Infine, può essere configurato per essere riutilizzabile.

Diversi indicatori vengono utilizzati per valutare la qualità di un modello, e tra questi il ROC e le curve di portanza , l' indice di Gini e l' errore quadratico medio della radice mostrano dove si trova la previsione in relazione alla realtà e quindi danno una buona idea del valore di questa componente della qualità del modello.

Robustezza e precisione sono altri due aspetti della qualità del modello. Per ottenere un modello efficiente, la tecnica consiste nel limitare l'eterogeneità dei dati, ottimizzare il campionamento o combinare i modelli.

La pre-segmentazione propone di classificare la popolazione, quindi di costruire un modello su ciascuna delle classi in cui i dati sono più omogenei e infine di aggregare i risultati.

Con l'aggregazione del modello, l'analista applica lo stesso modello a campioni leggermente diversi dal campione originale, quindi associa i risultati. Il bagging e il boosting sono stati i più efficaci e più popolari nel 1999. Nel marketing, ad esempio, l'algoritmo Uplift utilizza la tecnica del bagging per produrre modelli di identificazione di gruppi di persone che possono rispondere a un'offerta commerciale dopo la sollecitazione.

Infine, la combinazione di modelli porta l'analista ad applicare più modelli alla stessa popolazione ea combinare i risultati. Tecniche come l'analisi discriminante e le reti neurali, ad esempio, sono facilmente combinabili.

Strumenti IT

Software

Il data mining non esisterebbe senza strumenti. L'offerta IT è presente sotto forma di software e anche su alcune piattaforme specializzate. Molto software è presente nella sfera del software commerciale , ma ce n'è anche in quella del software libero . Non esiste software migliore di altri, tutto dipende da cosa vuoi farci. Il software commerciale è più pensato per le aziende o le organizzazioni con grandi volumi di dati da esplorare, mentre il software libero è pensato più in particolare per gli studenti, coloro che vogliono sperimentare nuove tecniche e le PMI. Nel 2009 , gli strumenti più utilizzati sono stati, nell'ordine, SPSS , RapidMiner  (en) , SAS , Excel , R , KXEN  (en) , Weka , Matlab , KNIME , Microsoft SQL Server , Oracle DM  (en) , STATISTICA e CORICO ( Iconografia delle correlazioni ). Nel 2010 , R è stato lo strumento più utilizzato tra gli utenti che hanno risposto al sondaggio Rexer Analytics e STATISTICA è apparso lo strumento preferito dalla maggior parte dei cercatori di dati (18%). STATISTICA , IBM SPSS Modeler e R hanno ricevuto le più alte valutazioni di soddisfazione sia nel 2010 che nel 2009 in questo sondaggio Rexer Analytics .

Cloud computing

Il cloud computing ( cloud computing ) non è uno strumento di data mining, ma un insieme di servizi web, forniti dai provider via Internet, per accogliere e / o utilizzare i dati e i software. Tuttavia, ci sono servizi che possono essere utilizzati nel campo del data mining. Oracle Data mining è esposto su IaaS di Amazon offrendo ai clienti un'immagine della macchina Amazon contenente un database Oracle che include un HMI per il data mining; un'immagine per R e Python è disponibile anche su Amazon Web Services . Gli attori presenti esclusivamente nel cloud e specializzati nel campo del data mining offrono i loro servizi come Braincube , In2Cloud , Predixion e Cloud9Analytics tra gli altri.

Limiti e problemi

Il data mining è una tecnica che ha i suoi limiti e pone alcuni problemi.

Limiti

Il software non è autosufficiente. Gli strumenti di data mining non offrono un'interpretazione dei risultati, un analista specializzato in data mining e una persona che conosce la professione da cui vengono estratti i dati sono necessari per analizzare i deliverable del software.

Inoltre, il software di data mining fornisce sempre un risultato, ma nulla indica che sia rilevante né fornisce un'indicazione della sua qualità. Ma, sempre di più, le tecniche di assistenza alla valutazione vengono implementate in software libero o commerciale.

Le relazioni tra le variabili non sono chiaramente definite. Gli strumenti di esplorazione dei dati indicano che tali e tali variabili hanno un'influenza sulla variabile da spiegare, ma non dicono nulla sul tipo di relazione, in particolare non è detto se le relazioni siano causa ed effetto .

Inoltre, può essere molto difficile riprodurre chiaramente, tramite grafici, curve o istogrammi, i risultati dell'analisi. Il non tecnico a volte avrà difficoltà a comprendere le risposte che gli vengono date.

I problemi

Per un francofono, neofita d'altronde, il vocabolario è una difficoltà o addirittura un problema. Per rendersene conto, è interessante specificare il vocabolario incontrato nella letteratura francese e anglosassone. Prendendo come riferimento il vocabolario anglosassone, il clustering viene inteso nel data mining come segmentazione, nelle statistiche e nell'analisi dei dati come classificazione. La classificazione in inglese corrisponde alla classificazione nel data mining, all'analisi discriminante o alla classificazione nell'analisi dei dati in stile francese e ad un problema decisionale nelle statistiche. Infine, gli alberi decisionali sono alberi decisionali nel data mining e in questo caso possiamo sentire parlare di segmentazione nel campo dell'analisi dei dati. La terminologia non è chiara.

La qualità dei dati , vale a dire la pertinenza e la completezza dei dati, è una necessità per il data mining, ma non sufficiente. Errori di immissione dati, record duplicati, dati non compilati o compilati senza riferimento al tempo influiscono anche sulla qualità dei dati. Le aziende stanno mettendo in atto strutture e procedure di garanzia della qualità dei dati per essere in grado di rispondere efficacemente alle nuove normative esterne e agli audit interni e per aumentare la redditività dei loro dati che considerano parte del loro patrimonio.

L' interoperabilità di un sistema è la sua capacità di lavorare con altri sistemi creati da diversi fornitori. I sistemi di data mining devono essere in grado di lavorare con i dati provenienti da più sistemi di gestione di database , tipi di file , tipi di dati e sensori diversi. Inoltre, l'interoperabilità richiede la qualità dei dati. Nonostante gli sforzi dell'industria per l'interoperabilità, sembra che in alcune aree questa non sia la regola.

I dati vengono raccolti per rispondere a una domanda posta dalla professione. Un rischio del data mining è l'uso di questi dati per uno scopo diverso da quello inizialmente assegnato. Il dirottamento dei dati è l'equivalente della citazione fuori contesto. Inoltre, può portare a problemi etici.

La privacy delle persone può essere minacciata da progetti di data mining, se non vengono prese precauzioni, in particolare nella ricerca del web e nell'uso dei dati personali raccolti su Internet o possono essere esposte abitudini di acquisto, preferenze e persino la salute delle persone. Un altro esempio è fornito dall'Information Awareness Office e in particolare dal programma Total Information Awareness (TIA) che ha sfruttato appieno la tecnologia di data mining e che è stato uno dei progetti " post-11 settembre "   che il Congresso degli Stati Uniti aveva iniziato a finanziare , ma poi lo ha abbandonato a causa delle minacce particolarmente significative che questo programma poneva alla privacy dei cittadini americani. Ma anche senza essere divulgati, i dati personali raccolti dalle aziende, tramite strumenti di gestione delle relazioni con i clienti (CRM), registratori di cassa , bancomat , tessere sanitarie ,  ecc. , può portare, con tecniche di data mining, a classificare le persone in una gerarchia di gruppi, da buone a cattive, potenziali clienti, clienti, pazienti, o qualunque ruolo si svolga in un dato momento della vita sociale , secondo criteri sconosciuti alle persone loro stessi. In questa prospettiva, e per correggere questo aspetto negativo, Rakesh Agrawal e Ramakrishnan Sikrant mettono in dubbio la fattibilità del data mining che preserverebbe la privacy delle persone. Un altro problema è la memorizzazione dei dati necessari per lo scavo, poiché i dati digitali possono essere violati . E in questo caso lo scoppio di dati su database distribuiti e la crittografia fanno parte delle risposte tecniche che esistono e che possono essere messe in atto dalle aziende.

Ricerche specializzate

Alcune società o gruppi si sono specializzati, ad esempio Acxiom , Experian Information Solutions , D & B e Harte-Hanks per i dati di consumo o Nielsen NV per i dati sul pubblico.

Oltre al data mining (descritto sopra), possono essere definite specializzazioni tecniche classiche di data mining come ricerca di immagini ( picture mining ), web mining ( web data mining ), data stream mining ( data stream mining ) e text mining ( text mining ) si stanno sviluppando negli anni 2010 e hanno attirato l'attenzione di molti ricercatori e industrie, compresi i rischi della trasmissione di dati personali che fanno correre le persone.

Il software per classificare gli individui in base al loro background sociale e alle loro caratterizzazioni dei consumatori viene utilizzato da queste società (ad esempio Claritas Prizm (creato da Claritas Inc. e acquisito da Nielsen Company .

Per tipi di dati

L' audio mining , una tecnica più recente, a volte correlata al data mining, può rilevare i suoni in un flusso audio. Viene utilizzato principalmente nel campo del riconoscimento vocale e / o si basa su di esso.

L' immagine di ricerca è la tecnica che interessa al contenuto dell'immagine. Estrae caratteristiche da un insieme di immagini, ad esempio dal web, per classificarle, raggrupparle per tipo o per riconoscere forme in un'immagine per cercare copie di questa immagine o per rilevare un particolare oggetto , ad esempio.

Il text mining è l'esplorazione dei testi al fine di estrarre una conoscenza di alta qualità. Questa tecnica viene spesso definita anglicismo di estrazione del testo . Si tratta di un insieme di elaborazioni informatiche consistenti nell'estrarre conoscenza secondo un criterio di novità o somiglianza, in testi prodotti da esseri umani per esseri umani. In pratica, ciò equivale a inserire negli algoritmi un modello semplificato di teorie linguistiche nei sistemi informatici per l'apprendimento e la statistica. Le discipline coinvolte sono quindi la linguistica computazionale , l' ingegneria del linguaggio , l' apprendimento automatico , la statistica e l' informatica .

Da ambienti tecnici

Si tratta di sfruttare, con lo scavo del web , l'enorme fonte di dati che costituisce il web e di trovare modelli e schemi nell'uso, nel contenuto e nella struttura del web. Lo scavo dell'uso del web ( mining di utilizzo del Web o mining di log Web ) è il processo di estrazione di informazioni utili memorizzato nei log del server. Questo mining sfrutta il text mining per analizzare i documenti di testo. Esplorare la struttura del web è il processo di analisi delle relazioni, a priori sconosciute, tra documenti o pagine archiviate sul web.

Il data stream mining ( data stream mining ) è la tecnica per esplorare i dati che arrivano in un flusso costante, illimitato, con grande rapidità, e alcuni fondamentali cambiano nel tempo: ad esempio, l'analisi dei flussi di dati emessi dai sensori automobilistici. Ma esempi di applicazioni possono essere trovati nei campi delle telecomunicazioni, della gestione della rete, della gestione del mercato finanziario, della sorveglianza e nei campi delle attività della vita quotidiana, più vicini alle persone, come l'analisi dei flussi ATM , le transazioni con carte di credito,  ecc.

Per campi di attività

Il data mining spaziale ( Spatial data mining ) è l'esplorazione tecnica di dati geografici sulla nostra scala sulla Terra, ma anche astronomici o microscopici , il cui scopo è trovare modelli interessanti nei dati contenenti sia dati temporali testuali che dati geometrici, come i vettori , cornici o grafici. I dati spaziali forniscono informazioni a scale diverse, fornite da tecniche diverse, in formati diversi, su un periodo di tempo spesso lungo per l'osservazione dei cambiamenti. I volumi sono quindi molto grandi, i dati possono essere imperfetti e rumorosi. Inoltre, le relazioni tra i dati spaziali sono spesso implicite: in questa specializzazione si incontrano frequentemente relazioni di insieme , topologiche , direzionali e metriche . Il data mining spaziale è quindi particolarmente difficile.

L'estrazione di dati spaziali viene utilizzata per esplorare i dati delle scienze della terra, i dati di mappatura della criminalità, i dati del censimento , il traffico stradale , le epidemie di cancro ,  ecc.

Nel futuro

Il futuro del data mining dipende dal futuro dei dati digitali. Con l'avvento del Web 2.0 , dei blog , dei wiki e dei servizi cloud si assiste ad un'esplosione del volume di dati digitali e sono quindi significativi i depositi di materie prime per il data mining.

Molti campi utilizzano ancora poco il data mining per le proprie esigenze. L'analisi dei dati della blogosfera è ancora agli inizi. Comprendere l '"ecologia dell'informazione" per analizzare come funzionano i media Internet, ad esempio, è solo all'inizio.

Fintanto che i problemi legati alla privacy delle persone sono risolti, il data mining può aiutare ad affrontare le questioni in campo medico, e in particolare nella prevenzione dei rischi ospedalieri.

Senza andare oltre la fantascienza di Minority Report , le tecniche di profiling senza a priori sono rese possibili dal data mining, che può porre alcuni nuovi problemi etici. Un documentario della BBC Horizon riassume alcune di queste domande.

Infine, con l'emergere di nuovi dati e nuovi campi, le tecniche continuano a svilupparsi.

Note e riferimenti

Appunti

  1. Termine raccomandato in Canada dall'OQLF e in Francia dal DGLFLF ( Gazzetta ufficiale del 27 febbraio 2003) e da FranceTerme
  2. seguendo lo stesso esempio, permette di rispondere alla domanda: "Quale potrebbe essere il fatturato in un mese?" "
  3. . Queste distribuzioni sono facili da calcolare, e tra esse troviamo leggi già ampiamente utilizzate (legge normale, distribuzione esponenziale negativa, leggi Zipf e Mandelbrot ...), con metodi estranei a quelle che le hanno stabilite. Il fitness test di una distribuzione al modello del "Psi test" di calcolo dell'entropia residua, è asintoticamente equivalente alla Legge del χ² .
  4. vedere in questo documento gli sforzi di standardizzazione e interoperabilità compiuti dall'industria (in) Arati kadav Aya Kawale e Pabitra Mitra, Data Mining Standards  " [PDF] su datamininggrid.org (visitato il 13 maggio 2011 )
  5. Ad esempio, un programma di gestione della posta elettronica potrebbe tentare di classificare un'e-mail come posta legittima o come spam . Gli algoritmi comunemente usati includono alberi decisionali , vicini più prossimi , classificazione bayesiana ingenua , reti neurali e separatori a margine ampio (SVM)
  6. Alcuni dei quali possono essere descritti qui: Guillaume Calas, "  Studies of the main data mining algoritmi  " [PDF] , su guillaume.calas.free.fr ,2009(visitato il 14 maggio 2011 )
  7. Come CART , CHAID , ECHAID , QUEST , C5 , C4.5 e le foreste di alberi decisionali
  8. Come perceptrons a uno o più strati con o senza backpropagation di errori
  9. Come la regressione lineare , lineare multipla , logistica , PLS , ANOVA , MANOVA , ANCOVA o MANCOVA .
  10. Vedere il glossario del data mining per la definizione di "robustezza" e "precisione".
  11. IaaS significa Infrastruttura come servizio chiamato Amazon Elastic Compute Cloud su Amazon
  12. Poiché i modelli di data mining riguardano dati aggregati da cui vengono eliminati i dati personali.
  13. Secondo Tim Finin, Anupam Joshi, Pranam Kolari, Akshay Java, Anubhav Kale e Amit Karandikar, "  L'ecologia dell'informazione dei social media e delle comunità online  " , su aisl.umbc.edu (consultato il 19 giugno 2011 ) .
Libri specializzati
  1. Tufféry 2010 , p.  506
  2. Nisbet, Elder and Miner 2009 , p.  733
  3. Tufféry 2010 , p.  44
  4. Tuffery 2010 , p.  161
  5. Tuffery 2010 , p.  198
  6. Tufféry 2010 , p.  244
  7. Tufféry 2010 , p.  297
  8. Nisbet, Elder and Miner 2009 , p.  235
  9. Tufféry 2010 , p.  518
  10. Tuffery 2010 , p.  121
  11. Tufféry 2010 , p.  158
  12. Kargupta et al. 2009 , p.  283
  13. Kargupta et al. 2009 , p.  357
  14. Kargupta et al. 2009 , p.  420
  15. Kargupta et al. 2009 , p.  471
  16. Kargupta et al. 2009 , p.  1-281
Altri riferimenti
  1. "  Definizione di Data Mining Data Mining  "
  2. "Workshop Etalab del 13 ottobre 2011: Datajournalisme" ( 4 ° Workshop di Etalab, 70 partecipanti il ​​13 ottobre 2011), con video online, accesso 8 ottobre 2013.
  3. (in) Kurt Thearling, An Introduction to Data Mining  " su thearling.com (Accesso 2 maggio 2011 ) .
  4. Jean-Claude Oriol, "  Un approccio storico alle statistiche  " [PDF] , sulla statistix.fr (accessibile 12 maggio 2011 )
  5. (in) Myron Tribus, Descrizioni, decisioni e progetti razionali ,1969, 478  p. ( leggi online ).
  6. (a) Nikhil Pal e Lakhmi Jain , tecnici avanzati nella scoperta della conoscenza e nel data mining , Springer,2005, 254  p. ( ISBN  978-1-85233-867-1 )
  7. (in) Carole Albouy, "  Once upon a time ... data mining  " su lafouillededonnees.blogspirit.com (visitato il 23 ottobre 2011 )
  8. (in) Patricia Cerrito, A Data Mining Applications Area in the Department of Mathematics  " [PDF] su math.louisville.edu (visitato il 31 maggio 2011 )
  9. (in) Maryann Lawlor, Smart Companies Dig Data  " su afcea.org (visitato il 31 maggio 2011 )
  10. Christine Frodeau, "  data mining, Consumer Behaviour Prediction strumento  " [PDF] , sulla creg.ac-versailles.fr (accessibile 12 maggio 2011 )
  11. (in) Colleen McCue , Data Mining and Predictive Analysis: intelligence gathering and crime analysis , Amsterdam / Boston, Elsevier,2007, 313  p. ( ISBN  978-0-7506-7796-7 )
  12. Frank Audet e Malcolm Moore, "  Miglioramento della Qualità in un call center  " [PDF] , a jmp.com (accessibile 12 maggio 2011 )
  13. (in) Henry Abarbanel, Curtis Callan, William Dally, Freeman Dyson , Terence Hwa, Steven Koonin, Herbert Levine, Oscar Rothaus Roy Schwitters, Christopher Stubbs e Peter Weinberger, Data mining and the human genome  " [PDF] su fas. org (visitato il 12 maggio 2011 ) , p.  7
  14. (in) Industries / Fields for Analytics / Data Mining in 2010  " su kdnuggets.com ,ottobre 2010(visitato il 12 maggio 2011 )
  15. (in) Yi Peng , Gang Kou , Yong Shi e Zhengxin Chen , "  A Descriptive Framework for the Field of Data Mining and Knowledge Discovery  " , International Journal of Information Technology and Decision Making , vol.  7, n o  4,2008, p.  Da 639 a 682 (10.1142 / S0219622008003204)
  16. (in) SIGKDD  : Official Website  " su sigkdd.org (visitato il 13 maggio 2011 )
  17. (in) ACM SIGKDD: Conferences  " su kdd.org (visitato il 13 maggio 2011 )
  18. (in) ACM, New York , SIGKDD Explorations  " su kdd.org (visitato il 13 maggio 2011 )
  19. (in) "  5th (2009)  " , su dmin--2009.com (visitato il 13 maggio 2011 )
  20. (in) "  4th (2008)  " , su dmin-2008.com (visitato il 13 maggio 2011 )
  21. (in) "  3rd (2007)  " , su dmin-2007.com (visitato il 13 maggio 2011 )
  22. (in) "  2 of (2006)  " , su dmin-2006.com (visitato il 13 maggio 2011 )
  23. (in) "  1st (2005)  " , su informatik.uni-trier.de (visitato il 13 maggio 2011 )
  24. (in) ICDM  : Official Website  " su cs.uvm.edu (visitato il 13 maggio 2011 )
  25. (in) "  IEEE International Conference on Data Mining  " su informatik.uni-trier.de (visitato il 13 maggio 2011 )
  26. (in) "  ICDM09, Miami, FL  " su cs.umbc.edu (visitato il 13 maggio 2011 )
  27. (in) ICDM08, Pisa (Italy)  " su icdm08.isti.cnr.it (visitato il 13 maggio 2011 )
  28. (in) ICDM07, Omaha, NE  " su ist.unomaha.edu (visitato il 13 maggio 2011 )
  29. (in) "  ICDM06, Hong Kong  " su comp.hkbu.edu.hk (visitato il 13 maggio 2011 )
  30. (in) ICDM05, Houston, TX  " su cacs.ull.edu (visitato il 13 maggio 2011 )
  31. (in) ICDM04, Brighton (UK)  " su icdm04.cs.uni-dortmund.de (visitato il 13 maggio 2011 )
  32. ( entra ) ICDM01, San Jose, CA.  » , Su cs.uvm.edu (consultato il 13 maggio 2011 )
  33. (en) CRoss Industry Standard Process for Data Mining  : Process Model  " , su crisp-dm.org ,2007(visitato il 14 maggio 2011 )
  34. (in) Usama Fayyad, Gregory Piatetsky-Shapiro e Padhraic Smyth, From Data Mining to Knowledge Discovery in Databases  " [PDF] su kdnuggets.com ,1996(visitato il 14 maggio 2011 )
  35. (in) STATISTICA, Statistics Glossary, Models for Data Mining  " su statsoft.com (visitato il 13 maggio 2011 )
  36. (in) SAS SEMMA  " su sas.com (visitato il 13 maggio 2011 )
  37. (in) Ana Azevedo e Manuel Filipe Santos , KDD SEMMA e CRISP-DM: una panoramica parallela  " [PDF] , IADIS,2008( ISBN  978-972-8924-63-8 , consultato il 14 maggio 2011 ) ,p.  184
  38. isixsigma, Che cos'è il Six Sigma?  » , Su isixsigma.com (consultato il 15 maggio 2011 )
  39. StatSoft, Six Sigma DMAIC  " , su statsoft.com (accesso 15 maggio 2011 )
  40. (in) Six Sigma on line  " , Aveta Business Institute (visitato il 15 maggio 2011 )
  41. (in) Cosa sono la convalida incrociata e il bootstrap?  » , Su faqs.org (consultato il 15 maggio 2011 )
  42. (in) Jing Gao Jiawei Han e Wei Fan, On the Power of Together: Supervised and Unsupervised Methods Reconciled  " su ews.uiuc.edu (visitato il 15 maggio 2011 )
  43. (in) Mary McGlohon, Data Mining Disasters: a postponement  " [PDF] su cs.cmu.edu (visitato il 14 maggio 2011 ) , p.  2
  44. (in) An Introduction to Ensemble Methods  " su DRC (visitato il 14 maggio 2011 )
  45. (a) Dorian Pyle , Data Preparation for Data Mining , Morgan Kaufmann,1999, 560  p. ( ISBN  978-1-55860-529-9 , leggi in linea )
  46. (in) Kurt Thearling, "  " 'An Introduction to Data Mining » , Su thearling.com (consultato il 14 maggio 2011 ) ,p.  17
  47. Stéphane Tufféry, "  Descriptive Techniques  " [PDF] , su data.mining.free.fr ,2007(visitato il 14 maggio 2011 ) ,p.  5
  48. Jacques Baillargeon, "  Analisi fattoriale esplorativa  " [PDF] , su uqtr.ca ,2003(visitato il 14 maggio 2011 ) ,p.  4
  49. Philippe Besse e Alain Baccini, “  Esplorazione Statistica  ” [PDF] , il math.univ-toulouse.fr ,giugno 2010(visitato il 14 maggio 2011 ) ,p.  7 e seguenti.
  50. Alexandre Aupetit, "  Reti neurali artificiali: una piccola introduzione  " , su labo.algo.free.fr ,Maggio 2004(visitato il 14 maggio 2011 )
  51. (in) Nikhil R. Pal, Pal Kuhu James M. Keller e James C. Bezdek, Fuzzy C-Means Clustering of Incomplete Data  " [PDF] su comp.ita.br ,Agosto 2005(visitato il 14 maggio 2011 )
  52. (a) ICDM Top 10 algoritmi di data mining  " [PDF] sulla cs.uvm.edu (accessibile 14 MAGGIO 2011 )
  53. (in) Wei-Yin Loh e Shih Yu-Shan, Metodi di selezione divisa per alberi di classificazione  " [PDF] su math.ccu.edu.tw ,1997(visitato il 14 maggio 2011 )
  54. (in) Leo Breiman , Random Forests  " [PDF] su springerlink.com ,2001(visitato il 14 maggio 2011 )
  55. Ricco Rakotomalala, "  Decision Trees  " [PDF] , su www-rocq.inria.fr ,2005(visitato il 14 maggio 2011 )
  56. (a) Simon Haykin , Neural Networks: A complete Foundation , Prentice Hall ,1998, 842  p. ( ISBN  978-0-13-273350-2 )
  57. M. Boukadoum, "  Radial Base Neural Networks  " [ppt] , su labunix.uqam.ca (visitato il 14 maggio 2011 )
  58. Jean-Marc Trémeaux, "  Algoritmi genetici per l'identificazione strutturale delle reti bayesiane  " [PDF] , su naku.dohcrew.com ,2006(visitato il 14 maggio 2011 )
  59. Thomas Vallée e Murat Yıldızoğlu, "  Presentazione degli algoritmi genetici e delle loro applicazioni in economia  " [PDF] , su sc-eco.univ-nantes.fr ,2003(visitato il 14 maggio 2011 ) ,p.  15
  60. Olivier Parent e Julien Eustache, "  Les Réseaux Bayésiens  " [PDF] , su liris.cnrs.fr ,2006(visitato il 14 maggio 2011 )
  61. Gilles Balmisse, "  The Bayesian Networks  " [PDF] , su gillesbalmisse.com ,2006(visitato il 14 maggio 2011 )
  62. Samos, "  The Bayesian Networks  " [PDF] , su samos.univ-paris1.fr ,2003(visitato il 14 maggio 2011 )
  63. "  Per uscire dall'incertezza, entra nell'era delle reti bayesiane  " , Bayesia (accesso 14 maggio 2011 )
  64. Valérie Monbet, "  Missing data  " , su perso.univ-rennes1.fr (consultato il 14 maggio 2011 ) , p.  27
  65. Didier Durand, "  Google PageRank: l'algoritmo tiene conto di 200 parametri!  » , Su media-tech.blogspot.com ,2008(visitato il 14 maggio 2011 )
  66. Bertrand Liaudet, "  Cours de Data Mining 3: Modelisation Presentation Générale  " [PDF] , su bliaudet.free.fr (visitato il 14 maggio 2011 )
  67. (in) David Opitz e Richard Macklin, Popular Ensemble Methods: An Empirical Study  " [PDF] su d.umn.edu ,1999(visitato il 14 maggio 2011 )
  68. (in) Software Suites for Data Mining, Analytics and Knowledge Discovery  " su KDnuggets (accesso 15 maggio 2011 )
  69. "  Datamining platform for virtual universe editors  " , su marketingvirtuel.fr (accesso 15 maggio 2011 )
  70. (in) Dean W. Abbott, Philip I. Matkovsky e John Elder IV, 1998 IEEE International Conference on Systems, Man, and Cybernetics, San Diego, CA  " [PDF] su datamininglab.com ,14 ottobre 1998(visitato il 15 maggio 2011 )
  71. (in) Sondaggio sugli strumenti di data mining utilizzati  " su kdnuggets.com ,2009(visitato il 15 maggio 2011 )
  72. (in) Rexer Analytics , 2010 Data Miner Survey  " su rexeranalytics.com (visitato il 19 giugno 2011 )
  73. (in) Rexer Analytics  " , Rexer Analytics (visitato il 19 giugno 2011 )
  74. Dave Wells, Che succede con Cloud Analytics?  » , Su b-eye-network.com (consultato il 2 giugno 2011 )
  75. John Smiley e Bill Hodak, "  Oracle Database on Amazon EC2: An Oracle White Paper  " , su oracle.com (accesso 4 giugno 2011 )
  76. Drew Conway, "  Amazon EC2 configuration for scientific computing in Python and R  " , su kdnuggets.com (accesso 4 giugno 2011 )
  77. ipleanware.com
  78. In2Clouds Solutions  " , In2Cloud (accesso 5 giugno 2011 )
  79. Predixion, Cloud Predixion Solutions  " , su predixionsoftware.com (accesso 5 giugno 2011 )
  80. "  Panoramica della soluzione Cloud9  " , Cloud9 (accesso 14 giugno 2011 )
  81. (in) Jeffrey Seifer, CRS postponement for congress  " [PDF] su biotech.law.lsu.edu ,2007(visitato il 15 maggio 2011 )
  82. Laetitia Hardy, "  Perché la qualità dei dati sta diventando essenziale all'interno dell'azienda?  » , Su Decideo ,2007(visitato il 15 maggio 2011 )
  83. (in) Jeffrey Seifert, CRS postponement for congress  " [PDF] su biotech.law.lsu.edu ,2007(visitato il 15 maggio 2011 ) ,p.  27
  84. (in) International Workshop on Practical Privacy-Preserving Data Mining  " su cs.umbc.edu ,2008(visitato il 15 maggio 2011 )
  85. (in) Martin Meint e Jan Möller, Privacy Preserving Data Mining  " [PDF] su fidis.net (visitato il 15 maggio 2011 )
  86. (a) Kirsten Wahlstrom, John F. Roddick, Rick Sarre Vladimir Estivill-Castro e Denise de Vries, Legal and Technical Issues of Privacy Preservation in Data Mining  " su irma-international.org ,2007(visitato il 15 maggio 2011 )
  87. (in) Rakesh Agrawal e Ramakrishnan Sikrant , privacy-Preserving Data Mining  " [PDF] su cs.utexas.edu (visitato il 15 maggio 2011 )
  88. (in) Murat Kantarcioglu, Introduction to Privacy Preserving Distributed Data Mining  " [PDF] su wiki.kdubiq.org (visitato il 15 maggio 2011 )
  89. Patrick Gros, "  News from AS image mining & Emergence of semantic features  " [PDF] , on liris.cnrs.fr ,16 luglio 2003(visitato il 15 maggio 2011 )
  90. (in) Mohamed Medhat Gaber , Arkady Zaslavsky e Shonali Krishnaswamy, Data Streams: A Review  " [PDF] su sigmod.org ,2005(visitato il 15 maggio 2011 )
  91. (in) Chih-Hsiang Li, Ding Ying Chiu Yi-Hung Wu e Arbee LP Chen , Mining Frequent itemsets from Data Streams with a Time-Sensitive Sliding Window  " [PDF] su siam.org ,2005(visitato il 15 maggio 2011 )
  92. (a) Hillol Kargupta, Ruchita Bhargava, Kun Liu, Michael Powers, Patrick Blair , Samuel Bushra James Dull, Kakali Sarkar, Martin Klein, Mitesh Vasa e David Handy, Vedas: A Mobile and Distributed Data Stream Mining System for Real - Time Vehicle Monitoring  " [PDF] , su siam.org ,2004(visitato il 15 maggio 2011 )
  93. (in) Spatial Database and Spatial Data Mining Research Group  : Official Website  " su spatial.cs.umn.edu ,2011(visitato il 15 maggio 2011 )
  94. (in) Shashi Shekhar e Pusheng Zhang, Spatial Data Mining: Realizzazioni e necessità di ricerca  " [PDF] su spatial.cs.umn.edu ,2004(visitato il 15 maggio 2011 )
  95. "  IDC prevede un'esplosione del volume di dati prodotti in tutto il mondo entro 10 anni  " , su lemagit.fr (accesso 21 maggio 2011 )
  96. (in) Joseph A Bernstein, "  Big Idea: Seeing Crime Before It Happens  " Accesso a pagamento su discovermagazine.com ,23 gennaio 2012(accesso 23 settembre 2020 ) .
  97. (in) "L'  FBI potrebbe utilizzare la profilazione nelle indagini sul terrorismo  " su msnbc.com ,2 luglio 2008(accesso 23 settembre 2020 ) .
  98. L'era dei big data

Vedi anche

Articoli Correlati

Statistiche Intelligenza artificiale Aiuta con la decisione Applicazioni

Bibliografia

  • (en) Robert Nisbet , John Elder e Gary Miner , Handbook of Statistical Analysis & Data Mining Applications , Amsterdam / Boston, Academic Press,2009, 823  p. ( ISBN  978-0-12-374765-5 )Documento utilizzato per scrivere l'articolo
  • (it) Hillol Kargupta , Jiawei Han , Philip Yu , Rajeev Motwani e Vipin Kumar , Next Generation of Data Mining , CRC Press,2009, 3 e  ed. , 605  p. ( ISBN  978-1-4200-8586-0 ) Documento utilizzato per scrivere l'articolo
  • Stéphane Tufféry , Data Mining e statistiche sui processi decisionali: data intelligence , Parigi, edizioni Technip,2010, 705  p. ( ISBN  978-2-7108-0946-3 , leggi online )Documento utilizzato per scrivere l'articolo
  • (it) Phiroz Bhagat , Pattern Recognition inndustry , Amsterdam / Boston / London, Elsevier,2005, 200  p. ( ISBN  978-0-08-044538-0 )
  • (en) (en) Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification , Wiley-Interscience,2001( ISBN  0-471-05669-3 ) [ dettaglio delle edizioni ]
  • (en) Yike Guo e Robert Grossman , Data Mining ad alte prestazioni: Scaling Algorithms, Applications and Systems , Berlino, Springer,200, 112  p. ( ISBN  978-0-7923-7745-0 , leggi online )
  • (en) Ingo Mierswa, Michael Wurst, Ralf Klinkenberg, Martin Scholz e Tim Euler, YALE: Rapid Prototyping for Complex Data Mining Tasks  " , Atti della 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-06) , ACM,2006, p.  935-940 ( ISBN  1595933395 , DOI  10.1145 / 1150402.1150531 , presentazione online )
  • Daniel Larose ( trad.  Thierry Vallaud), Dai dati alla conoscenza: un'introduzione al data mining (1Cédérom) , Vuibert,2005, 223  p. ( ISBN  978-2-7117-4855-6 )
  • René Lefébure e Gilles Venturi , Data Mining: Customer Relationship Management: personalizzazioni del sito web , Eyrolles,2001, 392  p. ( ISBN  978-2-212-09176-2 )
  • (en) Pascal Poncelet , Florent Masseglia e Maguelonne Teisseire , Data Mining Patterns: New Methods and Applications , Idea Group Reference,2007, 307  p. ( ISBN  978-1-59904-162-9 )
  • (en) Pang-Ning Tan , Michael Steinbach e Vipin Kumar , Introduzione al data mining , Pearson Addison Wesley,2007, 769  p. ( ISBN  978-0-321-32136-7 e 0-321-32136-7 , OCLC  58729322 )
  • (en) Ian Witten e Eibe Frank , Data Mining: Practical Machine Learning Tools and Techniques , Morgan Kaufmann,1999, 371  p. ( ISBN  978-1-55860-552-7 , leggi in linea )
  • (en) Stéphane Tufféry , Data Mining and Statistics for Decision Making , John Wiley & Sons,2011, 716  p. ( ISBN  978-0-470-68829-8 )
  • (en) B. Efron , The Annals of Statistics: Bootstrap methods: Another look at the jackknife , Institute of Mathematical Statistics,1973( ISSN  0090-5364 )
  • (en) Leo Breiman , Machine Learning: Bagging predicors , Kluwer Academic Publishers Hingham,1996( ISSN  0885-6125 )