Albero decisionale (apprendimento)

L' albero decisionale dell'apprendimento è un metodo basato sull'uso di un albero decisionale come modello predittivo. Viene utilizzato in particolare nel data mining e nell'apprendimento automatico .

In queste strutture ad albero, le foglie rappresentano i valori della variabile di destinazione ei rami corrispondono a combinazioni di variabili di input che portano a questi valori. Nell'analisi delle decisioni, è possibile utilizzare un albero decisionale per rappresentare esplicitamente le decisioni prese ei processi che le conducono. Nell'apprendimento e nel data mining, un albero decisionale descrive i dati ma non le decisioni stesse, l'albero sarebbe utilizzato come punto di partenza per il processo decisionale.

È una tecnica di apprendimento supervisionato : utilizziamo un set di dati di cui conosciamo il valore della variabile target per costruire l'albero (i cosiddetti dati etichettati), quindi estrapoliamo i risultati al set di dati di test. Gli alberi decisionali sono tra gli algoritmi più popolari nell'apprendimento automatico .

Generale

L'apprendimento dell'albero decisionale è un metodo classico nell'apprendimento automatico . Il suo scopo è creare un modello che preveda il valore di una variabile di destinazione dal valore di diverse variabili di input.

Una delle variabili di input viene selezionata in ogni nodo interno (o nodo interno che non è terminale) dell'albero secondo un metodo che dipende dall'algoritmo e che verrà discusso in seguito. Ciascun bordo di un nodo figlio corrisponde a un insieme di valori di una variabile di input, in modo che l'insieme di bordi dei nodi figlio copra tutti i valori possibili della variabile di input.

Ciascuna foglia (o nodo terminale dell'albero) rappresenta un valore della variabile obiettivo o una distribuzione di probabilità dei vari valori possibili della variabile obiettivo. La combinazione dei valori delle variabili di input è rappresentata dal percorso dalla radice alla foglia.

L'albero è generalmente costruito separando l'insieme di dati in sottoinsiemi in base al valore di una caratteristica di input. Questo processo viene ripetuto su ogni sottoinsieme ottenuto ricorsivamente, quindi è un partizionamento ricorsivo.

La ricorsione viene completata in un nodo quando tutti i sottoinsiemi hanno lo stesso valore della caratteristica di destinazione o quando la separazione non migliora più la previsione. Questo processo è chiamato top-down induction of decision tree (TDIDT), è un algoritmo avido poiché cerchiamo in ogni nodo dell'albero la condivisione ottimale, al fine di ottenere la migliore condivisione possibile sull'intero albero decisionale. Questa è la strategia più comune per apprendere gli alberi decisionali dai dati.

Nel data mining, gli alberi decisionali possono aiutare nella descrizione, categorizzazione o generalizzazione di un set di dati fisso.

Il set di formazione viene solitamente fornito sotto forma di record del tipo:

$({\ textbf {x}}, Y) = (x_ {1}, x_ {2}, x_ {3}, ..., x_ {k}, Y)$

La variabile designa la variabile obiettivo che si cerca di prevedere, classificare o generalizzare. Il vettore è costituito da variabili di input, ecc. che vengono utilizzati per questo scopo. $Y$ ${\ displaystyle {\ textbf {x}}.}$ $x_ {1}, x_ {2}, x_ {3}$

Tipi

Esistono due tipi principali di alberi decisionali nel data mining:

Gli alberi di classificazione ( Albero di classificazione ) prevedono a quale classe appartiene la variabile di destinazione, in questo caso la previsione è un'etichetta di classe,

Gli alberi di regressione ( albero di regressione ) prevedono un importo effettivo (ad esempio, il prezzo di una casa o la durata della degenza di un paziente in un ospedale), in questo caso la previsione è un valore numerico.

Il termine Classification and Regression Tree Analysis ( CART , dopo l'acronimo) è un termine generico che si riferisce alle procedure precedentemente descritte e introdotte da Breiman et al .. Gli alberi utilizzati nel caso di regressione e nel caso di classificazione presentano somiglianze ma anche differenze, soprattutto per quanto riguarda la procedura utilizzata per determinare le separazioni dei rami.

Costruire un albero decisionale

L'apprendimento dell'albero decisionale consiste nella costruzione di un albero da un set di apprendimento composto da tuple etichettate. Un albero decisionale può essere descritto come un diagramma di flusso di dati (o diagramma di flusso ) in cui ogni nodo interno descrive un test su una variabile di apprendimento, ogni ramo rappresenta un risultato del test e ogni foglia contiene il valore della variabile di destinazione (un tag di classe per alberi di classificazione, un valore numerico per alberi di regressione).

Criterio di segmentazione

Solitamente, gli algoritmi per la costruzione degli alberi decisionali vengono costruiti dividendo l'albero dall'alto alle foglie scegliendo ad ogni passo una variabile di input che consenta la migliore condivisione dell'insieme di oggetti, come descritto in precedenza. Per scegliere la variabile di separazione su un nodo, gli algoritmi testano le diverse possibili variabili di input e selezionano quella che massimizza un dato criterio.

Caso di alberi di classificazione

Nel caso degli alberi di classificazione, questo è un problema di classificazione automatica . Il criterio di valutazione della partizione caratterizza l'omogeneità (o il guadagno in omogeneità) dei sottoinsiemi ottenuti per divisione dell'insieme. Queste metriche vengono applicate a ciascun sottoinsieme candidato ei risultati vengono combinati (ad esempio, mediati) per produrre una misura della qualità della separazione.

Esiste un gran numero di tali criteri, i più utilizzati sono l'entropia di Shannon , l'indice di diversità di Gini e le loro varianti.

Indice di diversità Gini: utilizzato dall'algoritmo CART , misura la frequenza con cui un elemento casuale nell'insieme sarebbe classificato erroneamente se la sua etichetta fosse scelta casualmente in base alla distribuzione delle etichette nel sottoinsieme. L'indice di diversità di Gini può essere calcolato sommando la probabilità che ciascun elemento venga scelto, moltiplicato per la probabilità che sia classificato erroneamente. Raggiunge il suo valore minimo (zero) quando tutti gli elementi dell'insieme sono nella stessa classe della variabile di destinazione. In pratica, se assumiamo che la classe assume un valore nell'insieme , e se denota la frazione degli elementi dell'insieme con l'etichetta nell'insieme, avremo: ${\ displaystyle {1,2, ..., m}.}$ $f_ {i}$ $io$

$I _ {{G}} (f) = \ sum _ {{i = 1}} ^ {{m}} f_ {i} (1-f_ {i}) = \ sum _ {{i = 1}} ^ {{m}} (f_ {i} - {f_ {i}} ^ {2}) = \ sum _ {{i = 1}} ^ {m} f_ {i} - \ sum _ {{i = 1}} ^ {{m}} {f_ {i}} ^ {2} = 1- \ sum _ {{i = 1}} ^ {{m}} {f_ {i}} ^ {{2}}$

Guadagno di informazioni : utilizzato dagli algoritmi ID3 e C4.5 , il guadagno di informazioni si basa sul concetto di entropia di Shannon nella teoria dell'informazione . L'entropia è una misura del disturbo in un set di dati e viene utilizzata per scegliere il valore per massimizzare il guadagno di informazioni. Usando le stesse notazioni dell'indice di diversità di Gini, otteniamo la seguente formula:

$I _ {{E}} (f) = - \ sum _ {{i = 1}} ^ {{m}} f_ {i} \ log _ {2} ^ {{}} f_ {i}$

Caso di alberi di regressione

Nel caso degli alberi di regressione , può essere applicato lo stesso schema di separazione, ma invece di ridurre al minimo il tasso di errore di classificazione, cerchiamo di massimizzare la varianza interclasse (per avere sottoinsiemi i cui valori della variabile-obiettivo sono ampiamente dispersi possibile). In generale, il criterio utilizza il test del chi quadrato .

Osservazioni

Alcuni criteri consentono di tenere conto del fatto che la variabile-obiettivo assume valori ordinati, utilizzando misure appropriate o euristiche.

Ogni insieme di valori della variabile di segmentazione produce un nodo figlio. Gli algoritmi di apprendimento possono differire in base al numero di nodi figli prodotti: alcuni (come CART ) producono sistematicamente alberi binari, e quindi cercano la partizione binaria che ottimizza il criterio di segmentazione. Altri (come CHAID ) cercano di creare i raggruppamenti più rilevanti in base a criteri statistici. A seconda della tecnica, otterremo alberi più o meno larghi. Affinché il metodo sia efficace, è necessario prestare attenzione a non suddividere eccessivamente i dati in modo da non produrre gruppi di personale troppo piccoli, che non corrispondono a nessuna realtà statistica.

Trattamento di variabili continue

Nel caso di variabili di segmentazione continua, il criterio di segmentazione scelto deve essere adeguato. In generale, i dati vengono ordinati in base alla variabile da elaborare, quindi vengono testati i diversi punti di cut-off possibili valutando il criterio per ogni caso, il punto di cut-off ottimale sarà quello che massimizza il criterio di segmentazione.

Definisci la dimensione dell'albero

Non è sempre desiderabile in pratica costruire un albero le cui foglie corrispondano a sottoinsiemi perfettamente omogenei dal punto di vista della variabile obiettivo. La formazione, infatti, viene svolta su un campione che si spera sia rappresentativo di una popolazione. La sfida di qualsiasi tecnica di apprendimento è riuscire a catturare informazioni utili sulla struttura statistica della popolazione, escludendo le caratteristiche specifiche del set di dati studiato. Più complesso è il modello (più grande è l'albero, più rami ha, più foglie ha), più si corre il rischio di vedere questo modello non estrapolabile a nuovi dati, vale a dire per dare un conto della realtà che si cerca di apprendere.

In particolare, nel caso estremo in cui l'albero ha tante foglie quanti sono gli individui nella popolazione (di record nel dataset), l'albero quindi non commette errori su questo campione poiché sposa tutte le sue caratteristiche, ma non può essere generalizzato a un altro campione. Questo problema, chiamato sovrallenamento o overshooting ( overfitting ), è un argomento classico dell'apprendimento automatico e del data mining.

Cerchiamo quindi di costruire un albero che sia il più piccolo possibile garantendo al contempo le migliori prestazioni possibili. Seguendo il principio della parsimonia , più piccolo è un albero, più stabile sarà nelle sue previsioni future. È necessario fare un trade-off tra prestazioni e complessità nei modelli utilizzati. Per prestazioni comparabili, preferiremo sempre il modello più semplice, se vogliamo essere in grado di utilizzare questo modello su nuovi campioni.

Il problema dell'overfitting dei modelli

Per eseguire l'arbitrato performance / complessità dei modelli utilizzati, le prestazioni di uno o più modelli vengono valutate sui dati utilizzati per la sua costruzione (il / i campione / i di addestramento), ma anche su uno (o più) campioni di validazione : dati etichettati disponibili ma che si decide volontariamente di non utilizzare nella costruzione dei modelli.

Questi dati sono trattati come i dati di test, la stabilità delle prestazioni dei modelli su queste due tipologie di campione consentirà di giudicare il suo overfitting e quindi la sua capacità di essere utilizzato con un rischio controllato di errore in condizioni reali dove i dati non è noto in anticipo.

Nel grafico a fianco si osserva l'evoluzione dell'errore di aggiustamento di un albero decisionale in funzione del numero di foglie dell'albero (che qui misura la complessità). Notiamo che se l'errore diminuisce costantemente sul campione di apprendimento, da un certo livello di complessità, il modello si allontana dalla realtà, una realtà che cerchiamo di stimare sul campione di validazione (indicato come campione di prova nel grafico) .

Nel caso degli alberi decisionali, sono stati considerati diversi tipi di soluzioni algoritmiche per cercare di evitare il più possibile l'apprendimento eccessivo dei modelli: le tecniche di pre o post potatura degli alberi.

Alcune teorie statistiche cercano di trovare l'ottimo tra l'errore commesso sul campione di allenamento e quello fatto sul campione di prova. La teoria della minimizzazione del rischio strutturato di Vapnik-Chervonenkis (o SRM), utilizza una variabile chiamata dimensione VC, per determinare l'ottimo di un modello. Può quindi essere utilizzato per generare modelli che assicurino il miglior compromesso tra qualità e robustezza del modello.

Queste soluzioni algoritmiche sono complementari alle analisi comparative di prestazioni e stabilità effettuate sui campioni di addestramento e validazione.

Pre-potatura

La prima strategia che può essere utilizzata per evitare alberi decisionali eccessivi consiste nel proporre criteri di arresto durante la fase di espansione. Questo è il principio della pre-potatura. Quando il gruppo è di dimensioni troppo piccole, o quando l'omogeneità di un sottoinsieme ha raggiunto un livello sufficiente, si ritiene che non sia più necessario separare il campione. Un altro criterio spesso riscontrato in questo contesto è l'utilizzo di un test statistico per valutare se la segmentazione introduce un input significativo di informazioni per la previsione della variabile target.

Post-potatura

La seconda strategia consiste nel costruire l'albero in due fasi: produciamo prima l'albero le cui foglie sono il più possibile omogenee in una fase di espansione, utilizzando una prima frazione del campione di dati (campione d 'apprendimento da non confondere con la totalità dei il campione, chiamato in inglese il crescente set per risolvere l'ambiguità), quindi l'albero viene ridotto, affidandosi ad un'altra frazione dei dati per ottimizzare le prestazioni dell'albero è la fase di post-potatura. A seconda dei casi, questa seconda parte dei dati è designata dal termine campione di convalida o campione di prova, introducendo confusione con il campione utilizzato per misurare le prestazioni del modello. Il termine campione di potatura permette di designarlo senza ambiguità, è la traduzione diretta del nome inglese di potatura set .

Problema di dati incompleti

I dati disponibili sono spesso incompleti, nel senso che solo una parte delle variabili di input è disponibile per un record. In questo caso sono possibili diverse possibilità:

Ignorali: questo è possibile solo se il campione di dati è abbastanza grande da rimuovere individui (cioè righe di record) dal set di dati e se sei sicuro che quando l'albero decisionale viene utilizzato nella pratica, tutti i dati saranno ancora disponibili per tutti individui.

Sostituirli con un valore calcolato ritenuto adeguato (si parla di imputazione di valori mancanti): questa tecnica è talvolta utilizzata in statistica ma al di là di problemi puramente matematici, è discutibile da un punto di vista metodologico.

Usa variabili sostitutive: consiste, per un individuo che avrebbe dati mancanti per una variabile selezionata dall'albero come discriminante, di utilizzare la variabile che tra l'insieme di variabili disponibili nel database produce localmente le foglie. Più simile ai fogli prodotta dalla variabile di cui mancano i dati, questa variabile è chiamata sostitutiva. Se un individuo ha un valore mancante per la variabile iniziale, ma anche per la variabile sostitutiva, è possibile utilizzare una seconda variabile sostitutiva. E così via, fino al limite di un criterio di qualità del sostituto. Questa tecnica ha il vantaggio di sfruttare tutte le informazioni disponibili (questo è quindi molto utile quando queste informazioni sono complesse da recuperare) per ogni individuo.

Assegnare la conclusione a ogni foglio

Nel caso di alberi di classificazione, la regola di assegnazione deve essere specificata nei fogli una volta che l'albero è stato costruito. Se le foglie sono omogenee, non c'è ambiguità. Se così non fosse, una semplice regola è quella di decidere la classe del foglio secondo la classe maggioritaria, quella più rappresentata.

Questa tecnica molto semplice è ottimale nel caso in cui i dati provengano da una selezione casuale non distorta nella popolazione; la matrice dei costi di errata allocazione è unitaria (simmetrica): allocando opportunamente a costo zero, e allocando erroneamente i costi 1 a prescindere dal caso. Al di fuori di questo quadro, la regola della maggioranza non è necessariamente giustificata ma è facile da usare nella pratica.

Miglioramento delle prestazioni

Impostare metodi

Alcune tecniche, chiamate metodi set ( tutti i metodi ), migliorano la qualità o l'affidabilità della previsione costruendo diversi alberi decisionali dai dati:

Il bagging ( bagging o bootstrap Aggregating ), uno dei primi metodi che storicamente abbiamo costruito diversi alberi decisionali ricampionando il set di addestramento, quindi costruendo gli alberi con una procedura di consenso .

Classificazione per foreste alberi casuali di Breiman .

Il potenziamento dell'albero di classificazione e regressione.

La classificazione rotazionale delle foreste di alberi decisionali, in cui un'analisi delle componenti principali (PCA) viene prima applicata a un insieme casuale di variabili di input.

Combinazioni con altre tecniche

Gli alberi decisionali sono talvolta combinati tra loro o con altre tecniche di apprendimento: analisi discriminante, regressioni logistiche, regressioni lineari, reti neurali ( percettrone multistrato , rete di funzioni di base radiale ) o altre.

Vengono messe in atto procedure di aggregazione delle prestazioni dei diversi modelli utilizzati (quali le decisioni consensuali) per ottenere le massime prestazioni, controllando il livello di complessità dei modelli utilizzati.

Vantaggi e svantaggi del metodo

Benefici

Rispetto ad altri metodi di data mining, gli alberi decisionali presentano diversi vantaggi:

Semplicità di comprensione e interpretazione. È un modello a scatola bianca : se osserviamo una certa situazione su un modello, può essere facilmente spiegata usando la logica booleana , a differenza dei modelli a scatola nera come le reti neurali , la cui spiegazione dei risultati è difficile da capire.

Poca preparazione dei dati (nessuna normalizzazione, valori vuoti da rimuovere o variabili fittizie).

Il modello può gestire sia valori numerici che categorie. Altre tecniche sono spesso specializzate su un certo tipo di variabili (le reti neurali possono essere utilizzate solo su variabili numeriche).

È possibile validare un modello utilizzando test statistici, e quindi riferire sull'affidabilità del modello.

Efficiente su grandi set di dati: il metodo è relativamente economico in termini di risorse di calcolo.

Svantaggi

D'altra parte, presenta alcuni inconvenienti:

L'apprendimento dell'albero decisionale ottimale è NP-completo riguardante diversi aspetti dell'ottimalità. Di conseguenza, gli algoritmi di apprendimento dell'albero decisionale sono basati su euristiche come algoritmi greedy che cercano di ottimizzare la condivisione in ogni nodo, e tali algoritmi non garantiscono di ottenere l'ottimo globale. Alcuni metodi mirano a diminuire l'effetto della ricerca avida.

L'apprendimento dell'albero decisionale può portare a alberi decisionali molto complessi, che generalizzano male l'insieme di apprendimento (questo è il problema dell'overfitting menzionato in precedenza). Usiamo procedure di potatura per aggirare questo problema, alcuni approcci come l'inferenza condizionale consentono di eliminarlo.

Alcuni concetti sono difficili da esprimere utilizzando alberi decisionali (come XOR o parità ). In questi casi, gli alberi decisionali diventano estremamente grandi. Per risolvere questo problema, esistono diversi mezzi, come la proporzionalizzazione o l'uso di algoritmi di apprendimento che utilizzano rappresentazioni più espressive (ad esempio la programmazione logica induttiva ).

Quando i dati includono attributi con più livelli, il guadagno di informazioni nell'albero è sbilanciato a favore di questi attributi. Tuttavia, il problema della selezione di predittori distorti può essere aggirato con metodi come l'inferenza condizionale.

Estensioni

Grafici decisionali

In un albero decisionale, tutti i percorsi dalla radice alle foglie utilizzano il connettore AND . In un grafico decisionale, possiamo anche utilizzare il connettore OR per connettere più percorsi utilizzando la lunghezza minima del messaggio (MML). In generale, i grafici decisionali producono grafici con meno foglie rispetto agli alberi decisionali.

Metodi di ricerca alternativi

Di algoritmi evolutivi vengono utilizzati per evitare la separazione che porta all'ottimo locale.

Si può anche campionare l'albero utilizzando i metodi MCMC in un paradigma bayesiano .

L'albero può essere costruito utilizzando un approccio dal basso verso l'alto (dal basso verso l'alto).

Algoritmi classici

Esistono diversi algoritmi per la creazione di alberi decisionali, tra cui:

ID3 ( dicotomizza iterativa 3 )
C4.5, C5 (successori di ID3)
CHAID ( rilevatore di interazione automatica CHi-squared )
CHAID esaustivo
CART ( Classificazione e albero di regressione )
SLIQ
RICERCA
VFDT
UFFT
MARZO
Alberi di inferenza condizionale . Un metodo statistico basato sull'uso di test non parametrici come criterio di separazione.

ID3 e CART sono stati inventati indipendentemente nei decenni 1970-1980, ma utilizzano approcci simili per apprendere gli alberi decisionali dal set di apprendimento.

Tutti questi algoritmi si distinguono per i criteri di segmentazione utilizzati, per i metodi di potatura implementati, per il modo in cui gestiscono i dati mancanti nei predittori.

Implementazioni

Molti software di data mining offrono librerie per implementare uno o più algoritmi di apprendimento dell'albero decisionale. Ad esempio, il software Open Source R contiene diverse implementazioni di CART, come rpart, party e randomForest, il software gratuito Weka e Orange (e il suo modulo orngTree) o la libreria Python gratuita scikit-learn ; ma anche Salford Systems CART, IBM SPSS Modeler, RapidMiner, SAS Enterprise Miner, KNIME, Microsoft SQL Server [1] .

Appunti

(fr) Questo articolo è parzialmente o interamente tratto dall'articolo di Wikipedia in inglese intitolato " Decision Tree Learning " ( vedere l'elenco degli autori ) .

(in) Xindong Wu , Vipin Kumar , J. Ross Quinlan e Joydeep Ghosh , " I 10 migliori algoritmi nel data mining " , Knowledge and Information Systems , vol. 14, n o 1,Gennaio 2008, p. 1-37 ( ISSN 0219-1377 e 0.219-3.116 , DOI 10.1007 / s10115-007-0114-2 , leggere online , accessibile 1 ° agosto 2020 ).
(a) S. Madeh Piryonesi e Tamer E. El-Diraby , " dati Analytics in Asset Management: Previsione costo-efficace dell'Indice Stato dell'asfalto nel tratto " , Journal of Infrastructure Systems , vol. 26, n o 1,marzo 2020, p. 04019036 ( ISSN 1076-0342 e 1943-555X , DOI 10,1061 / (ASCE) IS.1943-555X.0000512 , leggere online , accessibili 1 ° agosto 2020 ).
(in) Lior Rokach , data mining con alberi decisionali: teoria e applicazioni , Hackensack (NJ), World Scientific Pub Co Inc,2008, 244 p. ( ISBN 978-981-27-7171-1 , avviso BnF n o FRBNF41351943 ).
Quinlan, JR, (1986). Induzione di alberi decisionali. Apprendimento automatico 1: 81-106, Kluwer Academic Publishers.
Leo Breiman , Classification and regression trees , Monterey, CA, Wadsworth & Brooks / Cole Advanced Books & Software,1984, 368 p. ( ISBN 978-0-412-04841-8 ).
L. Rokach e O. Maimon , " Induzione dall'alto verso il basso dei classificatori degli alberi decisionali: un'indagine ", IEEE Transactions on Systems, Man, and Cybernetics, Part C , vol. 35, n o 4,2005, p. 476–487 ( DOI 10.1109 / TSMCC.2004.843247 ).
Le euristiche vengono utilizzate in particolare quando si cerca di ridurre la complessità dell'albero aggregando le modalità delle variabili utilizzate come predittori del target. Ad esempio, nel caso delle modalità di una variabile di classi di età, consentiremo solo raggruppamenti di classi di età contigue.
Breiman, L. (1996). Predittori di insaccamento. "Machine Learning, 24": p. 123-140 .
Friedman, JH (1999). Aumento del gradiente stocastico. Università di Stanford.
Hastie, T., Tibshirani, R., Friedman, JH (2001). Gli elementi dell'apprendimento statistico: data mining, inferenza e previsione. New York: Springer Verlag.
Rodriguez, JJ e Kuncheva, LI e Alonso, CJ (2006), Rotation forest: A new classifier ensemble method, IEEE Transactions on Pattern Analysis and Machine Intelligence, 28 (10): 1619-1630.
Laurent Hyafil e RL Rivest , " Constructing Optimal Binary Decision Trees is NP-complete ", Information Processing Letters , vol. 5, n o 1,1976, p. 15-17 ( DOI 10.1016 / 0020-0190 (76) 90095-8 ).
Murthy S. (1998). Costruzione automatica di alberi decisionali dai dati: un'indagine multidisciplinare. Data mining e scoperta della conoscenza
Ben-Gal I. Dana A., Shkolnik N. e Singer: "Efficient Construction of Decision Trees by the Dual Information Distance Method". Tecnologia di qualità e gestione quantitativa (QTQM), 11 (1), 133-147. (disponibile online in inglese PDF )
DOI : 10.1007 / 978-1-84628-766-4 .
T. Hothorn , K. Hornik e A. Zeileis , “ imparziale ricorsivo di partizionamento: un condizionale Inference Framework ”, Journal of Computational e grafica statistica , vol. 15, n o 3,2006, p. 651–674 ( DOI 10.1198 / 106186006X133933 , JSTOR 27594202 ).
C. Strobl , J. Malley e G. Tutz , “ An Introduction to ricorsivo Partitioning: Razionale, applicazione e caratteristiche dei classificazione e regressione ad albero, insaccamento e foreste casuali ”, metodi psicologici , vol. 14, n o 4,2009, p. 323–348 ( DOI 10.1037 / a0016973 ).
DOI : 10.1007 / b13700 .
Deng, H., Runger, G.; Tuv, E. (2011). "Bias di importanza Misure per attributi e soluzioni multivalore" negli Atti della 21a Conferenza Internazionale sulle Reti Neurali Artificiali (ICANN) : 293-300 .. p .
http://citeseer.ist.psu.edu/oliver93decision.html
Papagelis A., Kalles D. (2001). Allevare alberi decisionali utilizzando tecniche evolutive, Atti della diciottesima conferenza internazionale sull'apprendimento automatico, p. 393-400 , 28 giugno-1 luglio 2001
Barros, Rodrigo C., Basgalupp, MP, Carvalho, ACPLF, Freitas, Alex A. (2011). Un'indagine sugli algoritmi evolutivi per l'induzione dell'albero decisionale . IEEE Transactions on Systems, Man and Cybernetics, Part C: Applications and Reviews, vol. 42, n. 3, p. 291-312 , maggio 2012.
Chipman, Hugh A., Edward I. George e Robert E. McCulloch. "Ricerca modello CART bayesiano". Journal of the American Statistical Association 93.443 (1998): 935-948.
Barros RC, Cerri R., Jaskowiak PA, Carvalho, ACPLF, Un algoritmo di induzione dell'albero decisionale obliquo dal basso verso l'alto . Atti dell'undicesima conferenza internazionale sulla progettazione e applicazioni di sistemi intelligenti (ISDA 2011).
GV Kass , " Una tecnica esplorativa per indagare su grandi quantità di dati categoriali ", Statistica applicata , vol. 29, n o 21980, p. 119-127 ( DOI 10.2307 / 2986296 , JSTOR 2986296 ).

Riferimenti

L. Breiman, J. Friedman, R. Olshen, C. Stone: CART: Classification and Regression Trees , Wadsworth International, 1984 .
R. Quinlan: C4.5: Programmi per l'apprendimento automatico , Morgan Kaufmann Publishers Inc., 1993 .
D. Zighed, R. Rakotomalala: Induction Graphs - Learning and Data Mining , Hermes, 2000 .
Daniel T. Larose (adattamento francese T. Vallaud): Dai dati alla conoscenza: un'introduzione al data mining (1Cédérom), Vuibert, 2005 .

Vedi anche

link esterno

Manuale di statistiche in linea , (in inglese).
Un'introduzione agli alberi decisionali .