Algoritmo T-SNE

L' algoritmo t-SNE ( incorporamento del vicino stocastico distribuito t ) è una tecnica di riduzione delle dimensioni per la visualizzazione dei dati sviluppata da Geoffrey Hinton e Laurens van der Maaten. Questo è un metodo non lineare per rappresentare un insieme di punti da uno spazio di grandi dimensioni in uno spazio bidimensionale o tridimensionale , i dati possono quindi essere visualizzati con una nuvola di punti . L'algoritmo t-SNE cerca di trovare una configurazione ottimale secondo un criterio di teoria dell'informazione per rispettare le distanze tra i punti: due punti che sono vicini (risp. Distanti) nello spazio originale devono essere vicini (risp. Distanti) in bassa dimensionale spazio.

L'algoritmo t-SNE si basa su un'interpretazione probabilistica delle distanze. Una distribuzione di probabilità è definita su coppie di punti nello spazio originale in modo tale che i punti vicini l'uno all'altro abbiano un'alta probabilità di essere scelti mentre i punti distanti hanno una bassa probabilità di "essere selezionati". Allo stesso modo viene definita anche una distribuzione di probabilità per lo spazio di visualizzazione. L'algoritmo t-SNE consiste nell'abbinare le due densità di probabilità, minimizzando la divergenza Kullback-Leibler tra le due distribuzioni rispetto alla posizione dei punti sulla mappa.

L'algoritmo t-SNE è stato utilizzato per molte applicazioni: analisi musicale, ricerca sul cancro , bioinformatica ed elaborazione del segnale biomedico. Questo metodo viene spesso utilizzato per la visualizzazione di rappresentazioni di alto livello apprese da una rete neurale artificiale .

Riferimenti

LJP van der Maaten e Hinton, GE, " Visualizing High-Dimensional Data Using t-SNE ", Journal of Machine Learning Research , vol. 9,Novembre 2008, p. 2579–2605 ( leggi in linea )
(in) P. Hamel ed Eck, D., " Learning Features Music from Audio with Deep Belief Networks " , Atti della Conferenza Internazionale della Società per il Recupero delle Informazioni Musicali ,2010, p. 339-344
(in) AR Jamieson , Giger, ML, Drukker, K., He, H., Yuan, Y. e Bhooshan, N., " Exploring Space Nonlinear Feature Dimension Reduction and Data Representation in Breast CADx with Laplacian eigenmaps et- SNE " , Medical Physics , vol. 37, n o 1,2010, p. 339–351 ( DOI 10.1118 / 1.3267037 )
(in) I. Wallach e Liliean, R., " The Protein-Small-Molecule Database, A Non-Redundant Structural Resource for the Analysis of Protein-Ligand Binding " , Bioinformatics , vol. 25, n o 5,2009, p. 615–620 ( PMID 19153135 , DOI 10.1093 / bioinformatics / btp035 )
(in) J. Birjandtalab , MB Pouyan e Mr. Nourani , " Riduzione della dimensione non lineare per il rilevamento delle crisi epilettiche basate su EEG " , 2016 IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI) ,1 ° febbraio 2016, p. 595–598 ( DOI 10.1109 / BHI.2016.7455968 , leggi in linea )
Visualizing Representations: Deep Learning and Human Beings Blog di Christopher Olah, 2015