sottoclasse di | Visualizzazione ( in ) |
---|---|
Parte di | Scienza dei dati |
Persone chiave |
William Playfair Florence Nightingale Charles Joseph Minard John Tukey Edward Tufte |
La visualizzazione dei dati (o dataviz o rappresentazione grafica dei dati ) è un insieme di metodi per riassumere in modo grafico i dati . La visualizzazione dei dati fa parte della scienza dei dati .
La visualizzazione dei dati è nata nel XVIII ° secolo , in particolare con l'opera di William Playfair . Cresce ampiamente nel XIX ° secolo, con l'invenzione delle carte di dati nel 1820 e 1830 da parte di Charles Dupin e André-Michel Guerry , il lavoro di Florence Nightingale e il secondo XIX ° secolo con l'opera di Charles Joseph Minard (1781-1870 ), Francis Amasa Walker e Émile Cheysson . Alla fine, esce una spinta dal secondo XX ° secolo sotto la guida di John Tukey , che mette in evidenza il ruolo della visualizzazione nelle statistiche e di Edward Tufte e, infine, con lo sviluppo del digitale .
La visualizzazione dei dati è utilizzata in particolare nelle statistiche ufficiali , nelle scienze , nel giornalismo e più in particolare nel giornalismo dei dati e più in generale nella scienza dei dati .
E 'la fine del XVIII ° secolo , con la pubblicazione nel 1786 da William Playfair (1759-1823) di un libro intitolato The Commercial and Political Atlas , in cui l'autore traccia una serie di grafici delle serie storiche che rappresentano l'evoluzione dei dati economici per quanto riguarda l'Inghilterra e, in particolare, l'evoluzione della sua bilancia commerciale nel corso del XVIII e secolo , che nasce la rappresentazione grafica moderna dei dati. Nello stesso libro, l'autore rappresenta anche il primo grafico a barre della storia. È anche a William Playfair che dobbiamo il primo grafico a torta conosciuto. Pubblicato nel 1801 nel Breviario statistico , il grafico rappresenta l'area, l'ammontare del reddito e l'ammontare delle tasse per ogni paese.
Nel 1819 lo storico Jean Picot pubblicò a Ginevra un volume intitolato Statistica della Svizzera o Stato di questo paese e dei ventidue cantoni di cui è composto [...] . Contiene su un foglio pieghevole due grafici basati sui dati di Johannes Fehr: "Estensione comparata o area dei ventidue cantoni della Svizzera rappresentata dalla lunghezza delle linee tracciate accanto al nome di ciascun cantone" e " Popolazione comparativa di ventidue Cantoni della Svizzera rappresentata dalla lunghezza delle linee tracciate accanto al nome di ciascun cantone”.
Nel 1820 iniziammo a rappresentare i dati statistici su una mappa. Nel 1826, Charles Dupin disegnò una mappa choropleth di educazione popolare in Francia , la colorazione dei dipartimenti francesi secondo l'intensità della variabile rappresentata. Questa rappresentazione visiva riscosse un rapido successo e fu subito ripresa da André-Michel Guerry e Adriano Balbi che disegnarono mappe coropletiche dell'indagine, del numero dei delitti contro la proprietà e del numero dei delitti contro le persone, poi da Guerry nel suo Essay. le statistiche morali della Francia pubblicate nel 1833. Poco dopo, Armand Joseph Frère de Montizon propose la prima " mappa a punti" , con una rappresentazione della popolazione francese per dipartimento intitolata Carte Philosophique che mostrava la popolazione della Francia . Nel 1855, il medico britannico John Snow elaborò una mappa dei punti di colera a Londra sulla quale rappresentava la posizione dei morti e la posizione dei punti d'acqua nella città di Londra, evidenziando così il fatto che l'epidemia si stava diffondendo per via d'acqua. Nel 1861, Charles Joseph Minard propone di rappresentare i dati su una mappa utilizzando diagrammi circolari la cui area è proporzionale alla quantità rappresentata ( Esempio di mappa figurativa e approssimativa delle quantità di carne di macellaio inviate sullo zoccolo dai reparti e dai consumatori ).
Nel 1857 Florence Nightingale pubblicò il suo Diagramma delle cause di mortalità all'interno dell'esercito in Oriente . Il grafico mostra che i soldati inglesi impegnati nella guerra di Crimea non muoiono in combattimento di fronte al nemico ma sono vittime delle condizioni sanitarie in cui vivono.
Nel 1889 Charles Booth combinò un approccio etnografico su larga scala e la visualizzazione in forma cartografica, per riferire sulle condizioni di vita a Londra. Questo studio sociologico, uno dei più importanti nel suo genere, ha mobilitato una squadra di investigatori pagati da Booth per raccogliere dati a livello di ogni appezzamento catastale. La visualizzazione proposta da Booth dettaglia, per colore, 7 "classi". La visualizzazione permette di identificare i cluster, in particolare per la classe più bassa che Booth chiama “classe inferiore. Vizioso, semicriminale”.
Durante la seconda metà del XIX ° secolo , troviamo alcune importanti innovazioni, come ad esempio visualizzazioni prime in tre dimensioni del italiano Luigi Perozzo o tedesco Gustav Zeuner .
Nel Regno Unito fu Francis Galton a dare un importante contributo alla visualizzazione dei dati offrendo rappresentazioni grafiche della correlazione tra due variabili ( nube di punti ) ma anche mappe meteorologiche. .
Nel primo XX ° secolo , gli statistici stanno prestando meno attenzione alla visualizzazione dei dati.
Negli anni '60, John Tukey diede alla visualizzazione dei dati nelle statistiche le sue lettere di nobiltà, in particolare con il suo libro Exploratory Data Analysis (1977).
Nel 2005, Leland Wilkinson ha pubblicato The Grammar of Graphics , uno dei più importanti lavori teorici sulla progettazione di grafici statistici. Wilkinson definisce un grafico statistico come una corrispondenza tra dati e attributi estetici (colore, forma, dimensione, ecc.) di oggetti geometrici (punti, linee, barre, ecc.).
Una visualizzazione è composta da un elemento visivo, una scala, un sistema di coordinate e un contesto.
In una nuvola di punti , utilizziamo la posizione dei punti nello spazio come elemento visivo che rappresenta i dati. In un grafico a barre, la lunghezza delle barre è l'elemento visivo corrispondente ai dati.
Il sistema di coordinate può essere cartesiano, polare o geografico.
La scala può essere lineare o logaritmica quando è una variabile quantitativa, categoriale quando è una variabile categoriale, o temporale quando è il momento.
Per un grafico a barre verticali, rappresentiamo per ogni modalità di una variabile discreta un rettangolo la cui altezza rappresenta il valore di una variabile continua e la cui larghezza non ha interpretazione statistica.
Per un grafico a barre orizzontali, è la larghezza del rettangolo che rappresenta il valore della variabile continua e l'altezza di questo rettangolo che non ha interpretazione statistica.
È anche comune incontrare grafici a barre in pila .
Le importazioni e le esportazioni della Scozia tra il Natale del 1780 e il Natale del 1781. Questo è il primo grafico a barre della storia. È stato pubblicato da William Playfair nel suo libro The Commercial and Political Atlas (1786).
Grafici a barre nel saggio sulla statistica morale della Francia di André-Michel Guerry , tavola VII 1833
Il grafico a torta può essere un grafico a torta o un grafico a ciambella .
Il grafico circolare o a torta viene utilizzato per rappresentare le proporzioni. In un grafico a torta, è l'angolo che rappresenta la quota di ciascuna categoria nell'insieme.
Il grafico a ciambella è un grafico a torta con un buco nel mezzo. In questo caso, è la lunghezza dell'arco di cerchio corrispondente a ciascuna categoria che rappresenta la quota di ciascuna categoria nell'insieme rappresentato.
Grafici a torta pubblicati da William Playfair in The Statistical Breviary (1801). I cerchi rappresentano l'area di ogni paese. Le linee a sinistra di ogni cerchio rappresentano la popolazione (in milioni di abitanti) e le linee a destra rappresentano le tasse totali riscosse (in milioni di sterline). La linea tratteggiata collega la linea del reddito e la linea delle imposte. La sua pendenza non ha interpretazione, ma il segno della pendenza sì. Il grafico mostra che in Gran Bretagna le tasse totali rispetto alla popolazione sono più alte che in altri paesi.
Il grafico a dispersione è comunemente usato per rappresentare la relazione tra due variabili. In una nuvola di punti, le coordinate di ciascun punto sull'asse x e sull'asse y rappresentano i valori di ciascuna delle variabili. Consente di evidenziare una correlazione tra due variabili.
Un grafico lineare o lineare è una nuvola di punti in cui i punti sono stati collegati tra loro (con un'interpolazione che può essere lineare, cubica...).
Possiamo anche rappresentare graficamente dati quantitativi utilizzando bolle in cui l'area delle bolle è proporzionale alla dimensione rappresentata.
Una mappa termica (mappa termica, mappa termica) è una matrice le cui celle sono colorate in base al valore della variabile rappresentata.
Il diagramma box-and-whisker riassume solo alcune caratteristiche posizionali del tratto studiato (mediana, quartili, min/max o decili). Viene principalmente utilizzato per confrontare lo stesso tratto in due popolazioni di dimensioni diverse. Si tratta di disegnare un rettangolo che va dal primo quartile al terzo quartile e tagliato dalla mediana. A volte vengono aggiunti segmenti alle estremità che portano ai valori min / max o fino al primo e al nono decili. Questo è chiamato diagramma a scatole o diagramma delle gambe.
Gli sparkline sono un formato sviluppato da Edward Tufte per la mini-grafica che può essere inserita nel testo di una pagina.
Tufte descrive i grafici sparkline come "grafica ad alta intensità di dati, semplice nel design e delle dimensioni di una parola". Mentre il grafico tipico è progettato per mostrare quanti più dati possibile ed è posizionato al di fuori del flusso di testo, i grafici sparkline sono concisi, memorabili e posizionati con precisione nel posto giusto.
Il grafico delle serie temporali rappresenta l'evoluzione di una variabile nel tempo. È la rappresentazione grafica più utilizzata e la sua interpretazione è generalmente molto intuitiva.
Se la serie temporale è discreta, è comune utilizzare un semplice grafico a barre per rappresentarla. Ad esempio, i dati annuali o mensili sono spesso rappresentati da grafici a barre. D'altra parte, se i dati sono continui, è più comune rappresentarli con un grafico a linee o un grafico ad area , come fece William Playfair nel suo Atlante commerciale e politico (vedi qui e qui ).
Una mappa statistica viene utilizzata per rappresentare il valore di una variabile statistica in ciascuna delle unità geografiche di un'entità globale. La mappa statistica ha il vantaggio di poter rivelare sia un'analisi globale che di consentire a tutti di individuare i dettagli per ciascuna unità geografica. Ha invece il difetto di attribuire a ciascuna unità geografica un'importanza proporzionale alla sua area, mentre in molte situazioni sarebbe preferibile che l'importanza data a ciascuna unità geografica sia relativa ad un'altra variabile, come la sua area. per esempio.
Mentre le mappe sono state inventate lì più di 5000 anni, le schede statistiche sono veramente solo emerse al XVII ° secolo . Nel 1686, Edmond Halley rappresentò una mappa del mondo con simboli che permettevano di dare l'origine e soprattutto l'intensità dei venti. Più tardi, nel XIX ° secolo , John Snow è una mappa di Londra individuando il numero di morti per colera durante l'epidemia nel mese di settembre 1854, i punti di accesso all'acqua in città. La sua mappa mostra che il colera è trasmesso dall'acqua.
Per rappresentare la relazione tra due variabili, è comune utilizzare un grafico a dispersione .
Quando ci sono più di due variabili, ci sono molte soluzioni. La soluzione più semplice è rappresentare una matrice di nuvole di punti. Puoi anche utilizzare un grafico a bolle in cui, come in un grafico a dispersione, le coordinate delle bolle rappresentano i valori di due variabili e in cui l'area delle bolle rappresenta una terza variabile.
Nel caso discreto, è comune utilizzare un grafico a barre in cui l'altezza di ciascun rettangolo rappresenta i numeri o le frequenze associate a ciascuna modalità.
Quando i dati hanno una struttura gerarchica, possono essere rappresentati sotto forma di un dendrogramma , una mappa ad albero o anche un sunburst .
Mappa ad alberoLa mappa ad albero è una rappresentazione visiva inventata da Ben Shneiderman nel 1990 per rappresentare l'occupazione di spazio sul suo disco rigido. In questa rappresentazione, è la superficie di ogni rettangolo che rappresenta la parte di ogni elemento nell'insieme. Questa rappresentazione è stata successivamente utilizzata per altri scopi. Ad esempio, Martin Wattenberg lo ha utilizzato per rappresentare una "mappa di mercato" per settore in cui l'area di ciascun rettangolo è proporzionale alla capitalizzazione di mercato delle aziende del settore. Marcos Westamp ha progettato una mappa ad albero delle informazioni in cui la dimensione dei rettangoli è funzione del numero di articoli dedicati all'argomento sulla stampa. Matthew Bloch, Shan Carter e Amanda Cox, hanno utilizzato una mappa ad albero per visualizzare la quota di ciascun tipo di bene nel consumo di una famiglia americana e un codice colore per visualizzare l'inflazione.
Filippo Menczer (Indiana University) è stato il primo a scoprire l'attività dei bot su Twitter nel 2010 attraverso una visualizzazione di rete. L'analisi di rete viene ora utilizzata per visualizzare la formazione di bolle di filtro.
Il diagramma di flusso è un tipo specifico di rappresentazione per la visualizzazione dei flussi .
Per le variabili continue, possiamo tracciare il poligono dei numeri cumulativi (o frequenze) . Il principio della trama è spiegato nell'articolo Statistiche elementari continue . Questo poligono permette di leggere molto velocemente l'effettivo di un intervallo della forma e, per differenza, l'effettivo di qualsiasi intervallo. Consente inoltre di leggere molto rapidamente quartili e decili . Questa rappresentazione prefigura il grafico della funzione di distribuzione di probabilità .
A volte vediamo apparire un poligono di numeri cumulativi per variabili discrete. A rigor di termini, sarebbe necessario disegnare un diagramma delle scale.