Visualizzazione dati

sottoclasse di	Visualizzazione ( in )
Parte di	Scienza dei dati
Persone chiave	William Playfair Florence Nightingale Charles Joseph Minard John Tukey Edward Tufte

La visualizzazione dei dati (o dataviz o rappresentazione grafica dei dati ) è un insieme di metodi per riassumere in modo grafico i dati . La visualizzazione dei dati fa parte della scienza dei dati .

La visualizzazione dei dati è nata nel XVIII ° secolo , in particolare con l'opera di William Playfair . Cresce ampiamente nel XIX ° secolo, con l'invenzione delle carte di dati nel 1820 e 1830 da parte di Charles Dupin e André-Michel Guerry , il lavoro di Florence Nightingale e il secondo XIX ° secolo con l'opera di Charles Joseph Minard (1781-1870 ), Francis Amasa Walker e Émile Cheysson . Alla fine, esce una spinta dal secondo XX ° secolo sotto la guida di John Tukey , che mette in evidenza il ruolo della visualizzazione nelle statistiche e di Edward Tufte e, infine, con lo sviluppo del digitale .

La visualizzazione dei dati è utilizzata in particolare nelle statistiche ufficiali , nelle scienze , nel giornalismo e più in particolare nel giornalismo dei dati e più in generale nella scienza dei dati .

Storia

E 'la fine del XVIII ° secolo , con la pubblicazione nel 1786 da William Playfair (1759-1823) di un libro intitolato The Commercial and Political Atlas , in cui l'autore traccia una serie di grafici delle serie storiche che rappresentano l'evoluzione dei dati economici per quanto riguarda l'Inghilterra e, in particolare, l'evoluzione della sua bilancia commerciale nel corso del XVIII e secolo , che nasce la rappresentazione grafica moderna dei dati. Nello stesso libro, l'autore rappresenta anche il primo grafico a barre della storia. È anche a William Playfair che dobbiamo il primo grafico a torta conosciuto. Pubblicato nel 1801 nel Breviario statistico , il grafico rappresenta l'area, l'ammontare del reddito e l'ammontare delle tasse per ogni paese.

Nel 1819 lo storico Jean Picot pubblicò a Ginevra un volume intitolato Statistica della Svizzera o Stato di questo paese e dei ventidue cantoni di cui è composto [...] . Contiene su un foglio pieghevole due grafici basati sui dati di Johannes Fehr: "Estensione comparata o area dei ventidue cantoni della Svizzera rappresentata dalla lunghezza delle linee tracciate accanto al nome di ciascun cantone" e " Popolazione comparativa di ventidue Cantoni della Svizzera rappresentata dalla lunghezza delle linee tracciate accanto al nome di ciascun cantone”.

Nel 1820 iniziammo a rappresentare i dati statistici su una mappa. Nel 1826, Charles Dupin disegnò una mappa choropleth di educazione popolare in Francia , la colorazione dei dipartimenti francesi secondo l'intensità della variabile rappresentata. Questa rappresentazione visiva riscosse un rapido successo e fu subito ripresa da André-Michel Guerry e Adriano Balbi che disegnarono mappe coropletiche dell'indagine, del numero dei delitti contro la proprietà e del numero dei delitti contro le persone, poi da Guerry nel suo Essay. le statistiche morali della Francia pubblicate nel 1833. Poco dopo, Armand Joseph Frère de Montizon propose la prima " mappa a punti" , con una rappresentazione della popolazione francese per dipartimento intitolata Carte Philosophique che mostrava la popolazione della Francia . Nel 1855, il medico britannico John Snow elaborò una mappa dei punti di colera a Londra sulla quale rappresentava la posizione dei morti e la posizione dei punti d'acqua nella città di Londra, evidenziando così il fatto che l'epidemia si stava diffondendo per via d'acqua. Nel 1861, Charles Joseph Minard propone di rappresentare i dati su una mappa utilizzando diagrammi circolari la cui area è proporzionale alla quantità rappresentata ( Esempio di mappa figurativa e approssimativa delle quantità di carne di macellaio inviate sullo zoccolo dai reparti e dai consumatori ).

Nel 1857 Florence Nightingale pubblicò il suo Diagramma delle cause di mortalità all'interno dell'esercito in Oriente . Il grafico mostra che i soldati inglesi impegnati nella guerra di Crimea non muoiono in combattimento di fronte al nemico ma sono vittime delle condizioni sanitarie in cui vivono.

Nel 1889 Charles Booth combinò un approccio etnografico su larga scala e la visualizzazione in forma cartografica, per riferire sulle condizioni di vita a Londra. Questo studio sociologico, uno dei più importanti nel suo genere, ha mobilitato una squadra di investigatori pagati da Booth per raccogliere dati a livello di ogni appezzamento catastale. La visualizzazione proposta da Booth dettaglia, per colore, 7 "classi". La visualizzazione permette di identificare i cluster, in particolare per la classe più bassa che Booth chiama “classe inferiore. Vizioso, semicriminale”.

Durante la seconda metà del XIX ° secolo , troviamo alcune importanti innovazioni, come ad esempio visualizzazioni prime in tre dimensioni del italiano Luigi Perozzo o tedesco Gustav Zeuner .

Nel Regno Unito fu Francis Galton a dare un importante contributo alla visualizzazione dei dati offrendo rappresentazioni grafiche della correlazione tra due variabili ( nube di punti ) ma anche mappe meteorologiche. .

Nel primo XX ° secolo , gli statistici stanno prestando meno attenzione alla visualizzazione dei dati.

Negli anni '60, John Tukey diede alla visualizzazione dei dati nelle statistiche le sue lettere di nobiltà, in particolare con il suo libro Exploratory Data Analysis (1977).

Nel 2005, Leland Wilkinson ha pubblicato The Grammar of Graphics , uno dei più importanti lavori teorici sulla progettazione di grafici statistici. Wilkinson definisce un grafico statistico come una corrispondenza tra dati e attributi estetici (colore, forma, dimensione, ecc.) di oggetti geometrici (punti, linee, barre, ecc.).

Struttura di una visualizzazione

Una visualizzazione è composta da un elemento visivo, una scala, un sistema di coordinate e un contesto.

In una nuvola di punti , utilizziamo la posizione dei punti nello spazio come elemento visivo che rappresenta i dati. In un grafico a barre, la lunghezza delle barre è l'elemento visivo corrispondente ai dati.

Il sistema di coordinate può essere cartesiano, polare o geografico.

La scala può essere lineare o logaritmica quando è una variabile quantitativa, categoriale quando è una variabile categoriale, o temporale quando è il momento.

Tipologia secondo le forme rappresentate

Grafico a barre

Per un grafico a barre verticali, rappresentiamo per ogni modalità di una variabile discreta un rettangolo la cui altezza rappresenta il valore di una variabile continua e la cui larghezza non ha interpretazione statistica.

Per un grafico a barre orizzontali, è la larghezza del rettangolo che rappresenta il valore della variabile continua e l'altezza di questo rettangolo che non ha interpretazione statistica.

È anche comune incontrare grafici a barre in pila .

Esempi di grafici a barre
Le importazioni e le esportazioni della Scozia tra il Natale del 1780 e il Natale del 1781. Questo è il primo grafico a barre della storia. È stato pubblicato da William Playfair nel suo libro The Commercial and Political Atlas (1786).
Grafici a barre nel saggio sulla statistica morale della Francia di André-Michel Guerry , tavola VII 1833

Diagramma circolare

Il grafico a torta può essere un grafico a torta o un grafico a ciambella .

Il grafico circolare o a torta viene utilizzato per rappresentare le proporzioni. In un grafico a torta, è l'angolo che rappresenta la quota di ciascuna categoria nell'insieme.

Il grafico a ciambella è un grafico a torta con un buco nel mezzo. In questo caso, è la lunghezza dell'arco di cerchio corrispondente a ciascuna categoria che rappresenta la quota di ciascuna categoria nell'insieme rappresentato.

Esempio di diagramma circolare
Grafici a torta pubblicati da William Playfair in The Statistical Breviary (1801). I cerchi rappresentano l'area di ogni paese. Le linee a sinistra di ogni cerchio rappresentano la popolazione (in milioni di abitanti) e le linee a destra rappresentano le tasse totali riscosse (in milioni di sterline). La linea tratteggiata collega la linea del reddito e la linea delle imposte. La sua pendenza non ha interpretazione, ma il segno della pendenza sì. Il grafico mostra che in Gran Bretagna le tasse totali rispetto alla popolazione sono più alte che in altri paesi.

Una nuvola di punti

Il grafico a dispersione è comunemente usato per rappresentare la relazione tra due variabili. In una nuvola di punti, le coordinate di ciascun punto sull'asse x e sull'asse y rappresentano i valori di ciascuna delle variabili. Consente di evidenziare una correlazione tra due variabili.

Linea

Un grafico lineare o lineare è una nuvola di punti in cui i punti sono stati collegati tra loro (con un'interpolazione che può essere lineare, cubica...).

bolle

Possiamo anche rappresentare graficamente dati quantitativi utilizzando bolle in cui l'area delle bolle è proporzionale alla dimensione rappresentata.

Mappa di calore

Una mappa termica (mappa termica, mappa termica) è una matrice le cui celle sono colorate in base al valore della variabile rappresentata.

trama a scatole

Il diagramma box-and-whisker riassume solo alcune caratteristiche posizionali del tratto studiato (mediana, quartili, min/max o decili). Viene principalmente utilizzato per confrontare lo stesso tratto in due popolazioni di dimensioni diverse. Si tratta di disegnare un rettangolo che va dal primo quartile al terzo quartile e tagliato dalla mediana. A volte vengono aggiunti segmenti alle estremità che portano ai valori min / max o fino al primo e al nono decili. Questo è chiamato diagramma a scatole o diagramma delle gambe.

Sparkline

Gli sparkline sono un formato sviluppato da Edward Tufte per la mini-grafica che può essere inserita nel testo di una pagina.

Tufte descrive i grafici sparkline come "grafica ad alta intensità di dati, semplice nel design e delle dimensioni di una parola". Mentre il grafico tipico è progettato per mostrare quanti più dati possibile ed è posizionato al di fuori del flusso di testo, i grafici sparkline sono concisi, memorabili e posizionati con precisione nel posto giusto.

Tipologia secondo il tipo di dato rappresentato

Visualizzazione dei dati temporali

Il grafico delle serie temporali rappresenta l'evoluzione di una variabile nel tempo. È la rappresentazione grafica più utilizzata e la sua interpretazione è generalmente molto intuitiva.

Se la serie temporale è discreta, è comune utilizzare un semplice grafico a barre per rappresentarla. Ad esempio, i dati annuali o mensili sono spesso rappresentati da grafici a barre. D'altra parte, se i dati sono continui, è più comune rappresentarli con un grafico a linee o un grafico ad area , come fece William Playfair nel suo Atlante commerciale e politico (vedi qui e qui ).

Visualizzazione dei dati geolocalizzati

Una mappa statistica viene utilizzata per rappresentare il valore di una variabile statistica in ciascuna delle unità geografiche di un'entità globale. La mappa statistica ha il vantaggio di poter rivelare sia un'analisi globale che di consentire a tutti di individuare i dettagli per ciascuna unità geografica. Ha invece il difetto di attribuire a ciascuna unità geografica un'importanza proporzionale alla sua area, mentre in molte situazioni sarebbe preferibile che l'importanza data a ciascuna unità geografica sia relativa ad un'altra variabile, come la sua area. per esempio.

Mentre le mappe sono state inventate lì più di 5000 anni, le schede statistiche sono veramente solo emerse al XVII ° secolo . Nel 1686, Edmond Halley rappresentò una mappa del mondo con simboli che permettevano di dare l'origine e soprattutto l'intensità dei venti. Più tardi, nel XIX ° secolo , John Snow è una mappa di Londra individuando il numero di morti per colera durante l'epidemia nel mese di settembre 1854, i punti di accesso all'acqua in città. La sua mappa mostra che il colera è trasmesso dall'acqua.

Visualizzazione della relazione tra più variabili

Per rappresentare la relazione tra due variabili, è comune utilizzare un grafico a dispersione .

Quando ci sono più di due variabili, ci sono molte soluzioni. La soluzione più semplice è rappresentare una matrice di nuvole di punti. Puoi anche utilizzare un grafico a bolle in cui, come in un grafico a dispersione, le coordinate delle bolle rappresentano i valori di due variabili e in cui l'area delle bolle rappresenta una terza variabile.

Visualizzazione delle proporzioni

Visualizzazione di una distribuzione statistica

Nel caso discreto, è comune utilizzare un grafico a barre in cui l'altezza di ciascun rettangolo rappresenta i numeri o le frequenze associate a ciascuna modalità.

Visualizzazione di una struttura ad albero

Quando i dati hanno una struttura gerarchica, possono essere rappresentati sotto forma di un dendrogramma , una mappa ad albero o anche un sunburst .

Mappa ad albero

La mappa ad albero è una rappresentazione visiva inventata da Ben Shneiderman nel 1990 per rappresentare l'occupazione di spazio sul suo disco rigido. In questa rappresentazione, è la superficie di ogni rettangolo che rappresenta la parte di ogni elemento nell'insieme. Questa rappresentazione è stata successivamente utilizzata per altri scopi. Ad esempio, Martin Wattenberg lo ha utilizzato per rappresentare una "mappa di mercato" per settore in cui l'area di ciascun rettangolo è proporzionale alla capitalizzazione di mercato delle aziende del settore. Marcos Westamp ha progettato una mappa ad albero delle informazioni in cui la dimensione dei rettangoli è funzione del numero di articoli dedicati all'argomento sulla stampa. Matthew Bloch, Shan Carter e Amanda Cox, hanno utilizzato una mappa ad albero per visualizzare la quota di ciascun tipo di bene nel consumo di una famiglia americana e un codice colore per visualizzare l'inflazione.

Visualizzazione della rete

Filippo Menczer (Indiana University) è stato il primo a scoprire l'attività dei bot su Twitter nel 2010 attraverso una visualizzazione di rete. L'analisi di rete viene ora utilizzata per visualizzare la formazione di bolle di filtro.

Visualizzazione del flusso

Il diagramma di flusso è un tipo specifico di rappresentazione per la visualizzazione dei flussi .

Rappresentanza della forza lavoro cumulativa

Per le variabili continue, possiamo tracciare il poligono dei numeri cumulativi (o frequenze) . Il principio della trama è spiegato nell'articolo Statistiche elementari continue . Questo poligono permette di leggere molto velocemente l'effettivo di un intervallo della forma e, per differenza, l'effettivo di qualsiasi intervallo. Consente inoltre di leggere molto rapidamente quartili e decili . Questa rappresentazione prefigura il grafico della funzione di distribuzione di probabilità . $[x_ {1}, x]$

A volte vediamo apparire un poligono di numeri cumulativi per variabili discrete. A rigor di termini, sarebbe necessario disegnare un diagramma delle scale.

Bibliografia

(it) William Playfair , L'atlante commerciale e politico: rappresentare, per mezzo di grafici a lastre di rame macchiate, il progresso del commercio, dei ricavi, delle spese e dei debiti dell'Inghilterra durante tutto il XVIII secolo ,1786
(it) William Playfair , Breviario statistico: annunziare, su un principio completamente nuovo, le risorse di ogni stato e regno in Europa , Londra, Wallis,1801, 1 ° ed.
André-Michel Guerry , Saggio sulla statistica morale della Francia , Crochard,1833
(it) Howard G. Funkhouser (en) , Sviluppo storico della rappresentazione grafica dei dati statistici , Saint Catherine Press,1937
Jacques Bertin , Semiologia grafica: diagrammi, reti, mappe , Parigi, Presses de l'EHESS,1999
(it) John Tukey , Analisi dei dati esplorativi , Addison-Wesley Publishing Company,1977
(it) Edward Tufte , The Visual Display of Quantitative Information , Graphics Press USA,2001, 2 ° ed. ( 1 ° ed. 1983), 190 p.
(it) Stephen Fienberg , “ Metodi grafici nelle statistiche ” , The American Statistician , vol. 33, n . 4,1979, pag. 165-178
(it) William Cleveland , Visualizzazione dei dati , At & T Bell Laboratories,1993, 360 pag.
G. Palsky , numeri e carte: nascita e lo sviluppo della mappatura quantitativa francese del XIX ° secolo , il Comitato di storico e scientifico di lavoro CTHS,1996
(it) Leland Wilkinson , La grammatica della grafica , Springer, coll. "Statistiche e informatica",2005, 2 ° ed. , 691 pag. ( ISBN 978-0-387-24544-7 , leggi online )
(it) Forrest W. Young , Pedro M. Valero-Mora e Michael Friendly , Statistiche visive: visualizzazione dei dati con grafica interattiva dinamica ,2006, 400 pag. ( ISBN 978-0-471-68160-1 )
(it) Chun-Houh Chen (a cura di ), Wolfgang Hardle (a cura di ), Antony Unwin (a cura di ) et al. , Manuale di visualizzazione dei dati , Springer-Verlag , coll. "Manuali Springer di statistica computazionale",2008, 936 pag. ( ISBN 978-3-540-33036-3 )
(it) Nathan Yau (en) , Visualizza questo: The FlowingData Guide to Design, Visualization, and Statistics , Indianapolis, Ind., John Wiley & Sons ,2011, 384 pag. ( ISBN 978-0-470-94488-2 )
Bernard Lebelle , Convincente con una grafica efficiente , Organizational Edition,luglio 2012
(it) Alberto Cairo (it) , L'arte funzionale: un'introduzione alla grafica e alla visualizzazione delle informazioni , New Riders, coll. "Voci che contano",2012, 363 pag. ( ISBN 978-0-321-83473-7 )
(it) Nathan Yau , Punti dati: visualizzazione che significa qualcosa , John Wiley & Sons ,2013, 336 pag. ( ISBN 978-1-118-46219-5 , leggi online )
Jean-Marie Lagnel , Manuale di visualizzazione dei dati , Dunod ,2021, 2 ° ed.
(it) Michael Friendly e Howard Wainer , A History of Data Visualization and Graphic Communication , Harvard University Press ,2021, 288 pag. ( ISBN 9780674975231 e 0674975235 )

Videografia

(it) Geoff McGhee, Journalism in the Age of Data , vedi online
(in) David McCandless , La bellezza della visualizzazione dei dati , guarda online

Mostre

2018: 1,2,3 dati , Fondazione EDF a Parigi
2020: Data Visualization and the Modern Imagination , mostra online alla Stanford University Library

Note e riferimenti

Questo articolo è parzialmente o interamente tratto dall'articolo intitolato “ Rappresentazione grafica dei dati ” (vedi elenco autori ) .

Appunti

Edward Tufte parla di " mappe dati " , letteralmente "mappe dati"

Riferimenti

Victorin Chevallier, " Necrologio del sig. Minard, ispettore generale dei ponti e delle strade, in pensione ", Annales des Ponts et Chaussées: Mémoires et documents , Parigi, Dunod , vol. II della 5 ° serie, 2 e sett. 1871, pag. 1-22
" Biografia di Charles Joseph Minard " ( Archivio • Wikiwix • Archive.is • Google • Cosa fare? ) (Accessed 20 ott 2014 ) il 19 ° .org, sito dedicato alla storia del 19 ° secolo
Charles Joseph Minard: Mappatura del marzo di Napoleone 1861 di John Corbett, Center for Spatially Integrated Social Science
Michael Friendly , "Una breve storia della visualizzazione dei dati", in Handbook of Data Visualization ,2008( DOI 10.1007 / 978-3-540-33037-0_2 ) , pag. 19
Tufte 2001 , p. 9
Amichevole 2008 , p. 9-10
Tufte 2001 , p. 33
Amichevole 2008 , p. 39
Adriano Balbi e André-Michel Guerry , Statistiche comparate dello stato dell'istruzione e del numero di crimini nei vari distretti delle accademie e delle corti reali di Francia , Parigi, Jules Renouard,1829
Jean-Paul Bord (a cura di ) E Pierre-Robert Baduel (a cura di ), Le mappe della conoscenza , Khartala,2004, pag. 593
amichevole 2008 , p. 27
Amichevole 2008 , p. 30
" Questa ricerca di mercato ha 120 anni e unisce Big Data e qualitativo " , su Conseils en marketing ,22 gennaio 2018(consultato il 7 dicembre 2020 )
amichevole 2008 , p. 32
amichevole 2008 , p. 37
Tufte 2001 , p. 53
(in) Hadley Wickham , Ggplot2: grafica elegante per l'analisi dei dati , Springer Verlag, al. "Utente",2009( DOI 10.1007 / 978-0-387-98141-3 )
Yau 2013 , p. 93
Yau 2013 , p. 96
Yau 2013 , p. 104
Yau 2013 , p. 109
Yau 2011 , p. 94
Yau 2011 , p. 137
Yau 2011 , p. 142
Tufte 2001 , p. 44
Yau 2011 , p. 112
Yau 2011 , p. 180-181
Yau 2011 , p. 118
Yau 2011 , p. 192-193
Toussaint Loua , Atlante statistico della popolazione di Parigi . Parigi: J. Dejey. 1873
Yau 2011 , p. 229
Yau 2011 , p. 93
Tufte 2001 , p. 16-20
Tufte 2001 , p. 20-24
Yau 2011 , p. 188-189
(in) Isabel Meirelles , Design for Information , Rockport Publishers ,2013, pag. 18
Yau 2011 , p. 157
Meirelles 2013 , p. 31
Meirelles 2013 , p. 39
" Newmap " , su newsmap.jp ( accesso 9 dicembre 2013 )
(in) Matthew Bloch , Shan Carter e Amanda Cox , " Tutte le piccole parti dell'inflazione " , The New York Times ,3 maggio 2008( leggi in linea )
Meirelles 2013 , p. 44
" 4 motivi per cui i social media ci manipolano " , su Consigli di marketing ,30 settembre 2020(consultato il 7 dicembre 2020 )
Martin Grandjean , "La conoscenza è una rete ", Les Cahiers du Numérique , vol. 10, n . 3,2014, pag. 37-54 ( letto online , consultato il 15 ottobre 2014 )
http://www.davidbihanic.com/exhibition/
https://exhibits.stanford.edu/dataviz

Vedi anche

link esterno

Registri di autorità :
- Libreria del Congresso
(in) Michael Friendly (in) e Daniel Denis, " Pietre miliari nella storia della cartografia tematica, della grafica statistica, della visualizzazione e dei dati " su DataVis.ca