Visualizzazione dati

Visualizzazione dati
sottoclasse di Visualizzazione ( in )
Parte di Scienza dei dati
Persone chiave William Playfair
Florence Nightingale
Charles Joseph Minard
John Tukey
Edward Tufte

La visualizzazione dei dati (o dataviz o rappresentazione grafica dei dati ) è un insieme di metodi per riassumere in modo grafico i dati . La visualizzazione dei dati fa parte della scienza dei dati .

La visualizzazione dei dati è nata nel XVIII °  secolo , in particolare con l'opera di William Playfair . Cresce ampiamente nel XIX °  secolo, con l'invenzione delle carte di dati nel 1820 e 1830 da parte di Charles Dupin e André-Michel Guerry , il lavoro di Florence Nightingale e il secondo XIX °  secolo con l'opera di Charles Joseph Minard (1781-1870 ), Francis Amasa Walker  e Émile Cheysson . Alla fine, esce una spinta dal secondo XX °  secolo sotto la guida di John Tukey , che mette in evidenza il ruolo della visualizzazione nelle statistiche e di Edward Tufte e, infine, con lo sviluppo del digitale .

La visualizzazione dei dati è utilizzata in particolare nelle statistiche ufficiali , nelle scienze , nel giornalismo e più in particolare nel giornalismo dei dati e più in generale nella scienza dei dati .

Storia

E 'la fine del XVIII °  secolo , con la pubblicazione nel 1786 da William Playfair (1759-1823) di un libro intitolato The Commercial and Political Atlas , in cui l'autore traccia una serie di grafici delle serie storiche che rappresentano l'evoluzione dei dati economici per quanto riguarda l'Inghilterra e, in particolare, l'evoluzione della sua bilancia commerciale nel corso del XVIII e  secolo , che nasce la rappresentazione grafica moderna dei dati. Nello stesso libro, l'autore rappresenta anche il primo grafico a barre della storia. È anche a William Playfair che dobbiamo il primo grafico a torta conosciuto. Pubblicato nel 1801 nel Breviario statistico , il grafico rappresenta l'area, l'ammontare del reddito e l'ammontare delle tasse per ogni paese.

Nel 1819 lo storico Jean Picot pubblicò a Ginevra un volume intitolato Statistica della Svizzera o Stato di questo paese e dei ventidue cantoni di cui è composto [...] . Contiene su un foglio pieghevole due grafici basati sui dati di Johannes Fehr: "Estensione comparata o area dei ventidue cantoni della Svizzera rappresentata dalla lunghezza delle linee tracciate accanto al nome di ciascun cantone" e " Popolazione comparativa di ventidue Cantoni della Svizzera rappresentata dalla lunghezza delle linee tracciate accanto al nome di ciascun cantone”.

Nel 1820 iniziammo a rappresentare i dati statistici su una mappa. Nel 1826, Charles Dupin disegnò una mappa choropleth di educazione popolare in Francia , la colorazione dei dipartimenti francesi secondo l'intensità della variabile rappresentata. Questa rappresentazione visiva riscosse un rapido successo e fu subito ripresa da André-Michel Guerry e Adriano Balbi che disegnarono mappe coropletiche dell'indagine, del numero dei delitti contro la proprietà e del numero dei delitti contro le persone, poi da Guerry nel suo Essay. le statistiche morali della Francia pubblicate nel 1833. Poco dopo, Armand Joseph Frère de Montizon propose la prima " mappa a punti" , con una rappresentazione della popolazione francese per dipartimento intitolata Carte Philosophique che mostrava la popolazione della Francia . Nel 1855, il medico britannico John Snow elaborò una mappa dei punti di colera a Londra sulla quale rappresentava la posizione dei morti e la posizione dei punti d'acqua nella città di Londra, evidenziando così il fatto che l'epidemia si stava diffondendo per via d'acqua. Nel 1861, Charles Joseph Minard propone di rappresentare i dati su una mappa utilizzando diagrammi circolari la cui area è proporzionale alla quantità rappresentata ( Esempio di mappa figurativa e approssimativa delle quantità di carne di macellaio inviate sullo zoccolo dai reparti e dai consumatori ).

Nel 1857 Florence Nightingale pubblicò il suo Diagramma delle cause di mortalità all'interno dell'esercito in Oriente . Il grafico mostra che i soldati inglesi impegnati nella guerra di Crimea non muoiono in combattimento di fronte al nemico ma sono vittime delle condizioni sanitarie in cui vivono.

Nel 1889 Charles Booth combinò un approccio etnografico su larga scala e la visualizzazione in forma cartografica, per riferire sulle condizioni di vita a Londra. Questo studio sociologico, uno dei più importanti nel suo genere, ha mobilitato una squadra di investigatori pagati da Booth per raccogliere dati a livello di ogni appezzamento catastale. La visualizzazione proposta da Booth dettaglia, per colore, 7 "classi". La visualizzazione permette di identificare i cluster, in particolare per la classe più bassa che Booth chiama “classe inferiore. Vizioso, semicriminale”.

Durante la seconda metà del XIX °  secolo , troviamo alcune importanti innovazioni, come ad esempio visualizzazioni prime in tre dimensioni del italiano Luigi Perozzo o tedesco Gustav Zeuner .

Nel Regno Unito fu Francis Galton a dare un importante contributo alla visualizzazione dei dati offrendo rappresentazioni grafiche della correlazione tra due variabili ( nube di punti ) ma anche mappe meteorologiche. .

Nel primo XX °  secolo , gli statistici stanno prestando meno attenzione alla visualizzazione dei dati.

Negli anni '60, John Tukey diede alla visualizzazione dei dati nelle statistiche le sue lettere di nobiltà, in particolare con il suo libro Exploratory Data Analysis (1977).

Nel 2005, Leland Wilkinson ha pubblicato The Grammar of Graphics , uno dei più importanti lavori teorici sulla progettazione di grafici statistici. Wilkinson definisce un grafico statistico come una corrispondenza tra dati e attributi estetici (colore, forma, dimensione, ecc.) di oggetti geometrici (punti, linee, barre, ecc.).

Struttura di una visualizzazione

Una visualizzazione è composta da un elemento visivo, una scala, un sistema di coordinate e un contesto.

In una nuvola di punti , utilizziamo la posizione dei punti nello spazio come elemento visivo che rappresenta i dati. In un grafico a barre, la lunghezza delle barre è l'elemento visivo corrispondente ai dati.

Il sistema di coordinate può essere cartesiano, polare o geografico.

La scala può essere lineare o logaritmica quando è una variabile quantitativa, categoriale quando è una variabile categoriale, o temporale quando è il momento.

Tipologia secondo le forme rappresentate

Grafico a barre

Per un grafico a barre verticali, rappresentiamo per ogni modalità di una variabile discreta un rettangolo la cui altezza rappresenta il valore di una variabile continua e la cui larghezza non ha interpretazione statistica.

Per un grafico a barre orizzontali, è la larghezza del rettangolo che rappresenta il valore della variabile continua e l'altezza di questo rettangolo che non ha interpretazione statistica.

È anche comune incontrare grafici a barre in pila .

Diagramma circolare

Il grafico a torta può essere un grafico a torta o un grafico a ciambella .

Il grafico circolare o a torta viene utilizzato per rappresentare le proporzioni. In un grafico a torta, è l'angolo che rappresenta la quota di ciascuna categoria nell'insieme.

Il grafico a ciambella è un grafico a torta con un buco nel mezzo. In questo caso, è la lunghezza dell'arco di cerchio corrispondente a ciascuna categoria che rappresenta la quota di ciascuna categoria nell'insieme rappresentato.

Una nuvola di punti

Il grafico a dispersione è comunemente usato per rappresentare la relazione tra due variabili. In una nuvola di punti, le coordinate di ciascun punto sull'asse x e sull'asse y rappresentano i valori di ciascuna delle variabili. Consente di evidenziare una correlazione tra due variabili.

Linea

Un grafico lineare o lineare è una nuvola di punti in cui i punti sono stati collegati tra loro (con un'interpolazione che può essere lineare, cubica...).

bolle

Possiamo anche rappresentare graficamente dati quantitativi utilizzando bolle in cui l'area delle bolle è proporzionale alla dimensione rappresentata.

Mappa di calore

Una mappa termica (mappa termica, mappa termica) è una matrice le cui celle sono colorate in base al valore della variabile rappresentata.

trama a scatole

Il diagramma box-and-whisker riassume solo alcune caratteristiche posizionali del tratto studiato (mediana, quartili, min/max o decili). Viene principalmente utilizzato per confrontare lo stesso tratto in due popolazioni di dimensioni diverse. Si tratta di disegnare un rettangolo che va dal primo quartile al terzo quartile e tagliato dalla mediana. A volte vengono aggiunti segmenti alle estremità che portano ai valori min / max o fino al primo e al nono decili. Questo è chiamato diagramma a scatole o diagramma delle gambe.

Sparkline

Gli sparkline sono un formato sviluppato da Edward Tufte per la mini-grafica che può essere inserita nel testo di una pagina.

Tufte descrive i grafici sparkline come "grafica ad alta intensità di dati, semplice nel design e delle dimensioni di una parola". Mentre il grafico tipico è progettato per mostrare quanti più dati possibile ed è posizionato al di fuori del flusso di testo, i grafici sparkline sono concisi, memorabili e posizionati con precisione nel posto giusto.

Tipologia secondo il tipo di dato rappresentato

Visualizzazione dei dati temporali

Il grafico delle serie temporali rappresenta l'evoluzione di una variabile nel tempo. È la rappresentazione grafica più utilizzata e la sua interpretazione è generalmente molto intuitiva.

Se la serie temporale è discreta, è comune utilizzare un semplice grafico a barre per rappresentarla. Ad esempio, i dati annuali o mensili sono spesso rappresentati da grafici a barre. D'altra parte, se i dati sono continui, è più comune rappresentarli con un grafico a linee o un grafico ad area , come fece William Playfair nel suo Atlante commerciale e politico (vedi qui e qui ).

Visualizzazione dei dati geolocalizzati

Una mappa statistica viene utilizzata per rappresentare il valore di una variabile statistica in ciascuna delle unità geografiche di un'entità globale. La mappa statistica ha il vantaggio di poter rivelare sia un'analisi globale che di consentire a tutti di individuare i dettagli per ciascuna unità geografica. Ha invece il difetto di attribuire a ciascuna unità geografica un'importanza proporzionale alla sua area, mentre in molte situazioni sarebbe preferibile che l'importanza data a ciascuna unità geografica sia relativa ad un'altra variabile, come la sua area. per esempio.

Mentre le mappe sono state inventate lì più di 5000 anni, le schede statistiche sono veramente solo emerse al XVII °  secolo . Nel 1686, Edmond Halley rappresentò una mappa del mondo con simboli che permettevano di dare l'origine e soprattutto l'intensità dei venti. Più tardi, nel XIX °  secolo , John Snow è una mappa di Londra individuando il numero di morti per colera durante l'epidemia nel mese di settembre 1854, i punti di accesso all'acqua in città. La sua mappa mostra che il colera è trasmesso dall'acqua.

Visualizzazione della relazione tra più variabili

Per rappresentare la relazione tra due variabili, è comune utilizzare un grafico a dispersione .

Quando ci sono più di due variabili, ci sono molte soluzioni. La soluzione più semplice è rappresentare una matrice di nuvole di punti. Puoi anche utilizzare un grafico a bolle in cui, come in un grafico a dispersione, le coordinate delle bolle rappresentano i valori di due variabili e in cui l'area delle bolle rappresenta una terza variabile.

Visualizzazione delle proporzioni

Visualizzazione di una distribuzione statistica

Nel caso discreto, è comune utilizzare un grafico a barre in cui l'altezza di ciascun rettangolo rappresenta i numeri o le frequenze associate a ciascuna modalità.

Visualizzazione di una struttura ad albero

Quando i dati hanno una struttura gerarchica, possono essere rappresentati sotto forma di un dendrogramma , una mappa ad albero o anche un sunburst .

Mappa ad albero

La mappa ad albero è una rappresentazione visiva inventata da Ben Shneiderman nel 1990 per rappresentare l'occupazione di spazio sul suo disco rigido. In questa rappresentazione, è la superficie di ogni rettangolo che rappresenta la parte di ogni elemento nell'insieme. Questa rappresentazione è stata successivamente utilizzata per altri scopi. Ad esempio, Martin Wattenberg lo ha utilizzato per rappresentare una "mappa di mercato" per settore in cui l'area di ciascun rettangolo è proporzionale alla capitalizzazione di mercato delle aziende del settore. Marcos Westamp ha progettato una mappa ad albero delle informazioni in cui la dimensione dei rettangoli è funzione del numero di articoli dedicati all'argomento sulla stampa. Matthew Bloch, Shan Carter e Amanda Cox, hanno utilizzato una mappa ad albero per visualizzare la quota di ciascun tipo di bene nel consumo di una famiglia americana e un codice colore per visualizzare l'inflazione.

Visualizzazione della rete

Filippo Menczer (Indiana University) è stato il primo a scoprire l'attività dei bot su Twitter nel 2010 attraverso una visualizzazione di rete. L'analisi di rete viene ora utilizzata per visualizzare la formazione di bolle di filtro.

Visualizzazione del flusso

Il diagramma di flusso è un tipo specifico di rappresentazione per la visualizzazione dei flussi  .

Rappresentanza della forza lavoro cumulativa

Per le variabili continue, possiamo tracciare il poligono dei numeri cumulativi (o frequenze) . Il principio della trama è spiegato nell'articolo Statistiche elementari continue . Questo poligono permette di leggere molto velocemente l'effettivo di un intervallo della forma e, per differenza, l'effettivo di qualsiasi intervallo. Consente inoltre di leggere molto rapidamente quartili e decili . Questa rappresentazione prefigura il grafico della funzione di distribuzione di probabilità .

A volte vediamo apparire un poligono di numeri cumulativi per variabili discrete. A rigor di termini, sarebbe necessario disegnare un diagramma delle scale.

Bibliografia

Videografia

Mostre

Note e riferimenti

Appunti

  1. Edward Tufte parla di mappe dati  " , letteralmente "mappe dati"

Riferimenti

  1. Victorin Chevallier, "  Necrologio del sig. Minard, ispettore generale dei ponti e delle strade, in pensione  ", Annales des Ponts et Chaussées: Mémoires et documents , Parigi, Dunod , vol.  II della 5 °  serie, 2 e sett. 1871, pag.  1-22
  2. "  Biografia di Charles Joseph Minard  " ( ArchivioWikiwixArchive.isGoogle • Cosa fare? ) (Accessed 20 ott 2014 ) il 19 ° .org, sito dedicato alla storia del 19 °  secolo
  3. Charles Joseph Minard: Mappatura del marzo di Napoleone 1861 di John Corbett, Center for Spatially Integrated Social Science
  4. Michael Friendly , "Una breve storia della visualizzazione dei dati", in Handbook of Data Visualization ,2008( DOI  10.1007 / 978-3-540-33037-0_2 ) , pag.  19
  5. Tufte 2001 , p.  9
  6. Amichevole 2008 , p.  9-10
  7. Tufte 2001 , p.  33
  8. Amichevole 2008 , p.  39
  9. Adriano Balbi e André-Michel Guerry , Statistiche comparate dello stato dell'istruzione e del numero di crimini nei vari distretti delle accademie e delle corti reali di Francia , Parigi, Jules Renouard,1829
  10. Jean-Paul Bord (a cura di ) E Pierre-Robert Baduel (a cura di ), Le mappe della conoscenza , Khartala,2004, pag.  593
  11. amichevole 2008 , p.  27
  12. Amichevole 2008 , p.  30
  13. "  Questa ricerca di mercato ha 120 anni e unisce Big Data e qualitativo  " , su Conseils en marketing ,22 gennaio 2018(consultato il 7 dicembre 2020 )
  14. amichevole 2008 , p.  32
  15. amichevole 2008 , p.  37
  16. Tufte 2001 , p.  53
  17. (in) Hadley Wickham , Ggplot2: grafica elegante per l'analisi dei dati , Springer Verlag, al.  "Utente",2009( DOI  10.1007 / 978-0-387-98141-3 )
  18. Yau 2013 , p.  93
  19. Yau 2013 , p.  96
  20. Yau 2013 , p.  104
  21. Yau 2013 , p.  109
  22. Yau 2011 , p.  94
  23. Yau 2011 , p.  137
  24. Yau 2011 , p.  142
  25. Tufte 2001 , p.  44
  26. Yau 2011 , p.  112
  27. Yau 2011 , p.  180-181
  28. Yau 2011 , p.  118
  29. Yau 2011 , p.  192-193
  30. Toussaint Loua , Atlante statistico della popolazione di Parigi . Parigi: J. Dejey. 1873
  31. Yau 2011 , p.  229
  32. Yau 2011 , p.  93
  33. Tufte 2001 , p.  16-20
  34. Tufte 2001 , p.  20-24
  35. Yau 2011 , p.  188-189
  36. (in) Isabel Meirelles , Design for Information , Rockport Publishers ,2013, pag.  18
  37. Yau 2011 , p.  157
  38. Meirelles 2013 , p.  31
  39. Meirelles 2013 , p.  39
  40. "  Newmap  " , su newsmap.jp ( accesso 9 dicembre 2013 )
  41. (in) Matthew Bloch , Shan Carter e Amanda Cox , "  Tutte le piccole parti dell'inflazione  " , The New York Times ,3 maggio 2008( leggi in linea )
  42. Meirelles 2013 , p.  44
  43. "  4 motivi per cui i social media ci manipolano  " , su Consigli di marketing ,30 settembre 2020(consultato il 7 dicembre 2020 )
  44. Martin Grandjean , "La  conoscenza è una rete  ", Les Cahiers du Numérique , vol.  10, n .  3,2014, pag.  37-54 ( letto online , consultato il 15 ottobre 2014 )
  45. http://www.davidbihanic.com/exhibition/
  46. https://exhibits.stanford.edu/dataviz

Vedi anche

Articoli Correlati

link esterno