Mediana (statistiche)

Nella teoria della probabilità e nella statistica , la mediana è il valore che separa la metà inferiore dalla metà superiore di un insieme ( campione , popolazione , distribuzione di probabilità ). Intuitivamente, la mediana è quindi il punto medio del tutto. È un indicatore di tendenza centrale della serie. Possiamo determinare una mediana per un insieme di valori non numerici purché possiamo scegliere un criterio per ordinare questi valori.

Metodo di calcolo

Approccio generale

Per determinare una mediana di un insieme di valori, è sufficiente ordinare i valori in una lista crescente e scegliere il valore che si trova al centro di questa lista. Per un elenco ordinato di n elementi, essendo n dispari, il valore dell'elemento nella posizione (n + 1) / 2 è la mediana. Se il numero n di elementi è pari, qualsiasi valore tra gli elementi nelle posizioni (n-1) / 2 e (n + 1) / 2 è una mediana; in pratica, nel caso di un elenco di numeri, è la media aritmetica di questi due valori centrali che viene utilizzata più spesso .

La complessità dell'algoritmo per il calcolo della mediana è quindi la complessità dell'algoritmo di ordinamento utilizzato, vale a dire O ( n log n ) nella migliore delle ipotesi .

Esempi

Altro approccio

Per determinare una mediana di un insieme di valori basta calcolare le percentuali cumulate crescenti e si prende il primo valore della serie la cui percentuale cumulata supera il 50%.

Questo metodo è più pratico quando si dispone di un numero elevato di valori.

Efficienza degli algoritmi

Esistono algoritmi di complessità lineare (in O ( n )), quindi più efficienti. Si tratta di algoritmi che generalmente consentono di determinare il k -esimo elemento di una lista di n elementi (vedi Algoritmo di selezione ); k = n / 2 per la mediana. Questi sono adattamenti degli algoritmi di ordinamento, ma che sono più efficienti perché non siamo interessati a tutti i valori. Ad esempio, possiamo usare l' algoritmo divide et impera solo nelle operazioni O ( n ); nel caso dell'algoritmo QuickSelect , cambia l' ordinamento rapido ( quicksort ), che è generalmente in O ( n ) ma può essere in O ( n 2 ) nel caso peggiore.

In pratica, se stiamo cercando la mediana di una lista di n interi, e se siamo fortunati a trovare che il valore massimo m è minore di n 2 (questo risultato costa O ( n )), allora il conteggio sort , implementazione molto facile e il cui costo è, in questo caso, O ( m ) operazioni permette di ottenere la mediana in meno di O ( n 2 ) operazioni. Questo caso vale in particolare per il caso di voti su 20 (senza decimali) in una classe con più di 5 alunni (5 al quadrato è maggiore di 20).

Misura della dispersione statistica

Quando la mediana viene utilizzata per localizzare i valori nelle statistiche descrittive, ci sono diverse possibilità per esprimere la variabilità: range , range interquartile e range assoluto . Poiché la mediana è lo stesso valore del secondo quartile , il suo calcolo è dettagliato nell'articolo sui quartili .

Mediane nelle distribuzioni di probabilità

Per tutte le distribuzioni di probabilità reali, la mediana m soddisfa l'uguaglianza:

cioè in termini di funzione di distribuzione  :

Quindi per una distribuzione di probabilità diffusa (funzione di distribuzione continua):

Mediane di alcune distribuzioni

Per tutte le distribuzioni simmetriche , la mediana è uguale all'aspettativa.

Mediane nelle statistiche descrittive

La mediana viene utilizzata principalmente per le distribuzioni asimmetriche perché le rappresenta meglio della media aritmetica. Consideriamo l'insieme {1, 2, 2, 2, 3, 9}. La mediana è 2, così come la moda, che è una misura migliore della tendenza centrale rispetto alla media aritmetica di 3,166….

Il calcolo della mediana è comunemente fatto per rappresentare diverse distribuzioni ed è facile da capire e da calcolare. È inoltre più robusto della media in presenza di valori estremi.

Proprietà teoriche

Proprietà ottimale

La mediana è anche il valore centrale che minimizza il valore medio delle deviazioni assolute. Nella serie {1, 2, 2, 2, 3, 9} data in precedenza, questo sarebbe (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5, anziché 1,944 dalla media, che, per sua parte, minimizza le deviazioni quadratiche. Nella teoria della probabilità, il valore c che minimizza

è la mediana della distribuzione di probabilità della variabile casuale X .

La disuguaglianza tra mezzi e mediane

Per le distribuzioni di probabilità continue, la differenza tra la mediana e l'aspettativa è al massimo una deviazione standard .

Note e riferimenti

  1. "Calcolo della mediana" , Statistics Canada .
  2. Fabrice Mazerolle, "  mediana  " ,2012(consultato il 13 febbraio 2012 ) .
  3. [ (it)  Selezione (deterministica e randomizzata): trovare la mediana in tempo lineare ]

Vedi anche

Articoli Correlati

link esterno