Valori anomali

In statistica , un valore anomalo (o horsain in inglese outlier ) è un valore o un'osservazione che è "remota" altre osservazioni dello stesso fenomeno, vale a dire che contrasta nettamente con i valori "normalmente" misurati. Un valore anomalo può essere dovuto alla variabilità inerente al fenomeno osservato o può anche indicare un errore sperimentale. Questi ultimi sono talvolta esclusi dal set di dati .

I valori anomali possono apparire per caso in qualsiasi distribuzione, ma spesso indicano un errore di misurazione o che la popolazione è distribuita secondo una legge di probabilità a coda pesante . Nel primo caso è consigliabile sbarazzarsi di questi valori oppure utilizzare indicatori statistici più robusti a fronte di valori anomali, mentre nel secondo caso indicano che la distribuzione è fortemente asimmetrica e che è quindi necessario essere molto attenti nell'utilizzo di strumenti o ragionamenti progettati per la normale distribuzione . Una causa frequente di valori anomali è la miscelazione di due distribuzioni, che possono provenire da 2 sottopopolazioni molto distinte, o che possono indicare "misura corretta" contro "errore di misura": questo fenomeno può essere modellato attraverso un modello misto .

In set di dati più grandi, alcuni valori possono essere ragionevolmente diversi dalla media . Ciò può essere dovuto a un errore sistematico chiamato anche bias che può essere inerente al modello utilizzato per descrivere la distribuzione del fenomeno, oppure può essere alcuni valori lontani dal data center. I valori anomali possono anche indicare dati falsi, calcoli errati o limitazioni di un modello statistico. Tuttavia, in campioni di grandi dimensioni , è previsto un piccolo numero di valori anomali (che non è dovuto a condizioni anormali).

I valori anomali, raggruppando insieme i valori più estremi, possono includere il valore massimo o il valore minimo , oppure entrambi: dipende dal fatto che questi valori siano estremamente alti o bassi. Tuttavia, i valori massimo e minimo non sono sempre valori anomali perché potrebbero non essere troppo distanti da altri valori.

Un'interpretazione statistica ingenua di un set di dati contenente valori anomali può essere fuorviante e fuorviante. Ad esempio, se una persona decide di calcolare la temperatura media di 10 oggetti in una stanza, e 9 di loro hanno una temperatura compresa tra 20 e 25 gradi Celsius ma l'ultimo è un forno funzionante a 175  ° C , la mediana dell'intervallo sarà tra 20 e 25  ° C ma la temperatura media sarà compreso tra 35,5 e 40  ° C . In questo caso, la mediana è un indicatore migliore della temperatura degli oggetti rispetto alla media. Non è corretto pensare che la media e la mediana siano indicatori equivalenti. Come illustrato in questo esempio, i valori anomali di alcuni dati possono rivelare che appartengono a una popolazione diversa dal resto dei valori della serie.

Si dice che gli indicatori o gli stimatori in grado di trattare i valori anomali siano robusti: la mediana è un indicatore robusto mentre la media non lo è.

Evento e cause

Nel caso di dati distribuiti normalmente , la regola dei tre sigma afferma che circa 1 osservazione su 22 avrà una deviazione dalla media uguale o maggiore di 2 volte la deviazione standard e che circa 1 su 370 osservazioni avrà una deviazione dalla media deviazione dalla media uguale o maggiore di 3 volte la deviazione standard. Pertanto, questa legge empirica ci consente di determinare se il numero di valori anomali trovati è normale o se è necessario cercare una causa diversa da quella della probabilità statistica. Ad esempio, in un campione di 1000 valori, trovare 5 valori anomali che differiscono dalla media di oltre 3 volte la deviazione standard è "normale" - vedere la distribuzione di Poisson - e non suggerisce alcuna anomalia nella serie di valori. Tuttavia, se la dimensione del campione è 100 valori, trovare solo 3 valori anomali è sufficiente per dimostrare che esiste una ragione diversa dalla mera probabilità (valori di un'altra popolazione o bias del modello ...) perché questo è più di 11 volte il numero previsto con la regola dei tre sigma.

In generale, se la natura della distribuzione della popolazione è nota a priori , è possibile verificare se il numero dei valori anomali differisce significativamente da quanto previsto: per una data soglia (quindi i valori hanno una probabilità p di essere l'intervallo [-soglia; soglia]) di una data distribuzione, il numero di valori anomali seguirà una distribuzione binomiale del parametro p , che generalmente può essere approssimata da una distribuzione di Poisson del parametro λ = pn . Quindi, se prendiamo una distribuzione normale con una soglia a 3 deviazioni standard dalla media, p è circa 0,3%, e quindi per 1000 valori, possiamo approssimare il numero di valori la cui deviazione è maggiore della soglia (quindi 3σ ) da una distribuzione di Poisson con λ = 3.

Cause

I dati anomali possono avere più cause. Un dispositivo di misurazione potrebbe presentare un malfunzionamento temporaneo. Potrebbe esserci un errore nella trasmissione o nella trascrizione dei dati. Potrebbe essersi verificato un cambiamento nelle procedure, comportamento fraudolento o errore umano. Un campione può anche essere stato “contaminato” da individui non appartenenti alla popolazione studiata. Avvertimento ! un dato può sembrare aberrante quando è solo estremo e compatibile con le variazioni naturali di una popolazione. Il suo carattere apparentemente aberrante può anche rivelare la scarsa adeguatezza del modello statistico utilizzato per interpretare i dati, richiedendo ulteriori indagini da parte del ricercatore. L'aspetto patologico dei valori anomali di qualche forma (la parola patologica è usata nel senso che, indipendentemente dalle condizioni dell'esperimento, ci saranno sempre dati estremi dovuti al caso), che appare in una varietà di serie di valori, può indicare che il meccanismo causale differisce tra i dati alle estremità della serie ( effetto King ).

Identifica i valori anomali

Non esiste una chiara definizione matematica di cosa sia un valore anomalo. Determinare se un'osservazione sia o meno un valore anomalo è un esercizio molto soggettivo. Esistono, tuttavia, vari metodi per rilevare i valori anomali. Alcuni sono grafici come la tecnica della linea retta di Henry , altri sono basati su modelli, la tecnica del boxplot è un ibrido.

Confronto delle deviazioni con la deviazione standard

I metodi basati su modelli vengono utilizzati per identificare i valori anomali quando i dati provengono da una distribuzione normale. Questi metodi identificano le osservazioni considerate "improbabili" in base alla media e alla deviazione standard.

Altre valutazioni di variabilità

Esistono anche altri metodi basati su misure come l' intervallo interquartile . Ad esempio, se e sono rispettivamente il primo e il terzo quartile, possiamo definire un valore anomalo come un qualsiasi valore situato al di fuori dell'intervallo:

con una costante positiva.

Nell'attività di data mining consistente nel rilevamento di anomalie , altri approcci si basano su distanze o densità e molti di loro utilizzano l' algoritmo k-più vicini per identificare un valore come un valore anomalo o meno.

Test Tau di Thompson modificato

Il test Tau di Thompson modificato è un metodo utilizzato per determinare se ci sono valori anomali in una serie di valori. Il punto di forza di questo metodo sta nel fatto che tiene conto della deviazione standard e della media delle serie e fornisce una soglia di rigetto determinata statisticamente; ciò fornisce quindi un metodo oggettivo per determinare se un valore è un valore anomalo.

Procedura del test: in primo luogo, determiniamo la media della serie. Quindi, viene determinata la deviazione dalla media di ciascun valore. Quindi, una soglia di rilascio viene determinata utilizzando la seguente formula :; dove è il valore critico dalla tabella Student Law , è la dimensione del campione ed è la deviazione standard del campione .

Per determinare se un valore è un valore anomalo, calcola δ =  :

se δ> Soglia, il valore è un valore anomalo; se δ ≤ Threshold, il valore non è un valore anomalo.

Il test Tau di Thompson modificato viene utilizzato per trovare un dato anomalo alla volta (il valore maggiore di δ viene modificato se è un valore anomalo). In questo senso, se un valore è calcolato come un valore anomalo, viene rimosso dall'insieme di valori e il test viene riapplicato con una nuova media e una nuova soglia di rifiuto. Questo processo viene ripetuto fino a quando non ci sono più valori anomali nella serie.

Altri approcci

Alcuni lavori hanno anche tentato di descrivere i valori anomali per serie di valori nominali. Ad esempio, in un contesto di una serie di esempi (o casi) in una serie di valori, viene creato un indicatore chiamato forza del caso che misura la probabilità che un caso venga classificato erroneamente ( dove è il termine assegnato alla classe e rappresenta il valore assegnato a un caso della serie di esempi ). Idealmente, la forza dei casi sarà calcolata sommando le serie di tutte le ipotesi possibili:

In pratica, questa formula è poco pratica perché è potenzialmente infinita e il calcolo è impossibile per un buon numero di algoritmi. Pertanto, la robustezza dei casi può essere approssimata utilizzando un sottoinsieme :

dove è l'ipotesi indotta dall'algoritmo di apprendimento formato sulla serie di valori con iperparametri . La forza del caso fornisce un valore continuo per determinare se un caso è un valore anomalo.

Lavorare con valori anomali

La scelta se trattare o meno un valore anomalo dipende dalla causa di quest'ultimo.

Conservazione dei dati anomali

Anche quando un modello di distribuzione normale è appropriato per analizzare i valori, sono previsti valori anomali per campioni di grandi dimensioni e non dovrebbero essere esclusi automaticamente. In effetti, è preferibile utilizzare algoritmi che siano robusti di fronte a valori anomali piuttosto che modelli che scartano sistematicamente questi valori.

Esclusione di valori anomali

La rimozione dei valori anomali è una pratica controversa disapprovata da molti scienziati e professori; Finché non ci sono criteri matematici per offrire un metodo oggettivo e quantitativo per rifiutare i valori, sarà impossibile rendere più accettabile la pratica di sopprimere scientificamente e metodologicamente i valori anomali. Soprattutto per piccoli campioni e se la natura della distribuzione è sconosciuta e non può essere approssimata da una distribuzione normale. Il rifiuto dei valori anomali è più accettabile se il modello alla base del fenomeno è stato misurato e la distribuzione degli errori di misura è nota con precisione. I dati anomali risultanti da uno strumento noto per commettere errori possono essere esclusi, ma è meglio verificare prima se lo strumento sta effettivamente commettendo errori.

I due approcci più utilizzati per escludere i valori anomali sono la sillabazione (o troncamento) e il metodo Winsorising . La sillabazione elimina i valori anomali mentre Winsorising sostituisce i valori anomali con i valori "non sospetti" più vicini. L'esclusione può anche essere una conseguenza del processo di misurazione. Infatti, se durante un esperimento uno strumento non è in grado di misurare valori così estremi, risultano valori censurati .

Nei problemi di regressione , un altro approccio consiste nell'escludere solo quei valori che hanno un alto grado di influenza sui coefficienti stimati, specialmente quando si utilizza una misura come la distanza di Cook .

Se un valore (o dati) è escluso dall'analisi dei dati , questo dovrebbe essere chiaramente indicato su tutti i report provenienti dall'analisi.

Distribuzioni non normali

Va inoltre considerato che i valori delle serie studiate non seguono una distribuzione normale e che possono avere "  code spesse  ". Ad esempio, quando si campiona da una distribuzione di Cauchy , la varianza aumenta con la dimensione del campione, la media del campione è distorta e non converge all'aumentare della dimensione del campione. Inoltre, i valori anomali sono previsti a un tasso molto più elevato rispetto a una distribuzione normale. Anche una leggera differenza nello spessore della coda può fare una grande differenza nel numero di valori estremi previsti.

Le incertezze di appartenere al tutto

Un approccio di appartenenza a un insieme considera che l'incertezza corrispondente alla misurazione di una variabile casuale x è rappresentata da un insieme X i (invece di una funzione di densità di probabilità). Se non vengono visualizzati valori anomali, x appartiene all'intersezione di tutti gli X i . Se appare un valore anomalo, questa intersezione è vuota e rilasciamo un piccolo numero di X i (il più piccolo possibile) per evitare qualsiasi incongruenza. Questo può essere fatto usando la nozione di intersezione rilasciata da q . Come illustrato dalla figura, l'intersezione q -released corrisponde all'insieme di tutti i xs che appartengono a tutti gli apparecchi • X i eccetto q di loro. Gli insiemi X i che non intersecano l'intersezione q -released possono essere sospettati di raccogliere valori anomali.

Altri modelli

Nel caso in cui la causa dei valori anomali sia nota, potrebbe essere possibile incorporare questo effetto nel modello. Ad esempio utilizzando un modello Bayes gerarchico o un modello misto .

Note e riferimenti

  1. (in) FE Grubbs , "  Procedure per il rilevamento di osservazioni periferiche nei campioni  " , Technometrics , vol.  11, n o  1,Febbraio 1969, p.  1–21 ( DOI  10.1080 / 00401706.1969.10490657 ) :

    Un'osservazione esterna, o" valore anomalo ", è quella che sembra deviare notevolmente dagli altri membri del campione in cui si verifica.  "

  2. (in) GS Maddala , Introduzione all'Econometria , New York, MacMillan,1992, 2 °  ed. , 631  p. ( ISBN  0-02-374545-2 , da leggere online ) , "Valori anomali" , p.  88–96 [p. 89]

    “Un valore anomalo è un'osservazione che è molto lontana dal resto delle osservazioni. "

  3. Grubbs 1969 , p.  1 affermando "Un'osservazione periferica può essere semplicemente una manifestazione estrema della variabilità casuale inerente ai dati. ... D'altra parte, un'osservazione periferica può essere il risultato di una deviazione grossolana dalla procedura sperimentale prescritta o di un errore nel calcolo o nella registrazione il valore numerico. "
  4. Ripley, Brian D. 2004. Statistiche robuste
  5. (a) Da Ruan , Guoqing Chen , Stephen Kerre e Geert Wets , Intelligent Data Mining: Techniques and Applications , Springer al.  “Studies in Computational Intelligence Vol. 5 ",2005, 518  p. ( ISBN  978-3-540-26256-5 , leggi online ) , p.  318
  6. (a) Peter Rousseeuw e A. Leroy, Robust Regression and Outlier Detection , John Wiley & Sons,1996, 3 e  ed.
  7. (a) J. Victoria Hodge e Jim Austin, A Survey of Outlier Detection Methodologies ,1943
  8. (a) Vic Barnett e Toby Lewis, Outliers in Statistical Data , Chichester / New York / Brisbane ecc., Wiley,1994, 3 e  ed. , 584  p. ( ISBN  0-471-93094-6 )
  9. (in) KKLB Adikaram , MA Hussein , Mr. Effenberger e T. Becker , "  Outlier Detection Method in Linear Regression Based on Sum of Arithmetic Progression  " , The Scientific World Journal ,2014( DOI  10.1155 / 2014/821623 )
  10. Benjamin Peirce , "Criterion for the Rejection of Doubtful Observations" , Astronomical Journal II 45 (1852) ed Errata al documento originale .
  11. (in) Benjamin Peirce , "  è il criterio di Peirce  " , Atti dell'Accademia Americana delle Arti e delle Scienze , vol.  13, maggio 1877 - maggio 1878, p.  348–351 ( DOI  10.2307 / 25138498 , JSTOR  25138498 )
  12. (in) Charles Sanders Peirce , "  Appendice n. 21. Sulla teoria degli errori di osservazione  " , Rapporto del soprintendente del sondaggio sulla costa degli Stati Uniti che mostra i progressi del sondaggio durante l'anno 1870 ,1873, p.  200–224. NOAA PDF Eprint (va a Report p. 200, PDF p. 215).
  13. (in) Charles Sanders Peirce , "Sulla teoria degli errori di osservazione [Appendice 21, selon la nota editoriale a pagina 515]" in Kloesel Christian JW, et alia , Writings of Charles S. Peirce: A Chronological Edition , vol.  3: 1872-1878 , Bloomington, Indiana, Indiana University Press,1986( 1 a  ed. 1982), 140-160  p. ( ISBN  0-253-37201-1 )
  14. (in) EM Knorr , RT Ng e V. Tucakov , "  Valori anomali basati sulla distanza: algoritmi e applicazioni  " , The VLDB Journal the International Journal on Very Large Data Bases , vol.  8, n osso  3-4,2000, p.  237 ( DOI  10.1007 / s007780050006 )
  15. (in) S. Ramaswamy, R. e K. Rastogi Shim (2000) "Algoritmi efficienti per estrarre valori anomali da ampi set di dati" in Atti della 2000 ACM International Conference on Management of SIGMOD data - SIGMOD '00  : 427 p. ( DOI : 10.1145 / 342009.335437 ). 
  16. (en) MM Breunig, H.-P. Kriegel , RT Ng e J. Sander (2000) "  LOF: Identifying Local Density-based Outliers  ": 93-104 p. ( DOI : 10.1145 / 335191.335388 ). 
  17. (a) E. Schubert , A. Zimek e H. -P. Kriegel , "  Local outlier detection riconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection  " , Data Mining and Knowledge Discovery ,2012( DOI  10.1007 / s10618-012-0300-z )
  18. (a) John M. Cimbala, "  Valori anomali  " su mne.psu.edu ,12 settembre 2011.
  19. Smith, MR; Martinez, T .; Giraud-Carrier, C. (2014). " Un'analisi a livello di istanza della complessità dei dati ". Apprendimento automatico, 95 (2): 225-256.
  20. (in) Edward L. Wike , Data Analysis: A Statistical Primer for Psychology Students ,2006, 256  p. ( ISBN  978-0-202-36535-0 , leggi online ) , p.  24–25
  21. (in) WJ Dixon , "  Stima semplificata da campioni normali censurati  " , The Annals of Mathematical Statistics , vol.  31, n o  2Giugno 1960, p.  385–391 ( DOI  10.1214 / aoms / 1177705900 , leggi in linea )
  22. Cook, R. Dennis (febbraio 1977). "Rilevamento di osservazioni influenti nella regressione lineare". Technometrics (American Statistical Association) 19 (1): 15-18.
  23. Weisstein, Eric W. Cauchy Distribution. Da MathWorld - Una risorsa Web Wolfram
  24. (in) L. Jaulin , Approccio probabilistico di appartenenza a un insieme per una regressione robusta  " , Journal of Statistical Theory and Practice ,2010( leggi online )
  25. Roberts, S. e Tarassenko, L.: 1995, A probabilistic resource allocating network for novelty detection. Neural Computation 6, 270-284.
  26. (in) CM Bishop , "  Novelty Detection And Validation Neural Network  " , Atti della IEEE Conference on Vision, Image and Signal Processing , vol.  141, n o  4,Agosto 1994, p.  217–222 ( DOI  10.1049 / ip-vis: 19941330 )

Vedi anche

Articoli Correlati

link esterno