Convalida incrociata

La convalida incrociata ( convalida incrociata  " ) è, nell'apprendimento automatico , un metodo per stimare l'affidabilità di un modello basato su una tecnica di campionamento .

Utilità della convalida incrociata

Supponiamo di avere un modello statistico con uno o più parametri sconosciuti e un set di dati di addestramento su cui possiamo apprendere (o "addestrare") il modello. Il processo di addestramento ottimizza i parametri del modello in modo che corrisponda il più fedelmente possibile ai dati di addestramento. Se quindi prendiamo un campione di convalida indipendente, presumibilmente dalla stessa popolazione del campione di addestramento, generalmente risulterà che il modello non modella i dati di convalida così come i dati di addestramento: si parla di overfitting . Tuttavia, un campione di convalida indipendente non è sempre disponibile. Inoltre, da un campione di convalida a un altro, le prestazioni di convalida del modello possono variare. La convalida incrociata consente di derivare diversi set di convalida dallo stesso database e quindi di ottenere una stima più robusta, con bias e varianza, delle prestazioni di convalida del modello.

Tecniche di convalida

Esistono molte varianti di convalida ma possiamo prima distinguere:

Tabella di distribuzione dei dati per la convalida incrociata a k = 3 blocchi
K blocco 1 blocco 2 blocco 3
1 convalida apprendimento apprendimento
2 apprendimento convalida apprendimento
3 apprendimento apprendimento convalida

Dopo aver effettuato la validazione del modello, è quindi necessario passare alla prova con il test precedentemente accantonato.

Gestione di database sbilanciati

Nei compiti di classificazione , la distribuzione delle classi nel database può essere sbilanciata, cioè il numero di osservazioni per classe potrebbe non essere lo stesso da una classe all'altra: se denotiamo il numero di osservazioni della -esima classe, allora esiste tale quello . In questo caso, per evitare che le prestazioni di convalida (e apprendimento) siano influenzate da una distribuzione mutevole delle classi da un insieme di convalida (o apprendimento) a un altro, si consiglia di utilizzare una convalida incrociata stratificata ("convalida incrociata stratificata") . La stratificazione consiste nel garantire che la distribuzione delle classi sia la stessa in tutti i set di addestramento e convalida utilizzati. Vale a dire che se il database iniziale presenta, ad esempio, 3 osservazioni della classe 1 per 7 osservazioni della classe 2, allora ogni set di validazione (rispettivamente apprendimento) deve presentare questo rapporto di 3 per 7.

Nel caso di convalida incrociata con blocchi, si tratta semplicemente di distribuire le classi allo stesso modo da un blocco all'altro. I set di convalida e addestramento che ne deriveranno erediteranno questa distribuzione.

Vedi anche

Collegamenti interni

Riferimenti

  1. Payam Refaeilzadeh, Lei Tang, Huan Liu, "  Cross-Validation  " ( ArchiveWikiwixArchive.isGoogle • Que faire? ) (Accesso 20 aprile 2020 )
  2. Andrew W. Moore, Convalida incrociata per il rilevamento e la prevenzione dell'overfitting


<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">