Un modello mette in relazione una o più variabili da spiegare Y a variabili esplicative X, mediante una relazione funzionale Y = F (X)
È il più utilizzato dei modelli statistici.
Abbiamo n osservazioni ( i = 1,…, n ) di p variabili. Viene scritta l'equazione di regressione
o
Il calcolo dei coefficienti a j e dell'errore del modello, dalle osservazioni, è un problema ben compreso (vedi Regressione lineare multipla ).
Più delicata è la scelta delle variabili che entrano nel modello. Può essere applicato o meno.
Nel modello precedente, solo i coefficienti sono “guidati dai dati”, la struttura polinomiale del modello è imposta dall'utente (secondo la sua competenza del problema), che postula a priori:
Esempio di un modello polinomiale con due variabili esplicative:
Quando il numero di variabili esplicative è elevato, può accadere che alcune variabili siano correlate tra loro. In questo caso è necessario eliminare i duplicati. A tale scopo, il software utilizza metodi di selezione graduali (ascendente, discendente o misto).
Resta il fatto che la qualità del modello finale dipende in gran parte dalla scelta delle variabili e dal grado del polinomio.
Al contrario, il modello “non postulato” è interamente “ data driven ”, sia la sua struttura matematica che i suoi coefficienti.
La selezione delle variabili esplicative non richiede la conoscenza a priori del modello: avviene tra un insieme molto ampio di variabili, tra cui:
La selezione viene effettuata prima del calcolo dei coefficienti di regressione secondo il seguente principio:
L'elenco trovato, ordinato in ordine decrescente di importanza , non può contenere più termini di incognite ( n ). Se nel modello viene mantenuto un solo termine, dovrebbe essere il primo nell'elenco. Se vengono conservati solo due, saranno i primi due, ecc.
Infatti, poiché ciascuno dei termini nell'elenco "spiega" il residuo non spiegato dai precedenti, questi ultimi forse spiegano solo "rumore". Quale criterio di arresto scegliere?
Il numero di termini conservati nel modello può essere, ad esempio, quello che riduce al minimo l' errore standard di previsione SEP (errore standard di previsione) o quello che massimizza la F. di Fisher . Questo numero di termini può anche essere scelto dall'utente in base a considerazioni fisiche.
Questo modello “ parsimonioso ”, cioè comprendente pochi termini (qui tre), coinvolge 5 variabili e si attaccherà meglio alla realtà fisica rispetto a un modello polinomiale. Infatti la congiunzione "E e G" che significa "E e G forti contemporaneamente" si incontra più spesso nella realtà fisica (esempio: catalisi in chimica) rispetto a un termine polinomiale di tipo EG
Un modello non postulato sarà anche efficiente nella decomposizione armonica della serie.
In effetti, il principio si applica anche nel caso di campionamento irregolare (dove i metodi del tipo a media mobile , ARIMA o Box e Jenkins sono difettosi) come nei casi non stazionari (dove non si applica l' analisi di Fourier ) . 'Non si applica) . Permette di rilevare e districare le interferenze di vari cicli e stagionalità con interruzioni di tendenza in "gradini", "V", "interruzioni logistiche", schemi periodici ed eventi accidentali come picchi isolati o "pezzi d'onda".
I dati per questo esempio sono disponibili su Internet (vedi Colas Promo Price Effect [1] )
In un grande negozio di scatole, vengono presentati due prodotti per la vendita. Le gondole possono o non possono essere presenti, i prezzi possono variare, così come la presenza in negozio.
Ecco i modelli non postulati ottenuti per ciascuno dei due prodotti:
1SALE = 311,6 - 1386. Pri] 1Gondola Forward + 492,4 Freq e 2Price R2a = 0,849, Q2 = 0,841, F = 220,4, SEP = 86,28I termini di queste equazioni sono ordinati per importanza decrescente e la loro influenza positiva o negativa dipende dal segno dei coefficienti.
Quindi, tenendo conto del significato dei simboli delle interazioni logiche , deduciamo che:
Spesso è utile associare ai modelli un'analisi dei dati di tipo Iconografia delle correlazioni :
Da un lato, notiamo i legami positivi delle vendite del prodotto 1 con:
D'altra parte, i collegamenti negativi delle vendite del prodotto 1 con:
I dati di Kackar (1985) qui usati sono serviti da illustrazione per varie tecniche di elaborazione dei dati. Vedi D. Collombier: Progettazione di esperimenti e miglioramento della qualità industriale. Un'alternativa al metodo Taguchi. RSA, tomo 40, n ° 2 (1992), p. 31-43. [2]
Vogliamo migliorare la flessione delle balestre utilizzate per la sospensione dei camion. I vetrini vengono riscaldati in forno, piegati in pressa, quindi raffreddati a bagno d'olio. Vogliamo ottenere una freccia di piegatura vicina a 8 pollici.
I fattori controllati della produzione, a due livelli (un valore basso e un valore alto), sono:
Il disegno sperimentale scelto, comprendente 8 prove (per i fattori di produzione), viene quindi ripetuto due volte, per ciascuna delle temperature di raffreddamento. Sono 16 test.
Inoltre, ciascuna delle prove viene ripetuta 3 volte per tenere conto delle sorgenti di rumore incontrollate. Vale a dire un totale di 48 test.
Le risposte dell'esperimento sono
Nella tabella seguente, i livelli dei fattori di produzione sono indicati come -1 per debole e 1 per forte. Il livello di temperatura di raffreddamento è indicato come 1 per debole e 2 per forte.
T ° Forno | tRiscaldamento | tTrasferimento FourPress | tSubPress | T ° di raffreddamento | Ymoy | Segnale / Rumore | |
---|---|---|---|---|---|---|---|
1 | -1 | -1 | -1 | -1 | 1 | 7.79 | 5.426739 |
2 | -1 | -1 | -1 | -1 | 2 | 7.29 | 5.426739 |
3 | 1 | -1 | -1 | 1 | 1 | 8.07 | 11.6357 |
4 | 1 | -1 | -1 | 1 | 2 | 7.733 | 11.6357 |
5 | -1 | 1 | -1 | 1 | 1 | 7.52 | 6.360121 |
6 | -1 | 1 | -1 | 1 | 2 | 7.52 | 6.360121 |
7 | 1 | 1 | -1 | -1 | 1 | 7.63 | 8.658226 |
8 | 1 | 1 | -1 | -1 | 2 | 7.647 | 8.658226 |
9 | -1 | -1 | 1 | 1 | 1 | 7.94 | 7.337677 |
10 | -1 | -1 | 1 | 1 | 2 | 7.4 | 7.337677 |
11 | 1 | -1 | 1 | -1 | 1 | 7.947 | 10.44231 |
12 | 1 | -1 | 1 | -1 | 2 | 7.623 | 10.44231 |
13 | -1 | 1 | 1 | -1 | 1 | 7.54 | 3,700976 |
14 | -1 | 1 | 1 | -1 | 2 | 7.203 | 3,700976 |
15 | 1 | 1 | 1 | 1 | 1 | 7.687 | 8,860563 |
16 | 1 | 1 | 1 | 1 | 2 | 7.633 | 8,860563 |
Ecco i modelli non postulati ottenuti per la freccia Ymoy e per il rapporto Segnale / Rumore:
I termini di queste equazioni sono ordinati per importanza decrescente (ciascuno spiega il residuo non spiegato dalle precedenti), e la loro influenza positiva o negativa dipende dal segno dei coefficienti.
Quindi, tenendo conto del significato dei simboli delle interazioni logiche , deduciamo che:
Questi modelli consentono (per più tiri variando i fattori), di trovare il compromesso ottimale per una deflessione Y media di 8 pollici con un elevato rapporto segnale / rumore. Per questo, possiamo definire curve di desiderabilità (il desiderio complessivo è un compromesso dei due):
La tabella seguente riporta, nella colonna "Scelta", i valori che favoriscono questo compromesso. Possono essere oggetto di un test di convalida.
Basso | Superiore | Scelta | |
---|---|---|---|
T ° Forno | -1 | 1 | 0.99 |
tRiscaldamento | -1 | 1 | -0,92 |
tTransferForPress | -1 | 1 | 0 |
tSubPress | -1 | 1 | 0.17 |
T ° di raffreddamento | 1 | 2 | 1.03 |
Ymoy | 7.203 | 8.07 | 7.98 |
Segnale / Rumore | 3.701 | 11.636 | 11.04 |
Per una visione più sintetica del fenomeno, possiamo combinare modelli con un'analisi di dati come Iconografia delle correlazioni :
Figura 2 , analisi del collegamento.Linee continue: notevoli correlazioni positive.Linee tratteggiate: notevoli correlazioni negative.Da un lato, notiamo i legami positivi di Ymoy (freccia delle molle) con:
D'altra parte il negativo collega Ymoy con:
Per quanto riguarda il rapporto Segnale / Rumore, dipende
Tra gli strumenti che consentono modelli di regressione multipla non postulati possiamo citare il software Corico .
[3] Lesty M. (1999) Un nuovo approccio nella scelta di regressori di regressione multipla in presenza di interazioni e collinearità. Recensione di Modulad, n ° 22,Gennaio 1999, pagg. 41-77
[4] Lesty M. (2002) La ricerca di armoniche, una nuova funzione del software CORICO. Recensione di Modulad, n ° 29,Giugno 2002, pagg. 39-77