Modelli di regressione multipla postulati e non postulati

Modello

Un modello mette in relazione una o più variabili da spiegare Y a variabili esplicative X, mediante una relazione funzionale Y = F (X)

Regressione multipla

È il più utilizzato dei modelli statistici.

Abbiamo n osservazioni ( i = 1,…, n  ) di p variabili. Viene scritta l'equazione di regressione

o

Il calcolo dei coefficienti a  j e dell'errore del modello, dalle osservazioni, è un problema ben compreso (vedi Regressione lineare multipla ).

Più delicata è la scelta delle variabili che entrano nel modello. Può essere applicato o meno.

Modello postulato

Nel modello precedente, solo i coefficienti sono “guidati dai dati”, la struttura polinomiale del modello è imposta dall'utente (secondo la sua competenza del problema), che postula a priori:

Esempio di un modello polinomiale con due variabili esplicative:

Il problema della selezione delle variabili esplicative

Quando il numero di variabili esplicative è elevato, può accadere che alcune variabili siano correlate tra loro. In questo caso è necessario eliminare i duplicati. A tale scopo, il software utilizza metodi di selezione graduali (ascendente, discendente o misto).

Resta il fatto che la qualità del modello finale dipende in gran parte dalla scelta delle variabili e dal grado del polinomio.

Modello non postulato

Al contrario, il modello “non postulato” è interamente “  data driven  ”, sia la sua struttura matematica che i suoi coefficienti.

La selezione delle variabili esplicative non richiede la conoscenza a priori del modello: avviene tra un insieme molto ampio di variabili, tra cui:


La selezione viene effettuata prima del calcolo dei coefficienti di regressione secondo il seguente principio:

Stiamo cercando il fattore, o l '“interazione”, o la funzione, che meglio si correla con la risposta. Dopo averlo trovato, cerchiamo il fattore, o l'interazione, meglio correlato al residuo non spiegato dalla correlazione precedente; eccetera. Questo metodo mira a non contare due volte la stessa influenza, quando i fattori sono correlati, e ad ordinarli per importanza decrescente.

L'elenco trovato, ordinato in ordine decrescente di importanza , non può contenere più termini di incognite ( n ). Se nel modello viene mantenuto un solo termine, dovrebbe essere il primo nell'elenco. Se vengono conservati solo due, saranno i primi due, ecc.

Infatti, poiché ciascuno dei termini nell'elenco "spiega" il residuo non spiegato dai precedenti, questi ultimi forse spiegano solo "rumore". Quale criterio di arresto scegliere?

Il numero di termini conservati nel modello può essere, ad esempio, quello che riduce al minimo l' errore standard di previsione SEP (errore standard di previsione) o quello che massimizza la F. di Fisher . Questo numero di termini può anche essere scelto dall'utente in base a considerazioni fisiche.


Esempio  : supponiamo che l'insieme di "variabili esplicative" candidate sia {A, B, C, D, E, F, G} e che il modello ottenuto sia:Y = costante + aA + b. ("E e G") + c. ("D e F significa")Lo notiamo * le variabili irrilevanti B e C non compaiono nel modello * la variabile A appariva come un termine semplice, * le variabili E e G da un lato, e D e F dall'altro, appaiono solo come “  interazioni logiche  ”.


Questo modello “  parsimonioso  ”, cioè comprendente pochi termini (qui tre), coinvolge 5 variabili e si attaccherà meglio alla realtà fisica rispetto a un modello polinomiale. Infatti la congiunzione "E e G" che significa "E e G forti contemporaneamente" si incontra più spesso nella realtà fisica (esempio: catalisi in chimica) rispetto a un termine polinomiale di tipo EG

Decomposizione armonica

Un modello non postulato sarà anche efficiente nella decomposizione armonica della serie.

In effetti, il principio si applica anche nel caso di campionamento irregolare (dove i metodi del tipo a media mobile , ARIMA o Box e Jenkins sono difettosi) come nei casi non stazionari (dove non si applica l' analisi di Fourier ) . 'Non si applica) . Permette di rilevare e districare le interferenze di vari cicli e stagionalità con interruzioni di tendenza in "gradini", "V", "interruzioni logistiche", schemi periodici ed eventi accidentali come picchi isolati o "pezzi d'onda".

Esempi

Applicazione al marketing

I dati per questo esempio sono disponibili su Internet (vedi Colas Promo Price Effect [1] )

In un grande negozio di scatole, vengono presentati due prodotti per la vendita. Le gondole possono o non possono essere presenti, i prezzi possono variare, così come la presenza in negozio.

Ecco i modelli non postulati ottenuti per ciascuno dei due prodotti:

1SALE = 311,6 - 1386. Pri] 1Gondola Forward + 492,4 Freq e 2Price R2a = 0,849, Q2 = 0,841, F = 220,4, SEP = 86,28


2SALE = 396,1 - 1701. (2Pri-2GondolaEnAvant) + 346,0 Freq] 1Prezzo R2a = 0,854, Q2 = 0,851, F = 229,3, SEP = 81,27

I termini di queste equazioni sono ordinati per importanza decrescente e la loro influenza positiva o negativa dipende dal segno dei coefficienti.

Quindi, tenendo conto del significato dei simboli delle interazioni logiche , deduciamo che:


Spesso è utile associare ai modelli un'analisi dei dati di tipo Iconografia delle correlazioni  :


Figura 1 , analisi dei collegamenti.Linee continue: notevoli correlazioni positive.Linee tratteggiate: notevoli correlazioni negative.


Da un lato, notiamo i legami positivi delle vendite del prodotto 1 con:

D'altra parte, i collegamenti negativi delle vendite del prodotto 1 con:

Miglioramento della qualità industriale

I dati di Kackar (1985) qui usati sono serviti da illustrazione per varie tecniche di elaborazione dei dati. Vedi D. Collombier: Progettazione di esperimenti e miglioramento della qualità industriale. Un'alternativa al metodo Taguchi. RSA, tomo 40, n ° 2 (1992), p. 31-43. [2]


Vogliamo migliorare la flessione delle balestre utilizzate per la sospensione dei camion. I vetrini vengono riscaldati in forno, piegati in pressa, quindi raffreddati a bagno d'olio. Vogliamo ottenere una freccia di piegatura vicina a 8 pollici.

I fattori controllati della produzione, a due livelli (un valore basso e un valore alto), sono:


Il disegno sperimentale scelto, comprendente 8 prove (per i fattori di produzione), viene quindi ripetuto due volte, per ciascuna delle temperature di raffreddamento. Sono 16 test.

Inoltre, ciascuna delle prove viene ripetuta 3 volte per tenere conto delle sorgenti di rumore incontrollate. Vale a dire un totale di 48 test.

Le risposte dell'esperimento sono


Nella tabella seguente, i livelli dei fattori di produzione sono indicati come -1 per debole e 1 per forte. Il livello di temperatura di raffreddamento è indicato come 1 per debole e 2 per forte.


T ° Forno tRiscaldamento tTrasferimento FourPress tSubPress T ° di raffreddamento Ymoy Segnale / Rumore
1 -1 -1 -1 -1 1 7.79 5.426739
2 -1 -1 -1 -1 2 7.29 5.426739
3 1 -1 -1 1 1 8.07 11.6357
4 1 -1 -1 1 2 7.733 11.6357
5 -1 1 -1 1 1 7.52 6.360121
6 -1 1 -1 1 2 7.52 6.360121
7 1 1 -1 -1 1 7.63 8.658226
8 1 1 -1 -1 2 7.647 8.658226
9 -1 -1 1 1 1 7.94 7.337677
10 -1 -1 1 1 2 7.4 7.337677
11 1 -1 1 -1 1 7.947 10.44231
12 1 -1 1 -1 2 7.623 10.44231
13 -1 1 1 -1 1 7.54 3,700976
14 -1 1 1 -1 2 7.203 3,700976
15 1 1 1 1 1 7.687 8,860563
16 1 1 1 1 2 7.633 8,860563


Ecco i modelli non postulati ottenuti per la freccia Ymoy e per il rapporto Segnale / Rumore:

Ymoy = 7,636 - 0,5687 tCha ^ T ° Raffreddamento + 0,3174 (T ° Fo + tSubPress) - 0,3127 T ° Re & -T ° Forno R2a = 0,934, Q2 = 0,918, F = 71,59, SEP = 0,7446E-01 Segnale / Rumore = 7.803 + 7.449 (T ° Fo-tHeating) + 4.201 T ° Fo ^ tSubPress + 1.874 tCha] -T ° Forno R2a = 0,969, Q2 = 0,964, F = 155,3, SEP = 0,5413

I termini di queste equazioni sono ordinati per importanza decrescente (ciascuno spiega il residuo non spiegato dalle precedenti), e la loro influenza positiva o negativa dipende dal segno dei coefficienti.

Quindi, tenendo conto del significato dei simboli delle interazioni logiche , deduciamo che:


Questi modelli consentono (per più tiri variando i fattori), di trovare il compromesso ottimale per una deflessione Y media di 8 pollici con un elevato rapporto segnale / rumore. Per questo, possiamo definire curve di desiderabilità (il desiderio complessivo è un compromesso dei due):

La tabella seguente riporta, nella colonna "Scelta", i valori che favoriscono questo compromesso. Possono essere oggetto di un test di convalida.

Basso Superiore Scelta
T ° Forno -1 1 0.99
tRiscaldamento -1 1 -0,92
tTransferForPress -1 1 0
tSubPress -1 1 0.17
T ° di raffreddamento 1 2 1.03
Ymoy 7.203 8.07 7.98
Segnale / Rumore 3.701 11.636 11.04

Per una visione più sintetica del fenomeno, possiamo combinare modelli con un'analisi di dati come Iconografia delle correlazioni  :

Figura 2 , analisi del collegamento.Linee continue: notevoli correlazioni positive.Linee tratteggiate: notevoli correlazioni negative.


Da un lato, notiamo i legami positivi di Ymoy (freccia delle molle) con:

D'altra parte il negativo collega Ymoy con:

Per quanto riguarda il rapporto Segnale / Rumore, dipende

Utensili

Tra gli strumenti che consentono modelli di regressione multipla non postulati possiamo citare il software Corico .

Riferimenti

[3] Lesty M. (1999) Un nuovo approccio nella scelta di regressori di regressione multipla in presenza di interazioni e collinearità. Recensione di Modulad, n ° 22,Gennaio 1999, pagg. 41-77

[4] Lesty M. (2002) La ricerca di armoniche, una nuova funzione del software CORICO. Recensione di Modulad, n ° 29,Giugno 2002, pagg. 39-77