Analisi della varianza

L'analisi della varianza � un insieme di tecniche statistiche facenti parte della statistica inferenziale che permettono di confrontare due o pi� gruppi di dati confrontando la variabilità interna a questi gruppi con la variabilità tra i gruppi.

L'ipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione stocastica, e che le differenze osservate tra i gruppi siano dovuti solo al caso.

Si usano queste tecniche quando le variabili esplicative sono di tipo nominale. Nulla impedisce di usare queste tecniche anche in presenza di variabili esplicative di tipo ordinale o continuo, ma in tal caso sono meno efficienti delle tecniche alternative (p.es.: regressione lineare).

Il confronto si basa sull'idea che se la variabilità interna ai gruppi � relativamente elevata rispetto alla variabilità tra i gruppi, allora probabilmente la differenza tra questi gruppi � soltanto il risultato della variabilità interna.

Il pi� noto insieme di tecniche si basa sul confronto della varianza e usa variabili di test distribuite come la F di Snedecor.

Le diverse tecniche vengono suddivise a seconda se il modello prevede

una sola causa: p.es.: il gradimento di un cibo dipende dal colore del medesimo
pi� di una causa: p.es.: il successo scolastico dipende sia dal genere (maschi,femmine) che dallo sport praticato (calcio, tennis, box,...)
iterazione tra pi� cause: p.es.: la velocità di guarigione dipende da due farmaci, i quali però si annullano (o rinforzano) a vicenda

Esempio di Analisi della varianza semplice

Il modello prevede che

x_ij = μ + α_i + ε_ij

L'ipotesi nulla prevede che i valori osservati derivino da una distribuzione gaussiana con stessa media μ e stessa varianza e che α_i sia uguale per tutti i gruppi (e pertanto nullo).

I dati osservati nei quattro gruppi, che chiamerremo A, B, C e D, di uguale numerosità (per semplificare l'esempio), sono:

j A B C D

1 0,72 0,75 0,68 0,78

2 0,69 0,85 0,70 0,86

3 0,71 0,82 0,67 0,87

4 0,70 0,80 0,65 0,84

5 0,68 0,88 0,70 0,85

Siano adesso

SSQ_a: la somma degli scarti quadratici delle medie dei singoli gruppi (m_i) dalla media generale m
SSQ_e: la somma degli scarti quadratici dei singoli valori x_ij rispetto alla media m_i del gruppo a cui appartengono
SSQ_tot: la somma degli scarti quadratici di tutti singoli valori rispetto alla media generale m

Ovvero:

m = 1/n Σ_iΣ_jx_ij

m_i = 1/n_i Σ_jx_ij

SSQ_a = Σ_in_i(m_i-m)²

SSQ_e = Σ_iΣ_j(x_ij-m)²

SSQ_tot = Σ_in_i(x_ij-m)² = SSQ_e + SSQ_a

La variabile test diventa

    SSQ_a/(k-1) 
T = ---------
    SSQ_e/(n-k)

dove

k � il numero di gruppi (nel nostro esempio: k=4)

n_i la numerosità dei singoli gruppi (nel nostro caso n_i=5 per tutti)

n = Σ_in_i, ovvero il numero complessivo di casi osservati

Nel nostro esempio si ottiene che:

SSQ_tot =0,1176

SSQ_a = 0,1000

SSQ_e = 0,0176

e pertanto

     0,1000 / (4-1)    0,1000·16  
T = --------------- = --------- = 30,30
     0,0176 / (20-4)   0,0176·3

tale valore viene confrontato con i valori dei una v.c. F di Snedecor con 3 e 16 gradi di libertà. Se si accetta una percentuale di falsi positivi del 5%=(100-95)% tale valore �

F( 0,95 ; 3 ; 16 ) = 3,24

pertanto, essendo 30,3 >> 3,24 si rigetta l'ipotesi nulla che prevedeva l'assenza di effetti e si afferma che molto probabilmente almeno uno dei quattro gruppi � diverso dagli altri. Forse tutti i gruppi sono diversi uno dall'altro, forse solo uno di loro.

Un test (proposto per la prima volta da Ronald Fisher) permette di determinare la pi� piccola differenza significativa tra la media di due gruppi, confrontandoli uno ad uno.

Tale differenza � pari a

t( 0,05/2 ; n-k ) * √(SSQ_e(1/n_p+1/n_q))

Vedi anche:

Ronald Fisher, George W. Snedecor
regressione lineare, variabile dummy
statistica, test di verifica d'ipotesi