Analisi della Varianza - Test Anova
L’analisi della varianza (ANOVA, Analysis of Variance) è una tecnica statistica di analisi
Nel presente articolo verrà trattato il tema dell’analisi della varianza. In particolare dopo una breve introduzione teorica verrà proposto un esempio concreto e una simulazione in Minitab del test ANOVA relativo ad un esperimento a singolo fattore (One-Way ANOVA).
L’analisi della varianza (ANOVA, Analysis of Variance) è una tecnica statistica di analisi dei dati che consente di verificare ipotesi relative a differenze tra le medie di due o più popolazioni.
Permette quindi di studiare due o più gruppi di dati confrontandone sia le variabilità interne sia quelle tra i gruppi stessi.
Prima di effettuare un test ANOVA è necessario verificare che le ipotesi richieste dal modello siano effettivamente verificate dal data-set a disposizione.
Ipotesi:
- I dati di ogni gruppo devono avere la stessa origine (nonché la stessa distribuzione stocastica) e le differenze osservate tra i gruppi devono essere casuali (ipotesi nulla).
- Le popolazioni considerate devono avere distribuzione Normale o quasi Normale (questa ipotesi è facilmente verificabile effettuando un Normal Probability Plot).
- Le popolazioni confrontate nel test devono avere varianza omogenea.
Relativamente a quest’ultima ipotesi, poiché le varianze delle popolazioni non sono nella gran parte dei casi note a priori, tipicamente si effettuano degli ulteriori test di ipotesi sulle varianze. Per semplicità, molto spesso ci si limita ad utilizzare la seguente regola empirica: se il rapporto tra la deviazione standard campionaria dei dati più alta e quella più bassa è minore di 2, allora il test ANOVA può essere utilizzato.
Esistono diversi tipi di test ANOVA ed è possibile classificarli in base al numero di variabili indipendenti e dipendenti presenti nel modello oggetto di studio:
- modelli che prevedono una sola variabile indipendente: disegni a una via (One-Way ANOVA);
- modelli che prevedono due o più variabili indipendenti: disegni fattoriali;
- modelli che prevedono una sola variabile dipendente: analisi della varianza univariata;
- modelli che prevedono due o più variabili dipendenti: analisi della varianza multivariata (MANOVA – Multivariate Analysis of Variance).
Descrizione formale del modello a una via
Consideriamo k campioni indipendenti ottenuti da k diverse popolazioni con distribuzione Normale, con media µk e con la stessa varianza (non nota a priori).
Osservazioni
Campione 1: y11 ………. y1n
………….
Campione k: yk1 ………. Yknk
dove:
yij rappresenta la j-esima osservazione nel campione estratto dalla popolazione i;
ni rappresenta la numerosità del campione i (assumiamo n1 + … + nk = N).
Il test ANOVA viene utilizzato per verificare le seguenti ipotesi:
H0: μ1 = μ2 = … = μk
H1: almeno una delle μ è diversa
La statistica del test è definita come il rapporto fra due misure di variabilità: la variabilità fra i gruppi MSk e la variabilità all’interno dei gruppi MSe:
F =
La distribuzione di questa statistica test, quando H0 è vera, è una distribuzione F con gradi di libertà k-1 e N-k.
Un esempio pratico: One-Way ANOVA
Descrizione dell’esperimento
Un fabbricante di carta impiegata nei sacchetti per alimenti, è interessato a migliorare la resistenza a trazione dei sui prodotti. Assumiamo che la resistenza a trazione sia funzione della concentrazione di legno di latifoglio presente nell’impasto con cui si realizza la carta.
Prendiamo in considerazione quattro livelli di concentrazione tra il 5% e il 20% (intervallo di interesse pratico definito dai tecnici addetti) e prepariamo sei provini per ciascun livello di concentrazione. Tutti i 24 provini vengono quindi sottoposti al test di resistenza di laboratorio in ordine casuale (la casualizzazione è molto importante in quanto bilancia l’effetto di ogni variabile di disturbo che può influenzare la resistenza alla trazione osservata).
Di seguito il data-set rilevato.
Questo appena esposto è un tipico esempio di esperimento completamente casualizzato a singolo fattore, con quattro livelli del singolo fattore (concentrazioni del legno).
Analisi con Minitab (One-Way ANOVA)
Vediamo ora come i dati ricavati da un esperimento casualizzato a singolo fattore possano essere analizzati statisticamente.
Inseriamo la tabella sopra riportata in Minitab riportando in due colonne separate rispettivamente la concentrazione percentuale del legno e la corrispettiva resistenza a trazione per ogni osservazione.
Selezioniamo il menù: Stat – ANOVA – One-Way.
Appare quindi la seguente finestra in cui vengono mostrate le variabili del modello (Response e Factor) e da cui è possibile scegliere e configurare l’output del test grafico e analitico.
One-way ANOVA: Resistenza versus Concentrazione %
Analisi dei risultati
Come è possibile osservare, poiché il P-value riportato nell’output è uguale a zero (quindi inferiore al livello di soglia scelto α=0,05) possiamo concludere che l’ipotesi nulla (H0) non è vera e concludiamo che la concentrazione di legno nell’impasto influisce in modo significativo sulla resistenza della carta.
Un ulteriore criterio di rifiuto dell’ipotesi nulla si ha quando la statistica del test F, presenta un valore maggiore del suo valore critico fa,b,c (punto percentuale superiore della distribuzione F).
In questo caso abbiamo f0,05, 4, 6 = 3,10 (dato tabulare) ed F = 19,61 (output ANOVA). Segue che F > f e quindi rifiutiamo H0.
Notiamo inoltre che Minitab fornisce anche un’informazione riassuntiva su ciascun livello di concentrazione di legno, compreso l’intervallo di confidenza su ogni media.
E’ anche molto interessante analizzare graficamente i dati ricavati dall’esperimento.
Utilizzando ad esempio come output grafico il boxplot della resistenza a trazione per i quattro livelli di concentrazione di legno di latifoglio, notiamo che la variazione di tale concentrazione influenza la resistenza alla trazione. Più precisamente, più alte concentrazioni di legno di latifoglio portano a osservare valori più elevati di resistenza a trazione. Inoltre è evidente che la distribuzione della resistenza a trazione a un particolare livello di legno è ragionevolmente simmetrica e la variabilità della stessa non cambia drasticamente al variare della concentrazione di legno.
Il boxplot mostra quindi sia la variabilità delle osservazioni entro un trattamento sia la variabilità tra i trattamenti effettuati.