anova
  1. Home
  2. Risorse
  3. Analisi della Varianza - Test Anova

Analisi della Varianza - Test Anova

L’analisi della varianza (ANOVA, Analysis of Variance) è una tecnica statistica di analisi

Aggiungi Rimuovi

Nel presente articolo verrà trattato il tema dell’analisi della varianza. In particolare dopo una breve introduzione teorica verrà proposto un esempio concreto e una simulazione in Minitab del test ANOVA relativo ad un esperimento a singolo fattore (One-Way ANOVA).

L’analisi della varianza (ANOVA, Analysis of Variance) è una tecnica statistica di analisi dei dati che consente di verificare ipotesi relative a differenze tra le medie di due o più popolazioni.

Permette quindi di studiare due o più gruppi di dati confrontandone sia le variabilità interne sia quelle tra i gruppi stessi.

Prima di effettuare un test ANOVA è necessario verificare che le ipotesi richieste dal modello siano effettivamente verificate dal data-set a disposizione.

Ipotesi:

  • I dati di ogni gruppo devono avere la stessa origine (nonché la stessa distribuzione stocastica) e le differenze osservate tra i gruppi devono essere casuali (ipotesi nulla).
  • Le popolazioni considerate devono avere distribuzione Normale o quasi Normale (questa ipotesi è facilmente verificabile effettuando un Normal Probability Plot).
  • Le popolazioni confrontate nel test devono avere varianza omogenea.

Relativamente a quest’ultima ipotesi, poiché le varianze delle popolazioni non sono nella gran parte dei casi note a priori, tipicamente si effettuano degli ulteriori test di ipotesi sulle varianze. Per semplicità, molto spesso ci si limita ad utilizzare la seguente regola empirica: se il rapporto tra la deviazione standard campionaria dei dati più alta e quella più bassa è minore di 2, allora il test ANOVA può essere utilizzato.

Esistono diversi tipi di test ANOVA ed è possibile classificarli in base al numero di variabili indipendenti e dipendenti presenti nel modello oggetto di studio:

  • modelli che prevedono una sola variabile indipendente: disegni a una via (One-Way ANOVA);
  • modelli che prevedono due o più variabili indipendenti: disegni fattoriali;
  • modelli che prevedono una sola variabile dipendente: analisi della varianza univariata;
  • modelli che prevedono due o più variabili dipendenti: analisi della varianza multivariata (MANOVA – Multivariate Analysis of Variance).

Descrizione formale del modello a una via

Consideriamo k campioni indipendenti ottenuti da k diverse popolazioni con distribuzione Normale, con media µk e con la stessa varianza (non nota a priori).

Osservazioni

Campione 1y11 ………. y1n

………….

Campione k:  yk1 ………. Yknk

dove:

yij rappresenta la j-esima osservazione nel campione estratto dalla popolazione i;

ni  rappresenta la numerosità del campione i (assumiamo n1 + … + nk = N).

Il test ANOVA viene utilizzato per verificare le seguenti ipotesi:

H0: μ1 = μ2 = … = μk

H1: almeno una delle μ è diversa

La statistica del test è definita come il rapporto fra due misure di variabilità: la variabilità fra i gruppi MSk e la variabilità all’interno dei gruppi MSe:

F = 

La distribuzione di questa statistica test, quando H0 è vera, è una distribuzione F con gradi di libertà k-1 e  N-k.

Un esempio pratico: One-Way ANOVA

Descrizione dell’esperimento

Un fabbricante di carta impiegata nei sacchetti per alimenti, è interessato a migliorare la resistenza a trazione dei sui prodotti. Assumiamo che la resistenza a trazione sia funzione della concentrazione di legno di latifoglio presente nell’impasto con cui si realizza la carta.

Prendiamo in considerazione quattro livelli di concentrazione tra il 5% e il 20% (intervallo di interesse pratico definito dai tecnici addetti) e prepariamo sei provini per ciascun livello di concentrazione. Tutti i 24 provini vengono quindi sottoposti al test di resistenza di laboratorio in ordine casuale (la casualizzazione è molto importante in quanto bilancia l’effetto di ogni variabile di disturbo che può influenzare la resistenza alla trazione osservata).

Di seguito il data-set rilevato.

Questo appena esposto è un tipico esempio di esperimento completamente casualizzato a singolo fattore, con quattro livelli del singolo fattore (concentrazioni del legno).

Analisi con Minitab (One-Way ANOVA)

Vediamo ora come i dati ricavati da un esperimento casualizzato a singolo fattore possano essere analizzati statisticamente.

Inseriamo la tabella sopra riportata in Minitab riportando in due colonne separate rispettivamente la concentrazione percentuale del legno e la corrispettiva resistenza a trazione per ogni osservazione.

Selezioniamo il menù: Stat – ANOVA – One-Way.

Appare quindi la seguente finestra in cui vengono mostrate le variabili del modello (Response e Factor) e da cui è possibile scegliere e configurare l’output del test grafico e analitico.

   

One-way ANOVA: Resistenza versus Concentrazione %

 

Analisi dei risultati

Come è possibile osservare, poiché il P-value riportato nell’output è uguale a zero (quindi inferiore al livello di soglia scelto α=0,05) possiamo concludere che l’ipotesi nulla (H0) non è vera e concludiamo che la  concentrazione di legno nell’impasto influisce in modo significativo sulla resistenza della carta.

Un ulteriore criterio di rifiuto dell’ipotesi nulla si ha quando la statistica del test F, presenta un valore maggiore del suo valore critico fa,b,c (punto percentuale superiore della distribuzione F).

In questo caso abbiamo f0,05, 4, 6  = 3,10 (dato tabulare) ed F = 19,61 (output ANOVA). Segue che F > f e quindi rifiutiamo H0.

 

Notiamo inoltre che Minitab fornisce anche un’informazione riassuntiva su ciascun livello di concentrazione di legno, compreso l’intervallo di confidenza su ogni media.

 

E’ anche molto interessante analizzare graficamente i dati ricavati dall’esperimento.

Utilizzando ad esempio come output grafico il boxplot della resistenza a trazione per i quattro livelli di concentrazione di legno di latifoglio, notiamo che la variazione di tale concentrazione influenza la resistenza alla trazione. Più precisamente, più alte concentrazioni di legno di latifoglio portano a osservare valori più elevati di resistenza a trazione. Inoltre è evidente che la distribuzione della resistenza a trazione a un particolare livello di legno è ragionevolmente simmetrica e la variabilità della stessa non cambia drasticamente al variare della concentrazione di legno.

Il boxplot mostra quindi sia la variabilità delle osservazioni entro un trattamento sia la variabilità tra i trattamenti effettuati.

 

Ti potrebbe interessare

Iscriviti alla Newsletter

Utilizza questo modulo per iscriverti alla nostra newsletter, al fine di ricevere aggiornamenti e informazioni via email.

Quali sono le novità?

Data inizio: 28 Novembre 2024, 14:30
Ti aspettiamo per un'avventura formativa tra i luoghi inesplorati della Data Analysis, dell'Intelligenza Artificiale, della Qualità e della Statistica Industriale. Unisciti all'equipaggio di GMSL per una missione speciale verso le nuove…
Impara i principali concetti statistici e preparati ad affrontare gli argomenti avanzati di tuo interesse.  Dopo una panoramica sul software, nella prima fase del corso, scoprirai…