Metodi di Analisi Multivariata in XLSTAT
https://help.xlstat.com/customer/en/portal/articles/2115193-which-multivariate-data-analysis-method-to-choose-?b_id=9283
Versione italiana e adattamento a cura di Luca Biasibetti.
COME SCEGLIERE LA TECNICA DI ANALISI MULTIVARIATA PIU’ APPROPRIATA
Definiamo un insieme di dati multivariato (o multidimensionale) come delle tabelle di dati contenenti più di 2 variabili (di solito memorizzate in colonne) misurate su più di 2 unità statistiche (individui, pazienti, siti, ecc…) solitamente disposte in righe. Le tecniche di analisi dei dati multidimensionali vengono utilizzate per estrarre informazioni interessanti in grandi insiemi di dati che difficilmente possono essere letti nel loro formato grezzo. Questi strumenti sono spesso definiti strumenti di data mining.
La seguente tabella rappresenta uno strumento utile per la scelta di un metodo di data mining appropriato in base al tipo di indagine che si vuole effettuare sfruttando i dati a disposizione (esplorativi o decisionali) e la struttura stessa dei dati. L’elenco non è ovviamente esaustivo; tuttavia, contiene i metodi più comunemente utilizzati è disponibili in XLSTAT.
Si possono distinguere le domande relative alla propria indagine in due tipologie precise:
- le domande esplorative consentono l’analisi di dati multivariati senza considerare alcuna particolare ipotesi da convalidare. Gli strumenti esplorativi di analisi dei dati multivariati implicano spesso una riduzione dimensionale di grandi insiemi di dati che rendono più conveniente l’esplorazione dei dati stessi;
- le domande decisionali implicano la verifica della relazione esistente tra due insiemi di variabili (correlazione) o la spiegazione di una variabile o di un insieme di variabili da parte di un altro insieme (causalità).
Question | Number of tables | Data description | Tool | Remarks |
Exploratory | 1 | Quantitative variables only | Principal Component Analysis(PCA) | Considers all the variance in the data; components do not necessarily reflect real phenomena |
Exploratory | 1 | Quantitative variables only | Factor analysis (FA) | Considers only the covariance between variables; latent factors reflect real phenomena |
Exploratory | 1 | Proximity matrix | Multidimensional scaling (MDS)/Principal Coordinate Analysis(PCoA) | |
Exploratory | 1 | Contingency table (2 qualitative variables) | Correspondence Analysis (CA) | |
Exploratory | 1 | Qualitative variables only | Multiple Correspondence Analysis(MCA) | |
Exploratory | ≥2 | Qualitative variables tables and-or quantitative variables tables | Multiple Factor Analysis (MFA) | |
Exploratory | ≥2 | Quantitative variables tables | Generalized Procrustes Analysis(GPA) | Could include an inferential part: the consensus test |
Exploratory (clustering) | 1 | Quantitative variables only | Clustering tools (AHC, k-means…) | Classical clustering methods could be applied on a qualitative variables table indirectly, using row scores on the dimensions of a Multiple Correspondence Analysis |
decisional (causality) | 1 | One dependent variable and several quantitative and-or qualitative explanatory variables | Statistical modelling tools(regression, ANCOVA…) | |
decisional (correlation) or exploratory |
2 | Two quantitative variables tables | Canonical correlation analysis | Linear relationships between the two tables |
decisional (causality) or exploratory |
2 | One contingency table Y (often a site-species data matrix) and one explanatory quantitative and-or qualitative variables table (X) | Canonical correspondence analysis | Unimodal relationships between X and Y; could be used to depict species niches along environmental gradients |
decisional (causality) | 2 | One dependent quantitative variables table (Y) and one quantitative and-or qualitative explanatory variables table (X) | Redundancy analysis (RDA) | Linear relationships between X and Y |
decisional (causality) | 2 | One dependent quantitative variables table (Y) and one quantitative and-or qualitative explanatory variables table (X) | Partial Least Square regression(PLS) | Especially used for prediction |
decisional (causality) | ≥2 | Several tables of manifest variables, each table representing a latent variable | Partial Least Square Structural Equation Modelling (PLS-PM) |
Strumenti di statistica descrittiva in XLSTAT
Versione italiana e adattamento a cura di Luca Biasibetti.
COME SCEGLIERE LO STRUMENTO DI STATISTICA DESCRITTIVA PIU’ APPROPRIATO
La descrizione dei dati è una parte essenziale dell’analisi statistica che mira a fornire un quadro completo sui dati prima di passare a metodi di indagine più avanzati. Le metodologie statistiche utilizzate per questo scopo sono chiamate statistiche descrittive. Queste includono sia strumenti numerici (ad esempio media, moda, varianza…) sia strumenti grafici (ad esempio istogramma, boxplot…) che consentono di riassumere un insieme di dati ed estrarre informazioni importanti come trend ed eventuali dispersioni. Queste tecniche possono inoltre essere utilizzate per descrivere l’associazione e la relazione tra più variabili.Per poter scegliere il metodo di statistica descrittiva più adeguato, dobbiamo considerare i tipi di variabili, il numero di variabili in nostro possesso e l’obiettivo dell’analisi stessa. Sulla base di questi tre criteri è possibile generare una griglia per decidere quale strumento utilizzare in base ad ogni specifica situazione. La prima colonna di questa griglia fa riferimento al tipo di metodo (rispetto alla tipologia del dato):
Quantitativo: contiene variabili che descrivono le quantità degli oggetti di interesse. I valori sono numeri. Il peso di un bambino è un esempio di una variabile quantitativa.
Qualitativo: contiene variabili che descrivono le qualità degli oggetti di interesse. Questi valori sono chiamati categorie e sono anche indicati come livelli o modalità. Il sesso di un bambino è un esempio di una variabile qualitativa e i valori possibili sono le categorie maschile e femminile.
Misto: contiene entrambi i tipi di variabili. La seconda colonna indica il numero di variabili. Gli strumenti proposti possono gestire la descrizione di una variabile (analisi univariata) o la descrizione delle relazioni tra due (analisi bivariata) o più variabili. La griglia include anche una colonna con un esempio per ogni situazione.
Data description | Objective | Example | Numerical tool | Graphical tool | |
Quantitative | One variable (univariate analysis) | Estimate a frequency distribution | How many people per age class attended this event? (here the investigated variable is age in a quantitative form) | Frequency table | Histogram |
Measure the central tendency of one sample | What is the average grade in a classroom? | Mean, median, mode | Box plot Scattergram Strip plot |
||
Measure the dispersion of one sample | How widely or narrowly are the grades dispersed around the mean grade in a classroom? | Range, standard deviation, variance, coefficient of variation, quartiles | Box plot Scattergram Strip plot |
||
Characterize the shape of a distribution | Is the employee wage distribution in a company symmetric? | Skewness and kurtosis coefficients | Histogram | ||
Measure the position of a value within a sample | What data point can be used to split the sample into 95% of low values and 5% of high values? | Quantiles or Percentiles | Box plot | ||
Detect extreme values | Is the height of 184cm an extreme value in this group of students? | Box plot | |||
Two variables (bivariate analysis) | Describe the association between two variables | Does plant biomass increase or decrease with soil Pb content? | Correlation coefficients | Correlation Map Scatterplot |
|
Several variables | Describe the association between multiple variables | What is the evolution of the life expectancy, the fertility rate and the size of population over the last 10 years in this country? | Correlation coefficients | Motion charts (up to 3 variables to describe over time) Scatterplotor 3D Scatterplot (up to 3 variables to describe) |
|
Describe the association between three variables under specific conditions | How to visualize the proportions of three ice cream ingredients in several ice scream samples? | Ternary diagram | |||
Two matrices of several variables | Describe the association between two matrices | Does the evaluation of a series of products differ from a panel to another? | RV coefficient | ||
Qualitative | One variable (univariate analysis) | Compute the frequencies of different categories | How many clients said they are satisfied by the service and how many said they were not? | Frequency table | Bar chart Pie chart |
Detect the most frequent category | Which is the most frequent hair color in this country? | Mode | Bar chart Pie chart |
||
Two variables (bivariate analysis) | Measure the association between two variables | Does the presence of a trace element change according to the presence of another trace element? | Contingency table (or cross-tab) | 3D graph of contingency table Stacked or clustered bars |
|
Mixed (quantitative & qualitative) |
Two variables (bivariate analysis) |
Describe the relationship between a binary and a continuous variable | Is the concentration of a molecule in rats linked to the rats’ sex (M/F)? | Biserial correlation | Boxplot |
Describe the relationship between a categorical and a continuous variable | Does sepal length differ between three flower species? | Univariate descriptive statistics for the quantitative variable within each category of the qualitative variable | Boxplot | ||
Several variables | Describe the relationship between one categorical and two quantitative variables | Does the amount of money spent on this commercial website change according to the age class and the salary of the customers? | Scatterplot (with groups) |
Tecniche di Clustering in XLSTAT
Versione italiana e adattamento a cura di Luca Biasibetti.
COME SCEGLIERE IL METODO DI CLUSTERING PIU’ APPROPRIATO
Lo scopo di questo tutorial è aiutare gli utenti di XLSTAT a scegliere lo strumento di Cluster Analysis più appropriato per analizzare i propri dati.
Cos’è una Cluster Analysis?
I metodi di Cluster Analysis consentono di assemblare oggetti (osservazioni o individui) in classi (cluster) in modo tale che gli oggetti appartenenti alla stessa classe siano più simili tra loro rispetto agli oggetti appartenenti ad altre classi. La prossimità (livello si somiglianza) tra gli oggetti si basa su un insieme di variabili misurate su tutti gli oggetti. I metodi di clustering sono ampiamente utilizzati nelle tecniche esplorative di data mining. Riportiamo di seguito alcuni esempi:
- Nei dati di espressione (trascrittomica, proteomica, metabolomica, ecc…), questi metodi consentono di rilevare individui con profili di espressione simili o caratteristiche con modelli di espressione simili
- Nelle ricerche di mercato, le tecniche di clustering consentono di rilevare diversi profili di consumatori utilizzando i dati provenienti delle indagini
- In ecologia, questi metodi aiutano a identificare gruppi di siti che ospitano comunità simili.
Metodi disponibili in XLSTAT
XLSTAT propone quattro diversi metodi di clustering situati nel pulsante Analyzing data:
- k-means clustering·
- Agglomerative hierarchical clustering (AHC)
- Gaussian mixture models
- Univariate clustering
E un metodo nell’opzione XLSTAT-LG
- Latent class cluster models
Questi metodi funzionano solo con variabili quantitative (eccetto per i Latent class cluster models). Con il metodo AHC potrebbero anche essere utilizzate delle variabili di tipo binario. Se è necessario raggruppare gli oggetti in base a variabili qualitative, è consigliabile eseguire prima una Multiple Correspondence Analysis (analisi di corrispondenza multipla) e utilizzare i valori relativi alle osservazioni sui primi assi (fattori) come data-set per il clustering.Si possono anche utilizzare i valori relativi alle osservazioni forniti da una qualsiasi analisi esplorativa, comprese la Principal Component Analysis e la Correspondence Analysis.Data-set molto grandi potrebbero essere anche gestiti combinando diversi metodi. Ad esempio, i cluster ottenuti con il metodo k-means potrebbero essere utilizzati come osservazioni all’interno di un AHC.Ogni metodo finora citato presenta delle particolari caratteristiche che sono riassunte nella seguente tabella:
AHC | k-means | Gaussian Mixture | Univariate clustering | Latent class cluster model | |
Number of variables | 1 at least | 1 at least | 1 at least | 1 at most | 1 at least |
Input variables type | Quantitative continuous | Quantitative continuous | Quantitative continuous | Quantitative continuous | Quantitative continuous, Quantitative ordinal, nominal |
Should the number of classes be chosen prior to computations? | Optional | Mandatory | Mandatory | Mandatory | Mandatory (but optimal number of classes can be determined by the model) |
Results: Class membership* | Deterministic | Deterministic | Probabilistic | Deterministic | Probabilistic |
Results: Special features | Dendrogram, profile plot | Profile plot | Parameter estimation of classes, mixture model plots, MAP classification plot | – | Variable contribution to each class, possibility to predict class membership of new observations (scoring equation |
Scopri:
Scientific Contents
Articoli divulgativi sulle tematiche attuali e sui principali prodotti
Brand News
Informazioni relative a prodotti, nuove features, aggiornamenti
Events
Corsi, Formazione, Eventi