Concentrazione e curva di Lorenz

di Massimo Priano

Dopo aver svolto un’indagine statistica, concluso lo spoglio dei dati raccolti, si procede con lo studio degli stessi. In questa fase, può essere anche svolta l’analisi di “concentrazione”. Scopo di tale analisi è la valutazione della tendenza della variabile statistica esaminata di concentrarsi su poche delle n unità statistiche oggetto di rilevazione. Usando Mathcad, lo studio della concentrazione dei dati è un’operazione resa semplice e rapida dall’eccellente versatilità di questo potente software.

Alcune premesse teoriche

Per comprendere a fondo la nozione di concentrazione occorre consultare specifici testi di statistica, il cui contenuto non può certo riassumersi in poche righe. Tuttavia, per cogliere gli elementi essenziali di tale concetto si può considerare come esempio la distribuzione di 20 personal computer nelle 4 sedi di un’ipotetica azienda. Se in ciascuna sede troviamo 5 computer, diremo che la concentrazione è nulla (equidistribuzione); nel caso in cui una sola sede sia dotata di tutti i 20 pc, diremo che la concentrazione è massima. Da questo semplice esempio, si osserva inoltre che nel caso di concentrazione nulla, il 25% dei pc è distribuito sul 25% di tutte le sedi complessive ed il 50%, 75%, 100% dei pc è distribuito rispettivamente sul 50%, 75%, 100% del totale delle sedi dell’azienda. Nel caso di massima concentrazione, il 75% delle sedi non ha alcun pc mentre il 25% di queste possiedono il 100% dei pc dell’azienda. Possono ovviamente verificarsi situazioni intermedie alle due descritte; in ogni caso, si intuisce che in generale per l’analisi della concentrazione occorre valutare come l’intensità totale T di una certa grandezza si distribuisce in percentuale sulle n unità statistiche considerate (nell’esempio si ha T=20 ed n=4).  Con queste basi si può ora introdurre una rappresentazione grafica considerevolmente informativa riguardante la concentrazione. Tale rappresentazione prende il nome di spezzata di concentrazione o curva di Lorenz. Per tracciare tale curva, occorre preliminarmente ordinare in senso non decrescente gli n valori osservati che indicheremo con x1, x2, x3 … xn. Sull’asse orizzontale delle ascisse del grafico relativo alla curva di Lorenz si indicano le frequenze cumulate relative Fi che rappresentano la quota relativa costituita dalle prime i unità statistiche nell’ordinamento non decrescente in rapporto a n. Sull’asse verticale delle ordinate si indicano le quantità cumulate relative Qi che rappresentano le quote relative all’intensità totale T detenuta dalle prime i unità statistiche, ordinate in senso non decrescente e rapportate a T (si veda la figura apposita per la definizione di Fi e Qi). In altri termini, ogni coppia (Fi, Qi) rappresenta la percentuale fornita dalle prime i unità ordinate della popolazione e la percentuale di intensità totale T che tali unità posseggono. Le coppie citate forniscono le coordinate degli n punti che delimitano gli estremi dei segmenti che costituiscono la spezzata di concentrazione. Nel caso di equidistribuzione la spezzata assumerà l’aspetto di una retta passante per l’origine avente pendenza unitaria. Questo fatto si spiega osservando che i punti della citata retta hanno tutti coordinate che soddisfano l’uguaglianza Fi=Qi, che in termini di concentrazione significa che ogni percentuale di popolazione statistica possiede la medesima quota dell’intensità totale T. Avremo una distribuzione maggiormente concentrata tanto più la curva di Lorenz si “allontanerà” dalla retta citata che assumeremo come parametro di confronto. L’area della regione di piano delimitata dalla retta di equidistribuzione e la curva di Lorenz può essere utilizzata come base per la definizione di appositi rapporti di concentrazione. Tra questi rapporti ricordiamo quello di Gini, del quale, per brevità, riportiamo la sola definizione nella figura specifica presente in questa pagina. Detto rapporto varia tra 0 (equidistribuzione) e 1 (massima concentrazione).

L’implementazione con Mathcad

Dalla teoria si evince che per effettuare l’analisi di concentrazione proposta occorre occuparsi di poche ma precise operazioni: acquisizione dei dati da studiare, ordinamento degli stessi, calcolo delle quantità Fi e Qi, rappresentazione grafica della curva di Lorenz e calcolo del rapporto di concentrazione di Gini. Con Mathcad le operazioni descritte sono di semplice traduzione in apposite funzioni che ricevendo in input il vettore contenente i dati da elaborare restituiscono le quantità richieste. Un esempio di come implementare tali funzioni è proposto mediante l’analisi di concentrazione della distribuzione dei dipendenti di un’ipotetica azienda dotata di diverse sedi in Italia. Tale esempio,  riportato nelle seguenti immagini, è tratto dal foglio di lavoro per Mathcad presente nella biblioteca on-line.

 

Formule fondamentali: Detti xi (i=1,2,…n) gli n valori osservati appartenenti alla distribuzione oggetto dell’analisi di concentrazione, supposti ordinati in modo non decrescente si ha: A) Intensità totale T degli n valori xi; B) Frequenze cumulate relative; C) Quantità cumulate relative; D) Rapporto di concentrazione di Gini.

 

 

Acquisizione dati (da un documento Excel): Supponendo di voler esaminare due differenti distribuzioni, è sufficiente inserire le stesse in un’apposita matrice (Mat_Dati) che nel nostro caso è “compilata” con i dati - evidenziati dal riquadro rosso – ricavati da un documento Excel. Per questa operazione è sufficiente avviare l’apposita procedura guidata per l’inserimento di un componente Excel in un foglio di lavoro per Mathcad attraverso il menu Insert/Component, quindi scegliere Excel nella finestra che appare sul monitor. Successivamente alla scelta del documento Excel da caricare sarà sufficiente dichiarare che vogliamo estrarre particolari dati dallo stesso indicando come output la regione che li contiene (nel nostro caso la regione C3:D12).

 

Definizione distribuzioni: Dalla matrice Mat_Dati si estrae prima e seconda colonna per la conseguente assegnazione alle variabili D91 e D92 che contengono in questo modo le distribuzioni dei dati relative al 1991 e 1992. Si noti che la prima colonna è individuata con l’apice 1 (in luogo del valore zero di default). Questo è reso possibile da Mathcad mediante l’opzione di scelta dell’indice minimo degli array, opzione che si raggiunge attraverso il menu Math/Options/Built-In Variables. In questo modo non sarà necessario cambiare i valori minimi e massimi degli indici delle equazioni mostrate in altra figura.

 

 

Ordinamento dati: Risultando necessario disporre i dati osservati in ordine non decrescente è doveroso predisporre una apposita procedura di ordinamento. Nella figura è proposta una semplice procedura di ordinamento per scambi. 

 

 

Calcolo delle Qi e Fi: Con Mathcad, la traduzione in efficienti funzioni delle relazioni per il calcolo delle Qi e Fi è decisamente breve. La funzione CalcQ, riceve in input il vettore contenente la distribuzione da studiare, quindi calcola immediatamente T attraverso la sommatoria evidenziata. Per l’inserimento di questa particolare sommatoria occorre premere la combinazione di tasti Ctrl+4. In seguito la funzione assegna ad R il vettore dati ordinato e procede iterativamente al calcolo delle quantità cumulate assolute all’interno dello stesso vettore R che, diviso per T, fornirà le quantità cumulate relative richieste. La procedura CalcQ è richiamata all’interno della funzione Q(i,M) che restituisce l’i-esimo elemento del vettore prodotto da CalcQ se i non è zero e zero nel caso contrario per avere la possibilità di generare il primo punto della curva di Lorenz con coordinate entrambe nulle (se i vale zero anche F(i) si annulla). Questo piccolo stratagemma migliora l’aspetto grafico della parte iniziale della curva di Lorenz che dovrà pertanto essere tracciata per un insieme di punti indicizzati da 0 a n.

 

 

Curva di Lorenz: Per ottenere la curva desiderata è sufficiente inserire nel foglio di lavoro il modulo per le rappresentazioni grafiche in due dimensioni mediante il menu Insert/Graph/X-Yplot. La compilazione del modulo deve essere eseguita come mostrato in figura. 

 

 

Calcolo del rapporto di concentrazione: Attraverso l’uso della funzione Q(i,M) è immediato definire la funzione in grado di calcolare il rapporto di concentrazione di Gini. In figura si osserva il valore di tale rapporto per la distribuzione D91.

  Torna alla pagina precedente