Come calcolare mediana e moda in statistica
Introduzione
La statistica è una disciplina trasversale le cui finalità si suddividono principalmente secondo due grossi campi di azione: la statistica descrittiva e la statistica inferenziale. La prima, meno complessa della seconda a livello concettuale, si occupa sostanzialmente del come operare una sintesi di un insieme di micro-dati per generare una idea sommaria e complessiva di un determinato fenomeno.
Per ottenere questo risultato si utilizzano degli indici statistici, ovvero dei calcoli da operare sui dati in modo da ottenere un valore di sintesi .Tra gli indici statistici più utilizzati troviamo le misure di tendenza centrale, in grado di dare l'idea di dove si collochi il baricentro di una distribuzione di dati. Mediana e moda sono proprio due misure di tendenza centrale molto in voga e saperle ricavare può essere molto utile in diversi campi: Vediamo quindi come calcolarle in questa guida.
Definizione di mediana e moda
Prima di vedere come procedere operativamente con i calcoli dovremo necessariamente definire questi due elementi. La mediana è quel valore della variabile presa in considerazione che bipartisce la distribuzione ordinata delle modalità di un carattere. La moda, invece, è la modalità del carattere cui corrisponde la massima frequenza.
Un concetto importante da valutare è il fatto che la moda rappresenta un indice di tipo minimale: Essa può cioè essere valutata in qualsiasi tipo di variabile, sia che sia nominale che quantitativa poiché rappresenta semplicemente la modalità più frequente in una distribuzione. Ciò non vale invece per la mediana poiché richiede un preciso criterio che permetta di ordinare i valori e ciò non sarà possibile con variabili qualitative che non possiedano un ordine intrinseco. Prima di procedere conviene quindi controllare, se si lavora con variabili qualitative, che siano ordinabili per non incorrere in un errore concettuale.
Calcolo della mediana
Per calcolare la mediana si ordinano, come già accennato, i dati in ordine crescente o decrescente. Se il numero di dati è dispari la mediana corrisponde al valore centrale; se il numero di dati è pari la mediana è stimata utilizzando i due valori che occupano la posizione centrale e facendo la loro media aritmetica.
Se le modalità sono raggruppate in classi non si definisce un valore univoco, ma una classe mediana. La determinazione di tale classe avviene considerando le frequenze cumulate. Tutti gli elementi interni a un determinato intervallo possono essere definiti come valori mediani, tuttavia solitamente si decide di procedere attraverso un'approssimazione della mediata, che si ottiene con una specifica formula. Quest'approssimazione deriva dal fatto che si vuol ottenere una misura unica di quel determinato valore. Qualora si decidesse di assumere il fatto che la distribuzione dei dati di una classe risulti esser uniforme ciò corrisponderebbe a un processo di interpolazione. Una determinata proprietà che si attribuisce al valore mediano è quello di rendere minima la somma dei valori assoluti degli scarti di un valore generico.
Calcolo della moda
Per la determinazione della classe modale si calcolano semplicemente le frequenze assolute con cui le modalità delle variabili si presentano tra i dati e si sceglie quella con la frequenza più alta. Per un metodo più elegante è invece opportuno ricorrere all'istogramma, individuando l'intervallo di altezza massima, ovvero il punto di massimo della curva. La classe con la maggiore densità media (che corrisponde all'altezza dell'istogramma) è quella modale. Nel caso particolare della distribuzione normale, detta anche gaussiana, la moda coincide con la media e la mediana. L'utilità della moda risiede nell'essere l'unico degli indici di tendenza centrale a poter descrivere caratteri qualitativi.