Come calcolare il coefficiente di correlazione
Introduzione
In statistica, uno dei comportamenti più studiati è quello delle variabili casuali. Queste dipendono da diversi fattori che spesso influenzano contemporaneamente il loro andamento. Se due o più variabili sono correlate fra loro, potremo determinare in parte l'andamento di una osservando semplicemente quello dell'altra. Questo evento in matematica viene definito correlazione: la tendenza che hanno due variabili (X e Y) a variare insieme, ossia, a covariare. Quando parliamo di correlazione, tuttavia, dobbiamo considerare due aspetti: il tipo di relazione che c'è tra le due variabili e la forma di questa relazione. Nei passi seguenti, quindi, vi illustreremo proprio come calcolare il coefficiente di correlazione tra due variabili.
Certe volte può accadere che due variabili si comportino nella stessa maniera, ma non è detto che tra di loro vi sia necessariamente un legame di causa effetto. In questo caso, dunque, anche se c'è una correlazione, questa potrebbe non avere molto senso. I valori attesi e le varianze delle variabili si possono stimare calcolando la media e la varianza campionaria. Il coefficiente di correlazione lineare (indicato con "?"), quindi, si può stabilire in modo indiretto, introducendo le stime di tutti gli elementi in esso presenti.
In pratica, se troviamo una correlazione tra il numero di incidenti avvenuti durante un anno e il numero di macchine in circolazione, la nostra correlazione potrebbe avere sicuramente un legame di tipo causa-effetto (tanti incidenti-tante macchine in circolazione). Al contrario, se dovessimo trovare una correlazione tra il numero di persone calve e la quantità di penne prodotte annualmente, questa correlazione non sarà determinata da un rapporto di causa-effetto e per di più sarà priva di significato.
La correlazione ta due o più variabili si calcola attraverso il coefficiente di correlazione di Pearson-Bravais: che è dato dal rapporto tra la covarianza delle variabili e il prodotto dei loro scarti quadratici medi.
La covarianza, in linee generali, fornisce un indice della dipendenza tra due variabili; gli scarti quadratici medi, invece, ci dicono quanto le distribuzioni delle variabili si discostino dalla media. Il risultato che avremo, ovvero il nostro coefficiente di correlazione, sarà sempre compreso tra -1 e 1.
Una volta compresi questi concetti, veniamo come calcolare il coefficiente di correlazione attraverso la formula matematica di Pearson-Bravais: ?AB = Cov (A, B) / ?A x ?B. Dove ?AB indica il coefficiente di correlazione o indice di Pearson-Bravais; Cov (A, B) è la covarianza delle nostre variabili A e B; mentre, ?A e ?B rappresentano la deviazione standard campionaria delle due variabili.
I risultati che avremo da questa formula saranno semplicemente di tre tipi:
se ?AB > 0 allora A e B sono direttamente correlate; se ?AB = 0 A e B non sono correlate; e infine, se se ?AB