Statistica: come standardizzare una distribuzione normale
Introduzione
Nella teoria delle probabilità, la distribuzione normale è una distribuzione di probabilità continue, ovvero una funzione che indica la probabilità che un evento possa accadere tra due limiti reali o numeri reali, man mano la curva si avvicina a zero su entrambi i lati. Le distribuzioni normali sono estremamente importanti per le statistiche e sono spesso utilizzate nello studio delle scienze naturali e sociali, per determinare i valori reali variabili e casuali. Per standardizzare una distribuzione normale, alcune procedure devono essere utilizzate per preparare i dati alla modellazione. Vediamo insieme nella seguente guida come procedere per standardizzare una distribuzione normale.
Coefficienti
I dati, dunque, devono essere normalizzati o standardizzati per far sì che tutte le variabili si trovino in proporzione tra loro. Ad esempio, se una variabile è 100 volte più grande di un'altra, allora il modello potrebbe essere migliore se si normalizzano queste variabili per renderle grossomodo equivalenti. Tecnicamente però, se normalizzati, i coefficienti associati a ciascuna variabile dovranno scalare in modo appropriato per regolare la disparità nelle dimensioni variabili. Tuttavia, in questo modo i coefficienti rifletteranno le attività più significative tra ciascuna variabile.
Contributo
Considerando che i dati non standardizzati rifletteranno il contributo positivo o negativo verso la funzione obiettivo, sarà molto più difficile da interpretarli in termini di impatto relativo sulla funzione obiettivo. I dati qualitativi non numerici devono pertanto essere convertiti in dati quantitativi numerici e standardizzati. Normalizzare i dati significa adattarli all'interno di un'unità, in modo che ognuno di essi avrà un valore compreso tra da 0 e 1.
Standarizzazione
Poiché alcuni modelli si annullano quando raggiungono lo zero, a volte viene impostato un intervallo arbitrario tra 0,1 e 0,9 è. L'equazione standard, è quella che dovrebbe essere utilizzata per implementare una normalizzazione basata sull'unità. X Min rappresenta i minimi tra tutti i punti dati; X Max i massimi tra tutti i punti dati; X i, da 0 a 1 indica il punto medio dei dati i normalizzati tra 0 e 1; mentre X i indica invece qualsiasi punto di i. I dati devono dunque essere standardizzati per rimuovere la loro scala dalla modellazione. Ricordate che la standardizzazione della distribuzione normale resta il metodo preferito dal momento che produce informazioni significative su ogni punto di dati.
Punteggi standard
Quando una distribuzione di frequenza è distribuita normalmente, possiamo scoprire la probabilità che un punteggio si verifichi standardizzando i punteggi, noti come punteggi standard (o punteggi z). La normale distribuzione standard converte semplicemente il gruppo di dati nella nostra distribuzione di frequenza, in modo tale che la media sia 0 e la deviazione standard sia 1. I punteggi Z sono espressi in termini di deviazioni standard dalle loro medie. Risultante, questi punteggi z hanno una distribuzione con una media di 0 e una deviazione standard di 1. La media dei valori standardizzati sarà sempre zero e la deviazione standard sarà sempre una. Il grafico dei valori standard avrà esattamente la stessa forma del grafico dei dati grezzi, ma potrebbe avere dimensioni diverse e avere coordinate differenti.
Variabile causale
Si supponga di avere una variabile casuale distribuita normalmente e si desideri calcolare la probabilità che il suo valore si verifichi nell'intervallo delle deviazioni medie più o meno .5 standard. Un metodo è quello di standardizzare la variabile casuale. La standardizzazione di una variabile casuale distribuita normalmente consente ad un'analista o ricercatore di determinare con facilità la probabilità associata ad un intervallo di valori per quella variabile, utilizzando una tabella di distribuzione standardizzata. Una variabile casuale distribuita normalmente può essere standardizzata usando una formula. La lettera Z rappresenta la variabile casuale standardizzata e le probabilità associate agli intervalli di valori di Z possono essere trovate in una tabella di distribuzione Z. E il punteggio Z di x è zero, allora il valore di x è uguale alla media. Se il punteggio Z di x è uno, allora il valore di x è una deviazione standard superiore alla media. Se il punteggio Z è -1, il valore di x è una deviazione standard al di sotto della media. Se il punteggio Z di x è due, allora il valore di x è due deviazioni standard al di sopra della media.