Introduzione
Tramite l'utilizzo della statistica, è possibile raccogliere una serie di dati e procedere alla loro analisi, per giungere così ad ottenere risposte ad alcune domande poste, che rappresentano la causa del problema. La "regressione" è uno dei componenti della statistica, forse il più importante. La regressione, grazie al suo lungo raggio d'azione, è utilizzata in moltissimi campi, come ad esempio la chimica, l'ingegneria, la biologia, così come tutte le scienze applicate e sociali. Per la sua versatilità è stata spesso preferita a calcoli statistici più efficaci, ma più costosi. La regressione lineare, si divide in un tipo semplice ed una di tipo multiplo. In questa guida, sono illustrati definizione e calcolo della regressione lineare di tipo semplice. La guida in oggetto non pretende di essere completamente esaustiva, per affrontarne la lettura, quindi, di consiglia un ripasso generale nel campo statistico.
Occorrente
- Nozioni di statistica e calcolo probabilistico
Valore atteso
Innanzitutto, per capire al meglio il concetto di regressione lineare, o meglio il suo calcolo e la sua definizione, è opportuno avere serrate conoscenze di un altro concetto, ovvero quello del valore atteso, utilizzato anch'esso nel calcolo delle probabilità. A proposito di valore atteso, per fare un esempio chiaro di esso, si può prendere come riferimento quella che è la classifica media, un po' come la media matematica, ottenuta dalla somma di tutti i valori fratto il numero di valori. La regressione lineare è applicata dagli studiosi sin dal diciannovesimo secolo e si basava sui minimi quadrati, ovvero sul metodo di individuazione di una funzione vicina all'insieme dei punti del piano. Questo metodo permetteva, già a quei tempi, la risoluzione di problemi intricati, ma aveva il difetto di essere molto lungo e complicato.
Formula
La regressione di tipo lineare si definisce con una specifica formula, ovvero "Yi=B0+B1Xi+ui". Ma come si compone? Per caprilo bisogna dare un'occhiata ai singoli termini che compongono l'equazione. "Yi" rappresenta la variabile di tipo dipendente, "Xi" la seconda variabile, ma stavolta di tipo indipendente. La somma "B0+B1X" rappresenta la retta di regressione. In particolare "B0" è la sua intercetta, ovvero il valore numerico di intersezione tra la retta e l'asse delle ordinate e "B1" è il coefficiente angolare. Il valore "ui", invece, è noto come errore statistico, detto anche errore casuale, ovvero il valore dell'errore di misurazione. Un errore più o meno grande deve essere sempre tenuto in considerazione in quanto ogni strumento ha una misura minima oltre la quale non può spingersi.
Metodo dei minimi quadrati
Per il calcolo della regressione lineare, si dispone sempre di due variabili, che generalmente sono "X" ed "Y", tra le quali si ricerca la reazione di tipo lineare. "X" ed "Y" sono variabili di tipo deterministico. A questo punto si procede con la scrittura della relazione per il calcolo della regressione lineare. Per definizione, si ha Yi = a + bh (xi) + ui, dove il valore "a" rappresenta l'intercetta, mentre "b" è il coefficiente angolare. Si può scrivere, sempre sfruttando la conoscenza della definizione, anche come Yi = a + bxi + ui. Per ottenere la regressione lineare si calcolano "a" e "b". Per fare questo, utilizziamo il metodo dei minimi quadrati, ovvero s = s (a; b) con b = sxy / sxx e a = y - bx.Per quanto possa sembrare problematico, questo rimane un calcolo molto semplice e intuitivo, soprattutto se ci si avvale di un calcolatore o di strumenti di calcolo adeguati. Inoltre sul web esistono numerosi software gratuiti capaci di effettuare questo calcolo e molti altri, tutti utili all'apprendimento del metodo statistico.
Consigli
- Con programmi specifici riuscirete molto più rapidamente.