L’analisi di regressione e correlazione Prof. Luigi Piemontese
L’analisi di regressione e correlazione DATA UNA IPOTESI DI DIPENDENZA DI UNA VARIABILE ASSUNTA COME DIPENDENTE DA UNA O PIU’ VARIABILI ASSUNTE COME INDIPENDENTI SI PUO’ RICORRERE A: –L’analisi di regressione, che ha lo scopo di fornire informazioni circa le determinazioni che ci si può attendere assuma una variabile quando un'altra variabile o un insieme di altre variabili hanno assunto determinazioni note. –L’analisi di correlazione, che ha lo scopo di indicare il grado del loro legame, meglio il grado di associazione, o di mutua dipendenza statistica, che intercorre fra esse.
L’analisi di regressione e correlazione caso di 2 variabili Data una ipotesi di dipendenza fra due variabili, X e Y: se si dispone di un numero n di loro misure, prese in uno stesso sistema in n anni diversi, o alla stessa data in n sistemi analoghi, si possono predisporre i seguenti diagramma per mettere in evidenza se esiste, o meno, una relazione tra i loro rispettivi andamenti:
L’analisi di regressione e correlazione caso di 2 variabili
Se i punti rappresentati nel diagramma a dispersione sembrano avere un andamento medio regolare si pone il problema di individuare quale tipo di curva è più idoneo a descriverlo. Il problema è indeterminato se non si stabiliscono: –il tipo di curva, –le condizioni per il calcolo dei parametri in essa contenuti.
L’analisi di regressione e correlazione caso di 2 variabili In genere si usano funzioni matematiche semplici quali:
L’analisi di regressione e correlazione lineare
e cioè una funzione in cui le incognite sono a e b ed i termini noti sono le n x i e le n y i Se si sostituisce nella sommatoria al quadrato degli errori il valore di y i * calcolato mediante l’equazione della retta si ha:
L’analisi di regressione e correlazione lineare La condizione necessaria affinché una funzione abbia un minimo è che siano uguali a 0 le sue derivate parziali rispetto alle incognite a e b:
L’analisi di regressione e correlazione lineare risolvendo la prima equazione rispetto ad a si ottiene: Le precedenti si possono anche scrivere così: sostituendo a nella seconda equazione si ottiene:
L’analisi di regressione e correlazione lineare che, risolta rispetto a b, dà: moltiplicando numeratore e denominatore per:
L’analisi di regressione e correlazione lineare Sostituendo in si ha:
L’analisi di regressione e correlazione lineare Il concetto di media aritmetica è un concetto semplice ed esprime il valore che si attribuirebbe ad ogni termine se l’ammontare totale fosse equiripartito fra n termini. Distribuzioni diverse possono avere la medesima media, ad esempio la media di n valori uguali e, quindi, a variabilità nulla, potrebbe risultare uguale a quella di valori molto diversi fra loro e, quindi, a variabilità alta. Pertanto, prima di introdurre l’analisi di correlazione, si introducono ora i concetti di varianza e covarianza.
L’analisi di regressione e correlazione lineare La varianza, detta anche media degli scarti al quadrato, è un indice di dispersione che è nullo solo nei casi in cui tutti i valori sono uguali alla loro media e cresce con il crescere delle differenze reciproche dei valori. Varianza di x e di y:
L’analisi di regressione e correlazione lineare La covarianza è un indice che misura la “contemporaneità" della variazione di due variabili. Essa può assumere sia valori positivi che negativi. Nel primo caso indica che al crescere di una caratteristica statisticamente cresce anche l'altra, nel secondo caso accade il contrario. Covarianza di x e y:
L’analisi di regressione e correlazione lineare a e b si possono scrivere nel modo seguente: date la varianza di x, quella di y e la covarianza di x e y: e la retta di regressione diventa:
L’analisi di regressione e correlazione lineare Se si minimizzano gli scarti orizzontali o quelli verticali si possono avere due rette coincidenti o non coincidenti a seconda dell’andamento dei punti P i =(x i,y i ). Si hanno due casi limite: –i punti sono perfettamente allineati; –i punti si distribuiscono uniformemente intorno al loro punto medio nel piano.
L’analisi di regressione e correlazione lineare Se i punti sono perfettamente allineati le due rette coincidono per cui, risolvendo entrambe rispetto ad una stessa variabile, si avranno coefficienti angolari, o di regressione, uguali.
L’analisi di regressione e correlazione lineare Se i punti sono distribuiti in modo uniforme intorno al loro punto medio nel piano, le due rette di regressione sono una parallela all'asse delle X ed una a quello delle Y, per cui si ha: Il prodotto fra b e b’, cui si da il nome di coefficiente di determinazione, varia, pertanto, tra 0 e 1 ed esprime la percentuale della variazione di una variabile spiegata dal variare dell’altra.
L ’analisi di regressione e correlazione lineare Alla radice quadrata del prodotto bb’ si dà invece il nome di coefficiente di correlazione che varia fra -1 e 1: Per convenzione si assume che il segno negativo indichi la correlazione inversa, ovvero quando al crescere del valore assunto da una variabile decresce quello dell'altra, e quello positivo la correlazione diretta, ovvero quando al crescere del valore assunto da una variabile cresce pure quello dell'altra.
L’analisi della regressione parabolica
L’analisi della regressione esponenziale Se è ragionevole interpolare i punti P i con una funzione esponenziale del tipo: dove: si può prendere in considerazione la sua proprietà di as- sumere la forma di una retta in un diagramma in scala semilogatitmica, dove la x è misurata in scala naturale e la y in scala semilogatitmica.
L’analisi della regressione esponenziale
L’indice di correlazione curvilinea La varianza dalla stima è una misura della variazione di y non spiegata dalla variazione di x tramite la funzione di regressione: La variazione totale di y è data dalla varianza: per cui il rapporto: è la proporzione della variabilità di y non spiegata da quella di x
L’indice di correlazione curvilinea Allora la variabilità di y spiegata da quella di x sarà data da: alla cui radice quadrata si da il nome di indice di correlazione curvilinea: Solo nel caso della retta di regressione questo valore sarà uguale al coefficiente di correlazione lineare.
L’analisi della regressione multipla caso di 3 variabili Se è ragionevole ipotizzare che la variazione di y dipenda da quella di altre due variabili x e z si può utilizzare un piano di regressione: e stimarne i parametri a, b e c. la condizione è sempre la stessa si tratta di minimizzare la sommatoria degli errori al quadrato: e risolvere il sistema di equazioni ottenuto ponendo uguali a 0 le derivate parziali di f rispetto ad a, b e c.
L’analisi della regressione multipla caso di 3 variabili Una volta risolto il seguente sistema di equazioni basta sostituire i valori stimati di a, b e c nell’equazione del piano: L’indice di correlazione multipla si calcola nello stesso modo dell’indice di correlazione curvilinea.