COVARIANZA e CORRELAZIONE
REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo dei minimi quadrati.
REGRESSIONE LINEARE
REGRESSIONE LINEARE Primo metodo:
REGRESSIONE LINEARE Se la dipendenza fra le due variabili non è lineare (ad esempio quadratica, esponenziale, logaritmica, etc.), il grafico dei residui rispetto ai valori predetti enfatizzerà questa dipendenza non lineare. Vediamo questo fatto con un esempio.
REGRESSIONE LINEARE
REGRESSIONE LINEARE
REGRESSIONE LINEARE
Secondo metodo: Covarianza In statistica la covarianza è un indice che misura la "contemporaneità" della variazione (in termini lineari) di due variabili casuali. Essa può assumere sia valori positivi che negativi. Nel caso di valori positivi indica che al crescere di una variabile statisticamente cresce anche l'altra, nel caso di valori negativi accade il contrario. Quando due variabili sono tra di loro indipendenti, allora la loro covarianza è nulla (l'inverso non è necessariamente verificato). Si utilizza spesso la notazione: cov(x,y) = sxy, dove essendo mx e my rispettivamente la media aritmetica di x e y.
Covarianza È un operatore simmetrico, cioè A volte la covarianza viene citata mnemonicamente come la media del prodotto degli scarti dalla media. La covarianza può essere scomposta in due termini, diventando: ovvero la media dei prodotti meno il prodotto delle medie. Dividendo la covarianza per il prodotto delle deviazioni standard delle due variabili, si ottiene l‘indice di correlazione di Bravais-Pearson, di utilizzo più comune per misurare la dipendenza lineare tra due variabili:
Coefficiente di correlazione lineare Il coefficiente di correlazione lineare o coefficiente di correlazione tra due variabili aleatorie o due variabili statistiche X e Y è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili: dove sxy , è la covarianza tra X e Y sx , sy sono le due deviazioni standard. Il coefficiente di correlazione è un indice di quanto bene i punti (xi, yi) si adattano ad una retta.
Coefficiente di correlazione lineare Il coefficiente assume valori compresi tra -1 e +1. Se r è vicino a 1, allora i punti giacciono vicino a qualche linea retta (se r è vicino a +1 si parla di correlazione positiva, se r è vicino a -1 si parla di correlazione negativa); se r è vicino a 0, allora i punti non sono correlati (linearmente), con poca o nessuna tendenza a giacere su una linea retta. Nel caso di indipendenza il coefficiente assume valore zero, mentre non vale la conclusione opposta, ovvero dal coefficiente nullo non si può desumere l'indipendenza, cioè la condizione è necessaria, ma non sufficiente per l'indipendenza delle due variabili.
Coefficiente di correlazione lineare Come possiamo decidere oggettivamente se il coefficiente di correlazione ricavato è “ragionevolmente vicino” a 1 ? Possiamo rispondere a questa domanda con il seguente ragionamento. Supponiamo che due variabili x ed y siano in realtà non correlate; al limite per un numero di misure tendente all’infinito il coefficiente di correlazione dovrebbe essere 0. Dopo un numero finito di misure, è molto improbabile che r sia esattamente 0. Si può calcolare la probabilità che r sia più grande di un qualche valore specifico r0. Il calcolo di questa probabilità è piuttosto complesso, ma i risultati per alcuni valori rappresentativi dei parametri sono riportati nella tabella seguente.
Una misura più quantitativa dell’adattamento si può trovare usando la tabella sottostante, che riporta, in funzione di N e ro , la probabilità percentuale che N misure di due variabili non correlate diano un coefficiente di correlazione con valore assoluto > ro (gli spazi bianchi indicano probabilità minori dello 0.05%). ro N 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 3 100 94 87 81 74 67 59 51 41 29 4 90 80 70 60 50 40 30 20 10 5 75 62 39 28 19 3.7 6 85 56 43 31 21 12 5.6 1.4 7 83 37 25 15 8.0 3.1 8 63 47 33 5.3 1.7 9 61 17 8.8 3.6 1.0 78 58 14 6.7 2.4 11 77 22 5.1 1.6 76 53 34 9.8 3.9 1.1 13 32 18 8.2 3.0 73 49 16 6.9 2.3 72 5.8 1.8 71 46 26 4.9 44 24 4.1 69 23 3.5 68 9.0 2.9 8.1 2.5 4.8 35 57 54 6.0
Coefficiente di correlazione lineare Più piccola è la probabilità che ricaviamo dalla tabella mostrata in precedenza, migliore è l’evidenza che le due variabili x ed y sono realmente correlate. Se la probabilità è minore del 5% diciamo che la correlazione è significativa; se è minore dell’1% che la correlazione è altamente significativa.