Correlazione e regressione Correlazione Come posso determinare il legame tra due o più variabili? COEFFICIENTE DI CORRELAZIONE (r di Pearson) massimo.

Slides:



Advertisements
Presentazioni simili
INTERPOLAZIONE MOD.10 CAP.1
Advertisements

Come organizzare i dati per un'analisi statistica al computer?
ESERCITAZIONE L’analisi Fattoriale.
IL RISCALDAMENTO.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
CONTAGIO E INTERDIPENDENZA NEI MERCATI FINANZIARI:
“Teoria e metodi della ricerca sociale e organizzativa”
La regressione lineare trivariata
Protoni legati ad eteroatomi. Protoni legati a un eteroatomo Protoni legati ad un atomo di ossigeno, di azoto o di zolfo possiedono uno spostamento.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
ANALISI DELLA COVARIANZA
Analisi multivariata.
RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani
VARIABILI DOPPIE: UN ESEMPIO
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
MODELLO DI REGRESSIONE LINEARE MULTIPLA: USO DELLE VARIABILI DUMMY (parte 2) In alcune circostanze è opportuno inserire, come variabili esplicative, delle.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Analisi della varianza (a una via)
La logica della regressione
Alcune domande agli autori Lo studio affronta un argomento scientifico e/o clinico importante? Lo studio è originale? Lo studio è volto a provare le ipotesi.
Corso di biomatematica lezione 6: la funzione c2
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
G. Barbaro interpolazione1 INTERPOLAZIONE. G. Barbaro interpolazione1 In Statistica e in genere nelle scienze sperimentali, si studiano o si osservano.
Resistenza.
Teoria degli errori.
“Analisi delle serie storiche e applicazioni”
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Associazione tra due variabili
Introduzione alla Regressione Lineare e alla Correlazione.
COVARIANZA e CORRELAZIONE.
Introduzione alleconomia politica Tutti i diritti riservati © Pearson Italia S.p.A. Riservato agli studenti delle classi che adottano il testo C. Bianchi.
Regressione e correlazione
La regressione come strumento di sintesi delle relazioni tra variabili
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
La regressione II Cristina Zogmaister.
Consideriamo due misurazioni, per esempio benessere e soddisfazione personale. Le due variabili sono simili. Chi ha punteggi sopra la media in una variabile,
Due esempi con dati reali
La verifica d’ipotesi Docente Dott. Nappo Daniela
Strumenti statistici in Excell
Altri coefficienti di correlazione
IL CAMPIONE.
Analisi Multivariata dei Dati
COVARIANZA: DEFINIZIONE E CALCOLO
Esercizio Regressione logistica
Analisi discriminante lineare - contesto
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Regressione lineare - Esercizi
Regressione lineare - Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°9.
Altri concetti sulla regressione. Multicollinearità Varianza comune fra le VI: se è molto elevata produce stime instabili. Ci sono degli indici per indicare.
A S N B A Corrente elettrica I nel circuito: Movimento circuito: F M sulle cariche Movimento magnete: E nel filo (relatività) Stessi risultati con filo.
Attività motoria imprevedibile e complessa
2 Il metodo agli stati limite.
La maratona è matematica?
Correlazione e regressione lineare
DEFINIRE I REQUISITI DEL CLIENTE SVILUPPARE E VALUTARE IL QUESTIONARIO IMPIEGARE IL QUESTIONARIO Dimensioni della qualità 1.Perfomance 2.Optionals 3.Affidabilità.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
MECCANISMI ENERGETICI
L’utilizzo della Speed-Ladder per il miglioramento delle capacità coordinative nei giovani calciatori TESI DI LAUREA DI GABRIELE FILIPPI RELATORE PROF.
Analisi delle osservazioni
LA VALUTAZIONE DELLA RESISTENZA SPECIFICA NELLE PALESTRE E NEI CENTRI FITNESS Anno Accademico A cura di ALESSANDRO VALENZA Relatore Ch.mo Prof.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Correlazione e regressione
Transcript della presentazione:

Correlazione e regressione

Correlazione

Come posso determinare il legame tra due o più variabili? COEFFICIENTE DI CORRELAZIONE (r di Pearson) massimo consumo di ossigeno e prestazione nelle gare di resistenza indice di forza relativa e capacità di salto Correlazione

COEFFICIENTE DI CORRELAZIONE –1< r < +1 r=0 indica assenza di correlazione se r >0 le due variabili covariano se r <0 le due variabili controvariano r=1 o r=-1 esiste una relazione matematica tra le due variabili Correlazione

Calcolo di r Misura la forza della associazione tra due variabili Correlazione

t (ore) VO 2 (ml/kg min) ESEMPIO: velocità di corsa e consumo di ossigeno Correlazione

t (t-t) VO 2 (VO 2 -VO 2 )(t-t) (VO 2 -VO 2 ) NUMERATORE Correlazione

t (t-t)(t-t) 2 VO 2 (VO 2 -VO 2 )(VO 2 -VO 2 ) DENOMINATORE Correlazione

Sostituisco i valori le due variabili sono inversamente correlate (all’aumentare del tempo corrisponde una diminuzione del consumo di ossigeno) Correlazione

La regressione lineare semplice

REGRESSIONE Esempio: relazione tra FEV 1 (Volume espiratorio forzato) e altezza altezza (cm) FEV 1 (litri) altezza (cm) FEV 1 (litri) altezza (cm) FEV 1 (litri) Regressione

La retta è la migliore rappresentazione della relazione tra le due variabili Regressione

In questo esempio, vogliamo sapere quale è la media (valore atteso) del FEV 1 per gli studenti di una certa altezza e quale è l’incremento del FEV 1 all’aumento unitario dell’altezza FEV 1 è la variabile di risposta o dipendente altezza è la variabile esplicativa o indipendente FEV 1 = a + b x altezza REGRESSIONE LINEARE SEMPLICE Regressione

Il modello di regressione lineare semplice - 1 y =  0 +  x +  Una retta nel piano

y =  0 +  x +  Variabile di risposta (dipendente, response variable) Termine di errore Parte sistematica del modello intercetta parametri ignoti del modello, stimati sulla base dei dati disponibili Variabile esplicativa (predittiva, indipendente, explanatory) coefficiente di regressione lineare { Il modello di regressione lineare semplice - 2

y =  0 +  x +  Variabile di risposta (dipendente) Termine di errore, parte probabilistica Predittore lineare, parte deterministica del modello, senza variabilità casuale L’errore, e quindi la variabile di risposta, si distribuisce NORMALMENTE Il modello di regressione lineare semplice - 3

Il FEV 1 (Y) dipende dalla statura (X 1 ) E(y) =  0 +  1 x 1 y =  0 +  1 x 1 +  E(y) = valore atteso (media) del FEV1 degli individui che hanno quella determinata statura y = FEV 1 di un determinato individuo, che dipende dalla statura, (parte sistematica del modello), ma anche da altre caratteristiche individuali (ε, parte probabilistica) Il modello di regressione lineare semplice - 4

Modello teorico (ignoto) y =  0 +  1 x +  Regressione Lineare stimata y = b 0 + b 1 x Il modello di regressione lineare semplice - 5

Come costruire la retta? Metodo dei MINIMI QUADRATI FEV 1 (litri) = x altezza (cm) Se uno studente è alto 170 cm, il suo FEV 1 è litri Regressione

FEV 1 (litri) = x altezza (cm) coefficiente di regressione intercetta Regressione

SCOMPOSIZIONE DELLA DEVIANZA nella Regressione lineare semplice - 1 y =  0 +  x +  ŷ -  y { } y- ŷ (y-  y) = (ŷ -  y) + (y- ŷ )

SCOMPOSIZIONE DELLA DEVIANZA nella Regressione lineare semplice - 2 (y-  y) = (ŷ -  y) + (y- ŷ ) Variabilità totale Variabilità spiegata dalla regressione Variabilità residua Σ(y-  y) 2 = Σ (ŷ -  y) 2 + Σ(y- ŷ) 2 Devianza totale, SST Devianza spiegata dalla regressione, SSR Devianza residua, SSE Si può dimostrare che:

METODO DEI MINIMI QUADRATI Si sceglie la retta che riduce al minimo la devianza residua, SSE, Σ(y- ŷ) 2 Si cerca di trovare la retta che meglio interpola, che meglio si adatta alla nuvola di punti. Regressione lineare semplice

La retta di regressione approssima bene i dati. La retta di regressione approssima male i dati. devianza spiegata >dev.residuadevianza spiegata <dev.residua b prossimo a zero b elevato

COEFFICIENTE DI DETERMINAZIONE r 2 = 1-SSE/SST=SSR/SST r 2 = Σ (ŷ -  y) 2 / Σ(y-  y) 2 SST = Devianza (o Somma dei quadrati) totale SSR = Devianza (o Somma dei quadrati) spiegata dalla Regressione Proporzione di variazione totale della variabile dipendente Y che è spiegata dalla variabile indipendente X

Correlazione = relazione di tipo simmetrico: le due variabili sono sullo stesso piano Regressione = relazione di tipo asimmetrico: una variabile casuale (Y) dipende da una variabile fissa (X)

Regressione lineare semplice y =  0 +  x +  ASSUNZIONI 1) Il valore atteso degli errori E(ε) deve essere pari a ZERO 2) OMOSCEDASTICITA’ (La varianza degli errori rimane costante) 3) INDIPENDENZA degli errori se le provette tra un esame e l’altro non vengono lavate adeguatamente, una determinazione risente della determinazione precedente 4) Distribuzione NORMALE degli errori

variabile Y variabile X 1  

Inferenza sui parametri: i dati “supportano” il modello proposto? Il valore stimato mediante la retta di regressione si avvicina molto all’osservazione reale. Raccogliendo altri punti campionari, la retta calcolata resterebbe probabilmente immutata. La retta di regressione esprime la relazione reale che esiste tra X ed Y. I punti hanno distanze dalla retta di regressione che sono sensibilmente minori di quelle dalla media.

Inferenza sui parametri: i dati “supportano” il modello proposto? La retta calcolata non è rappresentativa di una relazione reale tra X ed Y. La retta calcolata non rappresenta un miglioramento effettivo della distribuzione dei punti, rispetto alla loro media.

Inferenza sui parametri: i dati “supportano” il modello proposto? Test t di Student, basato su b 1 (stima di  1 ) H 0 :  1 = 0 H 1 :  1  0 { b 1 ~ N (  1, σ 2  ) Σ(x-  x) 2 Non conosco la quantità σ 2 , ne ottengo una stima: t = ─── = ──────── = ─────── ~ t n-2 g.d.l. b 1 -0 b 1 b 1 ES b σ 2  = Σ(y- ŷ) 2 n-2 ^ σ2σ2 Σ(x-  x) 2 ^ Σ(y- ŷ) 2 ( n-2) Σ(x-  x) 2

ESEMPIO: Esiste una relazione tra altezza dei padri e altezza dei figli maschi? (A padri più bassi corrispondono figli più bassi? A padri più alti corrispondono figli più alti?)

I passo: rappresentazione grafica mediante diagramma di dispersione (scatterplot)

II passo: si ipotizza un modello statistico, che possa essere utile ad interpretare i dati Ipotizziamo un modello lineare del tipo: y =  0 +  x +  (altezza figli) =  0 +  (altezza padri) +  (i figli di uno stesso padre hanno statura abbastanza simile, ma non necessariamente uguale, anche se  ό , cioè figli della stessa madre)

b 1 = —————— = 150,5 / 216 = 0,697 cm/cm devianza x codevianza xy b 0 =  y - b 1  x= 176,875 – 0,697 *175,5 = 54,59 cm Retta di regressione: altezza figlio (cm)= 54,6 cm + 0,697 cm/cm *altezza padre (cm) IV passo: Stima dei parametri del modello con il metodo dei minimi quadrati Quando la statura del padre cresce di 1 cm, la statura del figlio cresce in media di 7 mm.

VI passo: Inferenza sui parametri: i dati “supportano” il modello proposto? Test t di Student, basato su b 1 (stima di  1 ) H 0 :  1 = 0 H 1 :  1  0 test a due code Livello di significatività = 5% Gradi di libertà = n - 2 = = 6 Soglia critica = t 6, 0,025 = 2,447 { t = ─── = ──────── = ───────── = 2,588 b-0 b 0,697 ES b  var res /dev x  15,67 / 216 dev res = dev y - codev xy 2 /dev x =198, ,5 2 / 216 = 94,01 var res = dev res / (n-2) = 94,01 / 6 = 15,67

VII passo: Previsione sui valori della variabile Y Per x = 185 cm, qual è il valore atteso di Y? Retta di regressione: ŷ = 54,6 cm + 0,697cm/cm *185 cm = 183,49 cm ES ŷ =  var res [1/n + (x-x) 2 / dev x ] = =  15,67 [1/8 + ( ,5) 2 / 216 ] = 2,916 IC 95% = ŷ ± t,  /2 * ES ŷ = 183,49 ± 2,447 * 2,916 = 190,63 176,36 [

40 Tabella per l’ANALISI della REGRESSIONE Fonte di variabilita' Spiegata Residua Totale 1 N-2 N-1 Devianza Varianza Test-F (errore) DEV / 1 spieg DEV /(N-2) resid VAR spieg resid 1 Σ (ŷ -  y) 2 Σ(y- ŷ) 2 Σ(y-  y) 2