Correlazione e regressione lineare

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
Intervalli di confidenza
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
DIFFERENZA TRA LE MEDIE
Analisi della varianza (a una via)
1 Introduzione alla statistica per la ricerca Lezione III Dr. Stefano Guidi Siena, 18 Ottobre 2012.
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
Il test di ipotesi Cuore della statistica inferenziale!
Corso di POPOLAZIONE TERRITORIO E SOCIETA’ 1 AA
Le distribuzioni campionarie
La ricerca delle relazioni tra fenomeni
Unità 7 Test parametrici ☐ Test t di Student ☐ Analisi della varianza ad una via ☐ Confronti multipli.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Regressione e correlazione
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
Il residuo nella predizione
IL CAMPIONE.
Corso di Laurea in Scienze e Tecniche psicologiche
Analisi Multivariata dei Dati
Corso di Laurea in Scienze e tecniche psicologiche
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
“Teoria e metodi della ricerca sociale e organizzativa”
Intervalli di confidenza
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Corso di Laurea in Scienze e tecniche psicologiche
Disegni ad un fattore tra i soggetti. Disegni ad un solo fattore between Quando i livelli del trattamento possono influenzarsi reciprocamente è necessario.
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente.
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
Accademia europea dei pazienti sull'innovazione terapeutica Lo scopo e i fondamenti della statistica negli studi clinici.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

Correlazione e regressione lineare Università degli Studi di Torino Corso di Laurea in Medicina e Chirurgia Correlazione e regressione lineare Milena Maule - AA 2011-12

Correlazione Misura di associazione tra 2 variabili quantitative Risponde alla domanda: esiste un’associazione lineare tra le variabili? Milena Maule - AA 2011-12

Esempio: campione casuale di 20 donne Gruppo di donne di una determinata area geografica invitate a sottoporsi a un prelievo di sangue per la determinazione del livello di emoglobina (Hb) e dell’ematocrito (PCV). Si registra anche l’età e stato di menopausa (sì/no). Percentuale di adesione: circa il 90%. Milena Maule - AA 2011-12

Esempio: campione casuale di 20 donne Milena Maule - AA 2011-12

riassumere la forza della relazione lineare fra le variabili Vogliamo analizzare la relazione fra Hb e PCV. Non ci chiediamo se Hb influenzi PCV o PCV influenzi Hb, o se un alto valore di PCV causi un alto valore di Hb, ma se le due variabili sono associate Il coefficiente di correlazione del campione (r: coefficiente di correlazione di Pearson) ci permette di: verificare l’ipotesi che vi sia associazione fra le variabili o se l’apparente associazione possa essere dovuta al caso riassumere la forza della relazione lineare fra le variabili Milena Maule - AA 2011-12

Hb e PCV: dall’analisi del grafico, come descriveresti l’associazione fra le due variabili? Milena Maule - AA 2011-12

Direzione dell’associazione Correlazione positiva Correlazione negativa Milena Maule - AA 2011-12

Forza dell’associazione Valore di r Interpretazione 1 correlazione lineare positiva perfetta nessuna correlazione lineare -1 correlazione lineare negativa perfetta Milena Maule - AA 2011-12

Forza dell’associazione correlazione lineare positiva perfetta nessuna correlazione lineare Milena Maule - AA 2011-12

Forza dell’associazione Valore di r Interpretazione 0.9 correlazione lineare forte 0.5 correlazione lineare moderata 0.25 correlazione lineare debole Milena Maule - AA 2011-12

Forza dell’associazione correlazione lineare positiva forte correlazione lineare negativa moderata Milena Maule - AA 2011-12

Forza dell’associazione Milena Maule - AA 2011-12

Dato un insieme di coppie di osservazioni (x1,y1), (x2,y2), …, (xn,yn) Calcolo di r Dato un insieme di coppie di osservazioni (x1,y1), (x2,y2), …, (xn,yn) Milena Maule - AA 2011-12

Esempio: Hb = x, PCV = y Milena Maule - AA 2011-12

Interpretazione di r Il coefficiente di correlazione r è una quantità a-dimensionale varia da -1 a 1 è positivo quando i valori delle variabili crescono insieme è negativo quando i valori di una variabile crescono al decrescere dei valori dell’altra non è influenzato dalle unità di misura Milena Maule - AA 2011-12

Coefficiente di determinazione proporzione di variazione di una variabile che è “spiegata” dalla variazione dell’altra variabile Nell’esempio: r = 0.67, r2 = 0.45  il 45% della variazione di Hb è spiegato dalla variazione di PCV; il restante 55% non è spiegato dalla variazione di PCV Milena Maule - AA 2011-12

la relazione fra le variabili è non-lineare Il coefficiente di correlazione non è una buona misura di associazione fra due variabili quando: la relazione fra le variabili è non-lineare in presenza di valori estremi Esempi: 1 2 Milena Maule - AA 2011-12

relazione quadratica. x e y sono fortemente associate, tuttavia r = 0 relazione quadratica. x e y sono fortemente associate, tuttavia r = 0. E.g.: relazione fra mortalità globale della popolazione e peso uno dei valori è molto distante dal gruppo principale degli altri valori e influenza fortemente il valore stimato di r: poiché è così estremo deriva probabilmente da una popolazione diversa 1 2 Milena Maule - AA 2011-12

Il coefficiente di correlazione va utilizzato con cautela quando le variabili sono misurate da più di un gruppo distinto, e.g. pazienti affetti da una malattia e controlli sani: possono generare due gruppi di punti, ciascuno dei quali con r = 0 ma r  0 una volta combinati (effetto simile al caso che contiene un valore estremo) una delle due variabili è fissata a priori, e.g. quando si misura la risposta a dosi diverse di un farmaco. In questo caso la scelta di un particolare dosaggio può influenzare il coefficiente di correlazione, anche se la relazione dose-risposta è fissa Milena Maule - AA 2011-12

IMPORTANTE: Un’elevata correlazione fra due variabili NON implica una relazione causa-effetto Milena Maule - AA 2011-12

I test di correlazione sono fra le procedure statistiche peggio utilizzate. Sono in grado di dimostrare se due variabili sono correlate, tuttavia NON sono in grado di dimostrare che due variabili NON sono correlate! Se una variabile dipende da un’altra, e se vi è una relazione causale, è sempre possibile trovare una qualche forma di correlazione fra le due. Ma se entrambe le variabili dipendono da una terza variabile, potremmo trovare correlazione fra le due variabili di partenza anche se fra di esse non vi fosse nessuna dipendenza causale Esempio: è stata trovata una correlazione fra il numero di ripetitori di telefoni cellulari e la diminuzione del numero dei passerotti. Domanda: sono i ripetitori a danneggiare i passerotti oppure entrambi gli effetti sono causati da qualcos’altro? Oppure sono osservazioni completamente indipendenti che per caso appaiono correlate? Non lo sappiamo, i test di correlazione non rispondono a questa domanda e sono necessari altri studi Milena Maule - AA 2011-12

Test di significatività Calcolato r, si deve decidere se la correlazione osservata possa essere frutto del caso (spuria) Cerchiamo la probabilità di ottenere un coefficiente di correlazione pari o più estremo del valore osservato r, posto che l’ipotesi nulla sia vera (H0: r = 0) Calcoliamo , dove l’errore standard stimato di r è dato da Se le coppie di valori (xi,yi) sono state scelte casualmente e le due variabili x e y sono distribuite normalmente, t è distribuita come una variabile t di Student con n-2 gradi di libertà Milena Maule - AA 2011-12

Test di significatività Nell’esempio: n = 20, r = 0.67  t = 3.83 Eseguiamo un test a due code dell’ipotesi nulla di assenza di associazione con un livello di significatività a = 0.05 Per una distribuzione t di Student con 18 gradi di libertà, t18,0.025 = 2.101. Il t empirico cade nella zona di rifiuto (3.83 > 2.101), quindi: rifiutiamo l’ipotesi nulla ad un livello di significatività pari a 0.05: in base a questo campione, c’è evidenza che la correlazione lineare nella popolazione sia diversa da 0 Milena Maule - AA 2011-12

Assunzione alla base del test di significatività: entrambe le variabili sono casuali e distribuite normalmente E.g.: nel caso in cui siano presenti valori estremi, la variabile non può essere distribuita normalmente e il test di significatività non è più valido Milena Maule - AA 2011-12

Regressione lineare Metodo statistico per trovare la retta con il migliore adattamento ai valori di una variabile quantitativa sulla base dei valori di una (o più) variabili quantitative Con la regressione lineare si studia la dipendenza di una variabile (variabile dipendente) da un’altra (variabile indipendente) Milena Maule - AA 2011-12

Regressione lineare Con la regressione lineare analizziamo la dipendenza di una variabile (dipendente, y) da un’altra (indipendente, x) Partiamo dalla premessa che un cambiamento di x porterà direttamente a un cambiamento di y Tuttavia, in generale, non siamo autorizzati a credere che x abbia causato y Spesso siamo interessati a predire il valore di y per un dato valore di x Milena Maule - AA 2011-12

Nell’esempio: E’ logico credere che l’avanzare dell’età influenzi i valori di Hb e non viceversa Milena Maule - AA 2011-12

intercetta: è il valore dell’equazione quando x=0 La relazione fra x e y è riassunta dall’equazione di una retta (retta di regressione): intercetta: è il valore dell’equazione quando x=0 coefficiente di regressione o pendenza della retta Quando x aumenta di una unità, il valore medio di y cambia di unità La retta di regressione della popolazione è un modello: i parametri e vengono stimati (a e b) usando un campione casuale di osservazioni (xi,yi) Milena Maule - AA 2011-12

La relazione fra le due variabili è LINEARE ASSUNZIONI: I valori della variabile indipendente x si assumono misurati senza errore La relazione fra le due variabili è LINEARE Per ogni valore di x, la varianza di y è costante (assunzione di omoschedasticità) I valori di y sono indipendenti Milena Maule - AA 2011-12

Modello: Stima di b e a : Milena Maule - AA 2011-12

Interpretazione della pendenza (b = 0 Interpretazione della pendenza (b = 0.13): per ogni anno di età in più, l’emoglobina aumenta di 0.13 g/dl Milena Maule - AA 2011-12

: valori predetti dall’equazione della retta per INFERENZA : valori predetti dall’equazione della retta per Milena Maule - AA 2011-12

Se H0: b = 0 equivalente a testare H0: r = 0, ovvero: Testiamo H0: b = b0 Se H0 è vera, t è una variabile t di Student con n-2 gradi di libertà. Troviamo p, confrontiamo con il livello significatività, rifiutiamo o non rifiutiamo H0 Se H0: b = 0 equivalente a testare H0: r = 0, ovvero: y non cambia al variare di x I.C. al (1-a)% per b : Milena Maule - AA 2011-12

Coefficiente di determinazione: r2 dove r = coefficiente di correlazione di Pearson r  [-1,1]  r2  [0,1] Se r2 = 1: tutti i valori osservati giacciono sulla retta di regressione Se r2 = 0: non c’è relazione lineare fra x e y r2 rappresenta la proporzione di variabilità tra i valori osservati di y spiegata dalla regressione lineare di y su x Nell’esempio: r=0.88, r2=0.77  il 77% della variazione di Hb è spiegato dalla variazione dell’età Milena Maule - AA 2011-12

2. Adeguatezza di una relazione lineare (vd correlazione) Attenzione a: 1. Estrapolare la retta di regressione al di fuori dell’intervallo dei valori della variabile indipendente x. E.g.: studio sulla circonferenza cranica per una popolazione dei neonati con basso peso alla nascita (< 1500 g) in relazione all’età gestazionale (Leviton et al. 1991). Retta di regressione: y=3.91+0.78x. Intercetta = 3.91: rappresenta il valore medio della circonferenza cranica corrispondente a un’età gestazionale di 0 settimane: in questo esempio non ha alcun significato. L’età gestazionale più bassa misurata è di 23 settimane 2. Adeguatezza di una relazione lineare (vd correlazione) relazione quadratica o di grado superiore  pendenza = 0 non significa mancanza di relazione, solo mancanza di relazione lineare Milena Maule - AA 2011-12