La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente.

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

Corso di esperimentazione di fisica 1 Il metodo dei minimi quadrati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
Intervalli di confidenza
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
Descrizione dei dati Metodi di descrizione dei dati
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
ANALISI DELLA COVARIANZA
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
STATISTICA 6.0: REGRESSIONE LINEARE
MODELLO DI REGRESSIONE LINEARE MULTIPLA: USO DELLE VARIABILI DUMMY (parte 2) In alcune circostanze è opportuno inserire, come variabili esplicative, delle.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Analisi della varianza (a una via)
La logica della regressione
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Corso di biomatematica lezione 5: propagazione degli errori
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
INTERPOLAZIONE Si parla di processo di interpolazione quando, conoscendo una serie di dati, sperimentali o statistici, riguardo ad un evento, si vuole.
Linee guida per la Chimica Analitica Statistica chemiometrica
Propagazione degli errori
Analisi della varianza
STATISTICA PER LE DECISIONI DI MARKETING
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
La ricerca delle relazioni tra fenomeni
Introduzione alla Regressione Lineare e alla Correlazione.
Regressione e correlazione
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Il residuo nella predizione
Analisi Multivariata dei Dati
Corso di Laurea in Scienze e tecniche psicologiche
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Intervalli di confidenza
Corso di Laurea in Scienze e tecniche psicologiche
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
ANALISI DELLA VARIANZA (ANOVA)
Correlazione e regressione lineare
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente si parte da uno ‘scatterplot’, che suggerisce una qualche relazione ‘osservazionale’, non legata ad ipotesi di natura fisica o biologica...

x y Date due variabili x ed y studiando la loro CORRELAZIONE si stima il grado di associazione (in assenza di una ipotesi biologica o logica alla base)

Il coefficiente di correlazione ‘r’ di Pearson, definito come: r 2 = ± DS / DT DS =  (y stim - y m ) 2 è la devianza spiegata ; DT =  (y - y m ) 2 è la devianza totale rappresenta un numero compreso tra -1 e 1. Il suo quadrato ‘r 2 ’fornisce la proporzione di variazione di y ‘spiegata’ da x

Si può quantificare il grado di ‘dipendenza’ di una variabile rispetto all’altra studiando la REGRESSIONE :si vede come varia y in funzione di x.

x y Cerchiamo una retta che ‘interpoli’ i dati, ossia che renda minima la somma dei quadrati degli ‘scarti’ tra punti sperimentali y i e punti ‘calcolati’: Y i = a + b x i a rappresenta l’intercetta ( ordinata per x=0 ), b rappresenta il coefficiente angolare o pendenza. Y = a + b x

Il coefficiente di regressione : b= cov(x,y)/ var(x) = dy/dx ipotizzando una variazione unitaria di x (dx=1), mi dice la corrispondente variazione di y (dy=b): si tratta di un COEFFICIENTE NETTO: è un incremento al netto del peso delle eventuali altre variabili considerate, dunque elimina i confondenti noti eventualmente introdotti in una analisi multivariata.

Naturalmente sia b sia a saranno gravati da un ‘errore di stima’,indicato dal loro Standard Error SE, grazie al quale si potrà eseguire un test statistico, formulando l’ipotesi nulla (no associazione) e calcolando il t di Student t= b/SE(b) con n-2 gradi di libertà.

Esempio: si studi l’associazione tra livello di emoglobina (Hb) ed età in un gruppo di 20 donne. Portando i dati su grafico: Age (yr) Hb (g/dl)

Ed eseguendo una regressione lineare si ottiene: b= g/dl/yr SE(b) = df= 18 INTERPRETAZIONE: per ogni anno di età ci si aspetta un aumento dell’ Hb di g/dl la significatività del risultato viene testata: t= / = 7.84 che per df= 18 fornisce p<

Il problema fondamentale in questo tipo di analisi statistica consiste nell’ assunzione che la relazione di associazione sia lineare. Come si può ‘testare’ questa assunzione? Vediamolo attraverso un esempio. Si è misurata la velocità di filtrazione glomerulare GFR vs la creatina plasmatica (Cr) in 31 uomini ottenendo uno scatter-plot rappresentato in figura:

Cr (mg per 100 ml) GFR (ml/min)

Supponiamo di cercare una retta di regressione a partire da questi dati. I programmi standard forniscono: y = x (per ogni aumento unitario di Cr si ha una diminuzione di 8.88 ml/min in GFR. Leggiamo i risultati dell’analisi della varianza associata: DS (devianza spiagata dalla regress) residuo DT r2 = 53,1 % LA REGRESSIONE SPIEGA ‘POCO’

Normalmente i programmi forniscono anche i sd ‘residui’. Se li grafichiamo per il caso precedente troviamo: Cr Residui di GFR INVECE DI ESSERE DISTRIBUITI PRESSOCHE’ ALLO STESSO MODO SONO ‘ENORMI’ NELLA PARTE INIZIALE E FINALE! QUESTE SONO IN EFFETTI LE PARTI ‘NON LINEARI’.

Proviamo ora a riguardare i dati con attenzione. Cr (mg per 100 ml) GFR (ml/min) L’andamento agli estremi sembra suggerire un ramo di iperbole, quindi una dipendenza lineare tra GFR e 1/Cr

Se si effettua l’analisi in questo caso si ottiene: y = (1/x) e questa volta la DS è pari a , quella residua a , per modo che r2 = 79% ! Rivediamo l’analisi dei residui: 1/Cr Residui di GFR

Rimangono alcuni valori elevati: sono i cd OUTLIERS, che conviene eliminare dall’analisi come valori sospetti. Nel caso in questione eliminando il principale outlier si migliora r 2 fino all’ 86.5 %.

La regressione multipla Nella realtà, è talvolta difficile isolare due sole variabili tra loro associate, ovvero la relazione può essere ‘mascherata’ oppure esaltata dalla presenza di ‘variabili nascoste’ o confondenti. Potrebbe essere importante mettere anche loro in gioco e valutare quanto influiscono nello ‘spiegare’ la devianza dai sdati sperimentali. Il modello, detto multivariato, consiste nel generalizzare l’equazione della retta a più dimensioni: y = a + b 1 x 1 + b 2 x 2 + …...

In questo caso avremo più parametri, ciascuno dei quali avrà ancora il significato di aumento (o diminuzione) di y per variazione unitaria di x A PRESCINDERE DAGLI ALTRI PARAMETRI (ossia tenendo gli altri parametri costanti). Torniamo all’esempio dell Hb vs age delle 20 donne. Per esse era noto anche il valore di PCV (packed cell volume), che si può pensare essere correlato con Hb. Questa dipendenza potrebbe mascherare la relazione tra Hb e età? Si mette a punto un modello multiplo: Hb = a + b 1 età + b 2 PCV

La regressione multipla fornisce i seguenti risultati: varcoeff regrSEtp a età PCV Come si legge questa tabella? Per un valore fissato di PCV, Hb cresce di 0.11 g/ml ogni anno (il valore è un po’ inferiore a quello trovato prima, ma è ancora statisticamente molto significativo), mentre per una età fissata, Hb cresce di g/dl per ogni aumento unitario di PCV, e anche questo è statisticamente significativo.

Una considerazione analoga si può fare se si tiene conto dello stato pre o post menopausale delle donne considerate. In questo caso abbiamo una varaibile non continua, ma di tipo ‘0’ in premenopausa e ‘1’ in postmenopausa: dummy variable. Lo schema si può ancora applicare e il risultato diventa: varregress coeffSEtp a <0.001 age menopause Il coefficiente legato all’età è ancora calato, perché una parte della dipendenza dall’età se l’è presa l’informazione sulla pre e post menopausa!

Infatti, a parità di età, le donne in post menopausa (valore ‘1’) hanno un livello di Hb che supera di 1.88 g/ml quello di una pari età in premenopausa. Tuttavia tale differenza non è statisticamente significativa, mentre la relazione tra Hb ed età continua ad esserlo, ed è stata ‘depurata’ dall’influenza dello stato ormonale!

Prima di iniziare una regressione multivariata, e dunque decidere QUALI variabili inserire, occorre verificare: 1) che esse non siano TROPPO CORRELATE: se le variabili sono continue si stima per ogni coppia la r DI PEARSON, se una è continua e l’altra categoriale si stima la r DI SPEARMAN, se entrambe sono categoriali si considera la tabella di contingenza:

MM* Eab E*cd è possibile stimare il CHIQUADRO oppure l’ ODDS RATIO = ad/bc (ODDS= ragione di scommessa, es: 3:1) N.B. OR indica la forza dell’associazione.

2) controllare i dati mancanti e i cosiddetti ‘OUTLIERS’, compiendo eventualmente una ANALISI DEI RESIDUI 3) porre attenzione a come viene divisa in classi la variabile continua. E’ bene misurare con il massimo del dettaglio e suddividere successivamente in classi, seguendo criteri basati su: a) motivi biologici e/o clinici b) numerosità (classi equinumerose o almeno non classi quasi vuote)