Introduzione alla Regressione Logistica

Slides:



Advertisements
Presentazioni simili
Come organizzare i dati per un'analisi statistica al computer?
Advertisements

Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
“Teoria e metodi della ricerca sociale e organizzativa”
Fonti di distorsione nella misura delle disuguaglianze di salute: il confronto temporale e spaziale, l’aggiustamento per altre covariate, il bias ecologico.
La regressione lineare trivariata
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Analisi multivariata.
Scopo della lezione Regressione lineare multipla Cos’è
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Weighted least squares. Covarianza con Spazio delle misurazioni (N dimensionale): variabili non deterministiche sottoposte a errore di misura. Es. coordinate.
MODELLO DI REGRESSIONE LINEARE MULTIPLA: USO DELLE VARIABILI DUMMY (parte 2) In alcune circostanze è opportuno inserire, come variabili esplicative, delle.
IL MODELLO DI REGRESSIONE MULTIPLA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
RUOLO DELLA STATISTICA MEDICA nella LAUREA di BASE ed in quella SPECIALISTICA ATTITUDINI CONOSCENZE ABILITÀ
Obiettivi del corso di Statistica Medica.
ALBERI DECISIONALI terza parte
La regressione logistica binomiale
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Alcune domande agli autori Lo studio affronta un argomento scientifico e/o clinico importante? Lo studio è originale? Lo studio è volto a provare le ipotesi.
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
Epidemiologia Studio quantitativo della distribuzione*, dei determinanti e del controllo delle malattie nelle popolazioni * spazio, tempo, persone.
Modello di regressione lineare semplice
Indicatori individuali e indicatori areali di deprivazione: dicono la stessa cosa?
STATISTICA PER LE DECISIONI DI MARKETING
Regressione Logistica
Regressione logistica
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
Uso dei Modelli in Statistica
STATISTICA PER LE DECISIONI DI MARKETING
Statistica economica (6 CFU)
STATISTICA PER LE DECISIONI DI MARKETING
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Correlazione e regressione Correlazione Come posso determinare il legame tra due o più variabili? COEFFICIENTE DI CORRELAZIONE (r di Pearson) massimo.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Introduzione alla regressione multipla
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Analisi Multivariata dei Dati
1 “Metodi per la Ricerca Sociale e Organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università degli Studi di Milano-Bicocca.
Esercizio Regressione logistica
Analisi discriminante lineare - contesto
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13.
Correlazione e regressione lineare
La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente.
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Ottimizzazione dei terreni di coltura Metodi statistici.
Analisi delle osservazioni
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein

Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti Regressione logistica Multipla Codifica delle variabili Esempi in Stata Modellare i propri dati

Regressione lineare Semplice Tabella 1 Età e pressione sistolica nel sangue (PAS) in 33 donne adulte

SBP (mm Hg) Age (years) Adattato da Colton T. Statistics in Medicine. Boston: Little Brown, 1974

Regressione lineare Semplice Relazione tra 2 variabili continue (PAS ed Età) y Slope x coefficiente di Regressione b1 Misura l’associazione tra y ed x Valore del cambiameto di y in media quando x cambia di una unità Metodo dei minini quadrati

Regression lineare Multipla Relazione tra una variabile continua ed un a set di variabili continue coefficienti di regressione Parziale bi Valore del cambiamento di y in media quando xi cambia di una unità e tutte le altre xJ , per j≠i , rimangono costanti Misura l’associazione tra xi ed y corretta per tutte le altre xJ Esempio PAS verso età, peso, altezza, etc

Regressione lineare Multipla Dipendente Variabili indipendenti Predetta Variabili predittive Variabile Risposta Variabili esplicative Variabile Esito Covariate

Analisi Multivariata Modello Risultato. Regressione Lineare quantitativo continuo. Regressione di Poisson conteggi. Cox model sopravvivenza. Regressione Logistica binomiale. ...... Scelta del modello secondo lo studio, gli obiettivi, e le variabili. Controllo del confondimento. Costruzione di un modello, predizione.

Regressione logistica Modella la relazione tra un set di variabili xi dicotomiche (mangiare : si/no) categoriche (classe sociale, ... ) continue (eta’, ...) e Variabile dicotomica Y esito dicotomico (binario) situazione molto comune in biologia e epidemiologia

Regressione logistica (1) tabella 2 Età e sintomi di malattia coronarica (CHD)

Come possiamo analizzare questi dati ? Confronto di Età media delle donne Malate e Non- Malate Non- Malate : 38.6 anni Malate: 58.7 anni (p<0.0001) Regressione Lineare?

Plot a punti: Dati di Tabella 2

Regressione logistica (2) tabella 3 Prevalenza (%) dei segni di CD in accordo con il gruppo di età

Dot-plot: Dati di Tabella 3 Malati % Età (anni)

La funzione logistica (1) Probabilità di malattia x

La funzione logistica (2) logit di P(y|x) {

La funzione logistica(3) Vantaggi del logit transformazione semplice di P(y|x) relazione lineare con x Può essere continua (Logit tra -  to + ) E’ nota la distribuzione binomiale (P tra 0 ed 1) Diretto legame con la nozione di odds di malattia

Interpretazione di b (1)

Interpretazione di b (2) β = incremento del log-odds per incremento unitario di x Test d’ipotesi H0 β=0 (test di Wald) Intervallo di confidenza

Esempio rischio di sviluppare malattia delle arterie coronarie in accordo con età (<55 e 55+ anni).

Risultati del fitting del modello di regressione logistica

Adattamento dell'equazione ai dati regressione lineare: minimi quadrati regressione logistica: massima verosimiglianza funzione di verosimiglianza I parametri stimati a e b hanno reso massima la verosimi-glianza (probabilità) dei dati osservati rispetto ad ogni altro valore In pratica è più semplice lavorare con log-verosimiglianza

Massima verosimiglianza Calcolo terativo scelta di un valore arbitrario per i coefficienti (usualmente 0) Calcolo della log-verosimiglianza Variazione dei valori dei coefficienti Reiterazione fino alla massimizzazione (plateau) Resultati stime di massima verosimiglianza (MLE) per  e  stime di P(y) per a assegnato valore di x

Regressione logistica multipla Piu’ di una variabile indipendente dicotomica , ordinale, nominale, continua … Interpretazione di bi Incremento del log-odds per un Incremento unitario di xi con tutte le altre xi constanti misure di associazione tra xi e log-odds corretta per tutte le altre xi

Regressione logistica Multipla Modifica dell’effetto Puo’ essere modellato includendo termini di interazione

Test dell’ipotesi Statistica Domanda Il modello che include una variabile indipendente assegnata fornisce più informazione circa la variabile dipendente del modello in cui tale variabile è assente ? Tre test statistica rapporto di verosimiglianza [statistica (LR)] Wald test Score test

statistica: rapporto di verosimiglianza Confronto di due modelli annidati (nested) Log(odds) =  + 1x1 + 2x2 + 3x3 + 4x4 (modello 1) Log(odds) =  + 1x1 + 2x2 (modello 2) statistica LR -2 log_lik (modello 2 / modello 1) = -2 log_lik (modello 2) meno -2log (modello 1) La statistica LR è 2 con DF = numero di extra parametri nel modello

Esempio P probabilità di arresto cardiaco Exc 1= sedentarietà , 0 = exercizio Smk 1= fumo , 0= non-fumo adapted from Kerr, Handbook di Public Health Methods, McGraw-Hill, 1998

Effetto di interazione tra fumo e sedentarietà ? Termine del Prodotto b3 = -0.4604 (SE 0.5332) Wald test = 0.75 (1df) -2log(L) = 342.092 con termine interaczione = 342.836 senza termine interaczione  LR statistica = 0.74 (1df), p = 0.39  Non evidenza di interazione

Codifica di variabili (1) variabile dicotomica: yes = 1, no = 0 variabili continue Incremento di OR per una variazione unitaria della variabile esposizione Il modello Logistico è moltiplicativo  OR Incrementa esponenzialmente con x Se OR = 2 , per la variazione unitaria di esposizione di x passa da 2 to 5: OR = 2 x 2 x 2 = 23 = 8 verifica che OR Incrementi esponenzialmente con x. Quando in dubbio, trattare come variabile qualitative

variabile continua ? Relazione tra SBP>160 mmHg e BW (body weight) Introduci BW come variabile continua ? Codifica del peso come variabile singlola , eg. 3 classi uguali: 40-60 kg = 0, 60-80 kg = 1, 80-100 kg = 2 Compatibile con assunto di modello moltiplicativo Se non compatibile, usa variabili indicatori

Codifica delle variabili (2) variabili nominali o ordinali in classi disuguali : Fumatori di tabacco : no=0, grey=1, brown=2, blond=3 modello assume che l’OR per (tabacco blond) = OR per (tabacco grey)3 Use indicator variabili (dummy variabili )

variabili indicatori: tipo di tabacco Neutralizza la gerarchia artificiale tra classi nella variabile "tipo di tabacco" Nessun assunto messo in atto 3 variabili (3 df) nel modello usando la medesima referenza OR per ogni tipo di tabacco, corretto per gli altri, riferito al non-fumo

Referenze Esempi usando stata Esempio 1: Low Birth Weight Study Hosmer DW, Lemeshow S. Applied logistic regression. Wiley & Sons, New York, 1989 Esempi usando stata Esempio 1: Low Birth Weight Study Esempio 2: Risk di death from bacterial meningitis according to treatment

Esempio 1: Studio «Low Birth Weight » 198 observations Low Birth Weigth [LBW] 1= Birth weight < 2500g 0= Birth weight >= 2500g Age di mother in years Weight di mother in pounds [LWT] Race (1,2,3) numero di doctor’s visit in last trimester [FTV]

Esempio 2: Rischio di morte per meningite batterica in accordo con il trattmento 161 observations Death (0,1) Treatment (1=Chloramphenicol, 2=Ampicillin) Delay before treatment (onset, in days) Convulsions (1,0) Level di consciousness (1-3) Severity di dehydration (1-3) Age in years Pathogen 1 Others, 2 HiB, 3 Streptococcus pneumoniae