La regressione logistica binomiale

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
Intervalli di confidenza
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
Analisi delle corrispondenze
Analisi dei gruppi – Cluster Analisys
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
STATISTICA PER LE DECISIONI DI MARKETING
Regressione Logistica
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
Teorie e Tecniche di Psicometria
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Regressione Logistica: La stima e l’interpretazione del del modello.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Strumenti statistici in Excell
Il residuo nella predizione
IL CAMPIONE.
Analisi Multivariata dei Dati
Test basati su due campioni Test Chi - quadro
Analisi discriminante lineare - contesto
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
“Teoria e metodi della ricerca sociale e organizzativa”
Intervalli di confidenza
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13.
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

La regressione logistica binomiale La differenza essenziale (anche se non unica) tra la regressione logistica binomiale e la regressione lineare consiste nella natura della variabile dipendente; nel caso questa sia dicotomica (oppure dicotomizzata ai fini dell’analisi) non è infatti possibile ipotizzare una sua distribuzione normale: se Y è dicotomica la sua distribuzione è binomiale, dunque la sua stima dovrà variare tra 0 e 1 e non tra - infinito e + infinito come le stime della regressione lineare. Lo scopo è descrivere la relazione di dipendenza del possesso di un attributo dicotomico da una o più variabili indipendenti (X1, X2, ..., Xp)=X, dove: Y -> dicotomica (X1, X2, ..., Xp)=X -> dicotomiche, nominali, ordinali, cardinali (Fabbris, 1997) Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

Perché la regressione logistica? La regressione lineare la variabile che si ipotizza funzione di X è il valore medio aritmetico della variabile dipendente Y condizionato ad un dato valore di X: E(Y|x). Si assume una distribuzione degli errori normale (con media nulla e varianza costante). Nel caso la variabile dipendente sia dicotomica il valore medio condizionato corrisponde a P(Y=1|x): cioè alla probabilità di possedere l’attributo in esame condizionata al fatto che il vettore delle variabili indipendenti assuma valore x (indicata con π(x)). Y = π(x) + ε da cui ε=Y - π(x) L’errore può quindi assumere solo due valori: Se Y=1 ε=1 - π(x) Se Y=0 ε= - π(x) con media E (ε ) = [1 − π ( x )]π ( x ) − π ( x )[1 − π ( x )] = 0 e varianza V(ε)=[1−π(x)]2π(x)+π(x)2[1−π(x)]=π(x)[1−π(x)] che dipende da x e dunque non è costante. Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

La funzione logistica Il logit serve a descrivere una funzione che lega la probabilità di Y alla combinazione delle variabili indipendenti X: la probabilità infatti ha come limiti 0 e 1 e descrive una figura a S (sigmoide) che assomiglia alla cumulata della distribuzione casuale degli errori chiamata “funzione logistica”. Il logit non è l’unica funzione in grado di modellizzare la probabilità di un fenomeno, ma è privilegiata essendo una trasformata del rapporto tra due probabilità complementari (odd). Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

La regressione logistica La stima di Y nella regressione logistica assume il significato di probabilità che Y sia uguale a 1: P(Y=1|x)=π(x) La funzione di regressione logistica é così espressa: Dove logit(π(x)) è il logaritmo naturale del rapporto tra la probabilità di 1 e la probabilità di 0 dato il vettore (x), cioè la/le variabili predittive: Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

La regressione logistica Dunque è possibile descrivere la funzione di dipendenza della probabilità π(x) dai valori di X utilizzando una funzione logistica: Nel caso si abbia più di una variabile indipendente la funzione è la stessa: Una volta stimati i parametri è possibile ricavare la probabilità che Y sia 1 per ogni valore assunto dall’insieme delle variabili indipendenti. Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

Le variabili indipendenti X dicotomica: β misura la variazione del logit dovuta al possesso della proprietà descritta dalla variabile indipendente; X categoriale/ordinale: è possibile ricondurre le k modalità di X a k-1 variabili dummy, selezionando una delle modalità come gruppo di riferimento (considerandola cioè come lo 0 delle dicotomiche) quindi è possibile calcolare l’odds ratio di ogni gruppo rispetto a quello di riferimento ed è pari a eβ1,i; X continua: l’odds ratio corrispondente ad un incremento unitario di X è pari a eβi; Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

Le variabili indipendenti Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

Il pratica cerchiamo di trovare i valori dei parametri Come si stimano i parametri? La stima dei parametri ignoti β non può essere effettuata con il metodo dei minimi quadrati dato che non vale l’omoschedasticità dei residui. La stima si effettua con il metodo della massima verosimiglianza che si basa sulla probabilità di osservare l’insieme di dati osservato in funzione di β. La funzione di verosimiglianza L si ottiene invertendo i ruoli di X e Y; ovvero interpretando Y come l'informazione nota (cioè il punto di vista della stima): Per ottenere la stima della massima verosimiglianza dei parametri si determina il valore di β che massimizza il logaritmo di L(β) (detto log-verosimiglianza). L’individuazione dei parametri non è immediata, ma richiede l’applicazione di calcoli iterativi fino alla massimizzazione della verosimiglianza. Il pratica cerchiamo di trovare i valori dei parametri che possono aver prodotto con la maggiore probabilità i dati osservati. Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

Problemi di calcolo nelle stime Alcune caratteristiche dei dati in analisi possono creare dei problemi nel calcolo delle stime dei parametri. In particolare ci sono problemi di questo tipo se: l’errore standard dei parametri risulta eccessivo rispetto al valore dei parametri stimati le stime di β aumentano rapidamente all’aumentare delle iterazioni necessarie per la stima. Ci possono essere problemi se: Una frequenza è nulla (cioè se c’è una cella vuota nell’ipotetica tabella di contingenza tra tutte le variabili inserite nell’analisi); L’insieme delle variabili indipendenti discrimina perfettamente il gruppo di unità per cui Y=0 da quello per cui Y=1; Le variabili esplicative sono collineari (ossia almeno una di loro è esprimibile come funzione lineare delle altre. Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

Verifica della bontà del modello complessivo La -2 Log-verosimiglianza permette di valutare il modello attraverso il confronto con un modello saturo (che si adatta perfettamente ai dati, con verosimiglianza pari a 1). Aumentando il numero di variabili del modello il suo valore diminuisce fino al livello teorico di 0 per il modello saturo, ma in generale valori piccoli indicano un buon adattamento ai dati. Gli pseudo R2 sono misure descrittive, per le quali non si hanno test di significatività, create per ottenere dei valori interpretabili nello stesso modo in cui si interpreta l’R2 nella regressione lineare. Il software SPSS riporta gli: L’R2 di Cox e Snell rapporta essenzialmente la verosimiglianza del modello con la sola intercetta alla verosimiglianza del modello corrente; L’R2 di Nagelkerke, viene standardizzato così che abbia come massimo 1 (rapportando l’ R2 di Cox e Snell ottenuto sul modello corrente all’ R2 di Cox e Snell massimo, cioè il complemento a uno della verosimiglianza del modello con la sola intercetta. Tanto più grandi risultano questi valori tanto più i valori predetti dal modello si approssimano a quelli osservati. Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

Verifica della bontà del modello complessivo Esiste inoltre (e Spss ne fornisce valore e significatività) un chi-quadrato che rappresenta il rapporto di verosimiglianza fra il modello di regressione in esame ed il modello con la sola costante: viene testata l’ipotesi che tutti i parametri siano pari a 0. I gradi di libertà del rapporto di verosimiglianza in questo caso sono pari al numero di variabili del modello per cui si evita di riportarlo in tabella. Il modello considerato può essere accettato se il p-value osservato è ridotto. Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

Valutazione del modello L’efficacia predittiva del modello può essere valutata osservando: la percentuale di casi classificata nella classe corretta La sensibilità (la proporzione di migliorati correttamente classificati) La specificità (la proporzione di peggiorati correttamente classificati). Una misura più precisa della capacità predittiva del modello non rapporta i casi classificati correttamente al totale dei casi, ma utilizza come riferimento i casi non classificati dal modello con la sola intercetta. Questa misura, che indicheremo con il simbolo λ rappresenta la percentuale di casi non classificati dal modello con la sola intercetta che vengono classificati correttamente dal modello calcolato. (Ncorr-modello – Ncorr-intercetta) *100= λ (Ntot - Ncorr-intercetta) Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

Sensibilità: (100/(423+508))*508 = 54,56% Specificità: (100/(489+337))*489 = 59,02% λ= [((489+508)-931)/(826)]*100 = 7,99% Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

I coefficienti β L’interpretazione sostantiva dei coefficienti β non è per nulla immediata, si tratta infatti di interpretare il logaritmo del rapporto di associazione (odd ratio) tra due variabili. Risulta indubbiamente meno complessa l’interpretazione del rapporto di associazione: l’Exp(β), cioè l’antilogaritmo di β, che almeno non presenta il logaritmo, ma: l’Exp(β) non ha segno, la relazione è positiva se questo valore è maggiore di uno, negativa se il valore è compreso tra 0 e 1; i valori non risultano simmetrici (una probabilità doppia in caso di relazione positiva è pari a 2, in caso di relazione negativa è pari a 0,5); i valori di Exp(β) non possono essere confrontati calcolando delle differenze, ma è necessario fare riferimento a dei rapporti. E’ consigliabile normalizzare l’Exp(β): [Exp(β)-1]*100, in modo tale da rendere negativi i valori compresi tra 0 e 1 permettendo di individuare immediatamente la direzione della relazione, e di leggere i valori in termini di percentuali, ponendo a 100 la probabilità della modalità di contrasto. L’interpretazione degli Exp(β) e dei coefficienti β non va mai fatta in termini di probabilità, ma sempre in termini di odds, rapporti di probabilità. Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

I coefficienti β La statistica Wald  e il livello di significatività corrispondente testano la significatività di ciascuna delle indipendenti nel modello.  La statistica di Wald è pari al rapporto tra la B coefficiente di logistica per il suo errore SE standard, al quadrato. Se la statistica Wald è significativa (cioè ha un p value minore di 0,05) allora il parametro è significativo nel modello.  Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

Confondimento e interazioni Nel caso, frequente nelle scienze sociali, che le variabili indipendenti non siano ortogonali tra loro potremmo trovarci di fronte a situazioni di confondimento o interazione: Se una certa variabile risulta confondente (modello della specificazione) rispetto al rapporto tra un’altra variabile indipendente e la variabile dipendente è sufficiente inserirla nel modello per poterne controllare l’effetto, per poter controllare le interazioni è invece necessario inserire nel modello una variabile che combina le due variabili che potrebbero interagire. Inserire le interazioni nel modello ha dei costi: inserire nei modelli un numero elevato di predittori può comportare la presenza di frequenze nulle negli incroci, e queste danno luogo a coefficienti inattendibili (valori dei coefficienti β pari a più o meno infinito); il significato dei predittori costruiti al fine di controllare le interazioni non è di lettura immediata; l’inserimento nel modello di queste variabili modifica il rapporto crociato delle variabili: sesso ed età, nel caso di interazione sarebbero entrambi presenti due volte nel modello, ed il loro effetto andrebbe valutato leggendo insieme il parametro della variabile considerata singolarmente (che però non ne esprimerebbe più l’effetto globale) e quello della variabile costruita per valutare l’interazione. Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

A che serve la regressione logistica? L’applicazione della regressione logistica ha alcuni contesti applicativi in comune con la regressione lineare, ma anche alcuni che le sono propri (come la stima dei rischi relativi). I contesti applicativi della regressione logistica sono: Ricerca di determinanti (fattori di rischio e fattori di protezione) Discriminazione, assegnazione di unità a gruppi Previsione (Fabbris, 1997) Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

La logistica su SPSS SPSS rende possibile la scelta tra diverse opzioni sia per: il metodo di inserimento delle variabili (Enter, Stepwise in avanti, Stepwise all’indietro), il calcolo delle stime (massima verosimiglianza, test di Wald o condizionale), la scelta del metodo di contrasto per le variabili categoriche (indicatore, ripetuto, ecc…). Esempio: il metodo stepwise: stima la funzione di verosimiglianza ed i parametri per il modello con la sola intercetta; sulla base di questa stima calcola i parametri e la loro significatività per ogni variabile immessa nel modello; seleziona la variabile con la minore significatività e se questa significatività risulta minore della probabilità minima per l’inserimento nel modello (0,05) aggiorna le stime ricalcolandole includendo la nuova variabile; viene selezionata la variabile più significativa e se questa significatività risulta minore della probabilità per la rimozione dal modello (0,10), la variabile viene rimossa ed i parametri ricalcolati per l’inserimento di una nuova variabile, altrimenti viene selezionata direttamente una nuova variabile da inserire nel modello; il procedimento si ripete per tutte le variabili immesse, finché non è più possibile includere o escludere variabili dal modello calcolato. Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica

La logistica su SPSS SPSS permette di inserire le variabili per blocchi, e di osservare la verosimiglianza dei modelli, i parametri calcolati e la loro significatività, e le tabelle di classificazioni per determinati sottoinsiemi delle variabili indipendenti. Questa funzione è estremamente utile, ad esempio per osservare la significatività delle singole variabili esplicative, prima di verificare la presenza di interazioni; è possibile inserire questi due tipi di variabili in due blocchi successivi. Il programma di analisi permette inoltre di determinare le stime su un dato gruppo sulla base dei parametri calcolati su un altro gruppo : il software calcola i parametri solo sui casi che presentano quella caratteristica, e sulla base del modello ottenuto fornisce una stima della variabile dipendente per i casi non selezionati. Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica