La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica La regressione logistica binomiale La differenza essenziale (anche.

Presentazioni simili


Presentazione sul tema: "Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica La regressione logistica binomiale La differenza essenziale (anche."— Transcript della presentazione:

1 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica La regressione logistica binomiale La differenza essenziale (anche se non unica) tra la regressione logistica binomiale e la regressione lineare consiste nella natura della variabile dipendente; nel caso questa sia dicotomica (oppure dicotomizzata ai fini dellanalisi) non è infatti possibile ipotizzare una sua distribuzione normale: se Y è dicotomica la sua distribuzione è binomiale, dunque la sua stima dovrà variare tra 0 e 1 e non tra - infinito e + infinito come le stime della regressione lineare. Lo scopo è descrivere la relazione di dipendenza del possesso di un attributo dicotomico da una o più variabili indipendenti (X 1, X 2,..., X p )=X, dove: Y -> dicotomica (X 1, X 2,..., X p )=X -> dicotomiche, nominali, ordinali, cardinali (Fabbris, 1997)

2 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Perché la regressione logistica? La regressione lineare la variabile che si ipotizza funzione di X è il valore medio aritmetico della variabile dipendente Y condizionato ad un dato valore di X: E(Y|x). Si assume una distribuzione degli errori normale (con media nulla e varianza costante). Nel caso la variabile dipendente sia dicotomica il valore medio condizionato corrisponde a P(Y=1|x): cioè alla probabilità di possedere lattributo in esame condizionata al fatto che il vettore delle variabili indipendenti assuma valore x (indicata con π(x)). Y = π(x) + ε da cui ε=Y - π(x) Lerrore può quindi assumere solo due valori: Se Y=1 ε=1 - π(x)Se Y=0 ε= - π(x) con media E (ε ) = [1 π ( x )]π ( x ) π ( x )[1 π ( x )] = 0 e varianza V(ε)=[1π(x)] 2 π(x)+π(x) 2 [1π(x)]=π(x)[1π(x)] che dipende da x e dunque non è costante.

3 Il logit serve a descrivere una funzione che lega la probabilità di Y alla combinazione delle variabili indipendenti X: la probabilità infatti ha come limiti 0 e 1 e descrive una figura a S (sigmoide) che assomiglia alla cumulata della distribuzione casuale degli errori chiamata funzione logistica. Il logit non è lunica funzione in grado di modellizzare la probabilità di un fenomeno, ma è privilegiata essendo una trasformata del rapporto tra due probabilità complementari (odd). Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica La funzione logistica

4 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica La stima di Y nella regressione logistica assume il significato di probabilità che Y sia uguale a 1: P(Y=1|x)=π(x) La funzione di regressione logistica é così espressa: Dove logit(π(x)) è il logaritmo naturale del rapporto tra la probabilità di 1 e la probabilità di 0 dato il vettore (x), cioè la/le variabili predittive:

5 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Dunque è possibile descrivere la funzione di dipendenza della probabilità π(x) dai valori di X utilizzando una funzione logistica: Nel caso si abbia più di una variabile indipendente la funzione è la stessa: Una volta stimati i parametri è possibile ricavare la probabilità che Y sia 1 per ogni valore assunto dallinsieme delle variabili indipendenti.

6 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Le variabili indipendenti X dicotomica: β misura la variazione del logit dovuta al possesso della proprietà descritta dalla variabile indipendente; X categoriale/ordinale: è possibile ricondurre le k modalità di X a k-1 variabili dummy, selezionando una delle modalità come gruppo di riferimento (considerandola cioè come lo 0 delle dicotomiche) quindi è possibile calcolare lodds ratio di ogni gruppo rispetto a quello di riferimento ed è pari a e β1,i ; X continua: lodds ratio corrispondente ad un incremento unitario di X è pari a e βi ;

7 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Le variabili indipendenti

8 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Come si stimano i parametri? La stima dei parametri ignoti β non può essere effettuata con il metodo dei minimi quadrati dato che non vale lomoschedasticità dei residui. La stima si effettua con il metodo della massima verosimiglianza che si basa sulla probabilità di osservare linsieme di dati osservato in funzione di β. La funzione di verosimiglianza L si ottiene invertendo i ruoli di X e Y; ovvero interpretando Y come l'informazione nota (cioè il punto di vista della stima): Per ottenere la stima della massima verosimiglianza dei parametri si determina il valore di β che massimizza il logaritmo di L(β) (detto log-verosimiglianza). Lindividuazione dei parametri non è immediata, ma richiede lapplicazione di calcoli iterativi fino alla massimizzazione della verosimiglianza. Il pratica cerchiamo di trovare i valori dei parametri che possono aver prodotto con la maggiore probabilità i dati osservati.

9 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Problemi di calcolo nelle stime Alcune caratteristiche dei dati in analisi possono creare dei problemi nel calcolo delle stime dei parametri. In particolare ci sono problemi di questo tipo se: lerrore standard dei parametri risulta eccessivo rispetto al valore dei parametri stimati le stime di β aumentano rapidamente allaumentare delle iterazioni necessarie per la stima. Ci possono essere problemi se: 1.Una frequenza è nulla (cioè se cè una cella vuota nellipotetica tabella di contingenza tra tutte le variabili inserite nellanalisi); 2.Linsieme delle variabili indipendenti discrimina perfettamente il gruppo di unità per cui Y=0 da quello per cui Y=1; 3.Le variabili esplicative sono collineari (ossia almeno una di loro è esprimibile come funzione lineare delle altre.

10 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Verifica della bontà del modello complessivo La -2 Log-verosimiglianza permette di valutare il modello attraverso il confronto con un modello saturo (che si adatta perfettamente ai dati, con verosimiglianza pari a 1). Aumentando il numero di variabili del modello il suo valore diminuisce fino al livello teorico di 0 per il modello saturo, ma in generale valori piccoli indicano un buon adattamento ai dati. Gli pseudo R 2 sono misure descrittive, per le quali non si hanno test di significatività, create per ottenere dei valori interpretabili nello stesso modo in cui si interpreta lR2 nella regressione lineare. Il software SPSS riporta gli: LR 2 di Cox e Snell rapporta essenzialmente la verosimiglianza del modello con la sola intercetta alla verosimiglianza del modello corrente; LR 2 di Nagelkerke, viene standardizzato così che abbia come massimo 1 (rapportando l R 2 di Cox e Snell ottenuto sul modello corrente all R 2 di Cox e Snell massimo, cioè il complemento a uno della verosimiglianza del modello con la sola intercetta. Tanto più grandi risultano questi valori tanto più i valori predetti dal modello si approssimano a quelli osservati.

11 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Verifica della bontà del modello complessivo Esiste inoltre (e Spss ne fornisce valore e significatività) un chi- quadrato che rappresenta il rapporto di verosimiglianza fra il modello di regressione in esame ed il modello con la sola costante: viene testata lipotesi che tutti i parametri siano pari a 0. I gradi di libertà del rapporto di verosimiglianza in questo caso sono pari al numero di variabili del modello per cui si evita di riportarlo in tabella. Il modello considerato può essere accettato se il p-value osservato è ridotto.

12 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Valutazione del modello Lefficacia predittiva del modello può essere valutata osservando: la percentuale di casi classificata nella classe corretta La sensibilità (la proporzione di migliorati correttamente classificati) La specificità (la proporzione di peggiorati correttamente classificati). Una misura più precisa della capacità predittiva del modello non rapporta i casi classificati correttamente al totale dei casi, ma utilizza come riferimento i casi non classificati dal modello con la sola intercetta. Questa misura, che indicheremo con il simbolo λ rappresenta la percentuale di casi non classificati dal modello con la sola intercetta che vengono classificati correttamente dal modello calcolato. (Ncorr-modello – Ncorr-intercetta)*100= λ (Ntot - Ncorr-intercetta)

13 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Sensibilità: (100/( ))*508 = 54,56% Specificità: (100/( ))*489 = 59,02% λ= [(( )-931)/(826)]*100 = 7,99%

14 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica I coefficienti β Linterpretazione sostantiva dei coefficienti β non è per nulla immediata, si tratta infatti di interpretare il logaritmo del rapporto di associazione (odd ratio) tra due variabili. Risulta indubbiamente meno complessa linterpretazione del rapporto di associazione: lExp(β), cioè lantilogaritmo di β, che almeno non presenta il logaritmo, ma: lExp(β) non ha segno, la relazione è positiva se questo valore è maggiore di uno, negativa se il valore è compreso tra 0 e 1; i valori non risultano simmetrici (una probabilità doppia in caso di relazione positiva è pari a 2, in caso di relazione negativa è pari a 0,5); i valori di Exp(β) non possono essere confrontati calcolando delle differenze, ma è necessario fare riferimento a dei rapporti. E consigliabile normalizzare lExp(β): [Exp(β)-1]*100, in modo tale da rendere negativi i valori compresi tra 0 e 1 permettendo di individuare immediatamente la direzione della relazione, e di leggere i valori in termini di percentuali, ponendo a 100 la probabilità della modalità di contrasto. Linterpretazione degli Exp(β) e dei coefficienti β non va mai fatta in termini di probabilità, ma sempre in termini di odds, rapporti di probabilità.

15 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica I coefficienti β La statistica Wald e il livello di significatività corrispondente testano la significatività di ciascuna delle indipendenti nel modello. La statistica di Wald è pari al rapporto tra la B coefficiente di logistica per il suo errore SE standard, al quadrato. Se la statistica Wald è significativa (cioè ha un p value minore di 0,05) allora il parametro è significativo nel modello.

16 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica Confondimento e interazioni Nel caso, frequente nelle scienze sociali, che le variabili indipendenti non siano ortogonali tra loro potremmo trovarci di fronte a situazioni di confondimento o interazione: Se una certa variabile risulta confondente (modello della specificazione) rispetto al rapporto tra unaltra variabile indipendente e la variabile dipendente è sufficiente inserirla nel modello per poterne controllare leffetto, per poter controllare le interazioni è invece necessario inserire nel modello una variabile che combina le due variabili che potrebbero interagire. Inserire le interazioni nel modello ha dei costi: inserire nei modelli un numero elevato di predittori può comportare la presenza di frequenze nulle negli incroci, e queste danno luogo a coefficienti inattendibili (valori dei coefficienti β pari a più o meno infinito); il significato dei predittori costruiti al fine di controllare le interazioni non è di lettura immediata; linserimento nel modello di queste variabili modifica il rapporto crociato delle variabili: sesso ed età, nel caso di interazione sarebbero entrambi presenti due volte nel modello, ed il loro effetto andrebbe valutato leggendo insieme il parametro della variabile considerata singolarmente (che però non ne esprimerebbe più leffetto globale) e quello della variabile costruita per valutare linterazione.

17 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica A che serve la regressione logistica? Lapplicazione della regressione logistica ha alcuni contesti applicativi in comune con la regressione lineare, ma anche alcuni che le sono propri (come la stima dei rischi relativi). I contesti applicativi della regressione logistica sono: Ricerca di determinanti (fattori di rischio e fattori di protezione) Discriminazione, assegnazione di unità a gruppi Previsione (Fabbris, 1997)

18 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica La logistica su SPSS SPSS rende possibile la scelta tra diverse opzioni sia per: il metodo di inserimento delle variabili (Enter, Stepwise in avanti, Stepwise allindietro), il calcolo delle stime (massima verosimiglianza, test di Wald o condizionale), la scelta del metodo di contrasto per le variabili categoriche (indicatore, ripetuto, ecc…). Esempio: il metodo stepwise: 1.stima la funzione di verosimiglianza ed i parametri per il modello con la sola intercetta; 2.sulla base di questa stima calcola i parametri e la loro significatività per ogni variabile immessa nel modello; 3.seleziona la variabile con la minore significatività e se questa significatività risulta minore della probabilità minima per linserimento nel modello (0,05) aggiorna le stime ricalcolandole includendo la nuova variabile; 4.viene selezionata la variabile più significativa e se questa significatività risulta minore della probabilità per la rimozione dal modello (0,10), la variabile viene rimossa ed i parametri ricalcolati per linserimento di una nuova variabile, altrimenti viene selezionata direttamente una nuova variabile da inserire nel modello; 5.il procedimento si ripete per tutte le variabili immesse, finché non è più possibile includere o escludere variabili dal modello calcolato.

19 Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica La logistica su SPSS SPSS permette di inserire le variabili per blocchi, e di osservare la verosimiglianza dei modelli, i parametri calcolati e la loro significatività, e le tabelle di classificazioni per determinati sottoinsiemi delle variabili indipendenti. Questa funzione è estremamente utile, ad esempio per osservare la significatività delle singole variabili esplicative, prima di verificare la presenza di interazioni; è possibile inserire questi due tipi di variabili in due blocchi successivi. Il programma di analisi permette inoltre di determinare le stime su un dato gruppo sulla base dei parametri calcolati su un altro gruppo : il software calcola i parametri solo sui casi che presentano quella caratteristica, e sulla base del modello ottenuto fornisce una stima della variabile dipendente per i casi non selezionati.


Scaricare ppt "Teoria e pratica della valutazione Laboratorio – Lezione XIV La regressione logistica La regressione logistica binomiale La differenza essenziale (anche."

Presentazioni simili


Annunci Google