La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica.

Presentazioni simili


Presentazione sul tema: "Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica."— Transcript della presentazione:

1 Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

2 Utilizzo: permette di prevedere il comportamento di una variabile dipendente dicotomica (espressa come presenza/assenza di una caratteristica o risultato) basandosi sui valori di una serie di variabili predittori (fattori o covariate del modello).

3 Risultato: –la probabilità dellevento dati quelle covariate –la probabilità dellinfluenza di ciascuna delle covariate rispetto alla probabilità di una delle caratteristiche della dipendente

4 1.Procedura: definizione del modello 1.La relazione fra la variabile dipendente e le covariate è spiegata da una funzione logaritmica logit (variabile)= b 0 + b 1 x 1 + b 2 x 2 …

5 Trasforma la variabile qualitativa dicotomica (evento, non evento) in una variabile quantitativa utilizzando il parametro odds 1.Variabile0,1 2.Probabilità Odds 0

6 Per poter utilizzare una equazione nel campo dei numeri reali si esegue una ulteriore trasformazione logarimica che prende il nome di logit Oddslogit (valore )

7 Logaritmo: funzione inversa dellesponente Logaritmo naturale (Ln) di x è lesponente da dare a e (numero naturale e = 2.718) per ottenere x Ln 5 = 1.6 perché = 5

8 Proprietà dei logaritmi Ln 1 = 0 Ln 0 = - Ln + = +

9 La variabile può essere vista come funzione dei fattori in un modello regressivo attraverso il quale è possibile assumere la relazione stessa come lineare : logit (variabile)= b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3

10 2. Procedura: VALUTAZIONE della Bontà del modello - stima dei parametri b a.Diversi metodi di approssimazione (iteration) basati sul maximum likelihood –A blocchi: valuta tutti i parametri assieme tramite il criterio di tolleranza (esclude le variabili che apportano poca informazione al modello) –Per passi o per esclusione: toglie o aggiunge i parametri a seconda dellapporto di questi alla significatività del modello

11 Il likelihood, utilizzato anche per il modello Log lineare, è la probabilità che i dati sperimentali siano stati generati dal modello

12 Successive approssimazioni: –si crea il modello con unapprossimazione –si valuta il likelihood –Si effettua una successiva approssimazione –Si valuta il likelihood –Se questo crea un cambiamento superiore a una certa soglia si va avanti, altrimenti ci si ferma

13 b. Valutazione della bontà del modello Statistica Wald Tuttavia, la statistica Wald non può esser usata da sola poiché quando il valore assoluto di b diventa molto grande, lerrore standard sarà anche esso grande e la statistica Wald assumerà valori molto piccoli che facilmente falsificheranno lipotesi nulla anche quando non sarebbe da falsificare.

14 c. Valutazione della bontà del modello Goodness of fit che valuta la probabilità che il modello sia adeguato nella rappresentazione dei dati Si valuta attraverso la non falsificazione di H0 utilizzando una distribuzione 2 che confronta le frequenze osservate con le frequenze attese create dal modello

15 d. Valutazione della bontà del modello Pseudo R squared valuta attraverso il confronto fra il likelihood del modello e il modello dellipotesi nulla (considerando che nessun parametro sia influente)

16 3. Significatività di b e senso dellinfluenza Il contributo di ciascun fattore e il senso della sua influenza sulla variabile dipendente è stimato attraverso lesponenziale di b (odds ratio)

17 Significatività La significatività dei parametri relativi ai fattori si può anche verificare attraverso lintervallo di confidenza attorno allesponenziale di b per ciascun fattore

18 La regressione logistica fornisce le significatività per: il modello globale i singoli parametri, togliendo gli effetti dei parametri già considerati

19 Esempio logit (risposta aggressiva)= b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 Dove il logit della probabilità di rispondere in modo aggressivo è visto in funzione di una costante b 0 sommata al contributo dato da ciascun fattore al quale il modello ha attribuito il valore 1 moltiplicato per il suo coefficiente b n Attraverso la regressione logistica tutte le variabili categoriche vengono trasformate in variabili dicotomiche (con valori 0,1) B1 è il parametro relativo allessere maschi B2 è il parametro relativo alletà B3 è il parametro relativo alla professione di dipendente

20

21

22 Exp(b) Lesponenziale di b relativo al genere è dato dal rapporto fra lodds di rispondere con un comportamento aggressivo essendo femmina diviso lodds di rispondere con un comportamento aggressivo essendo maschi.

23 logit (risposta aggressiva)= b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 logit (risposta aggressiva)= x 1 + (-0.093) + 0 x 3 = 0.461

24 P (risposta aggressiva)=1 / (1+ e ) = 0.56 Odds ratio (genere=1) = –Essere maschi incrementa la probabilità di risposta aggressiva di un coefficiente pari a –lodds di risposta aggressiva essendo maschio è volte superiore rispetto allodds della risposta aggressiva essendo femmina, mantenendo costanti le altre variabili

25 SCOPO: studia la relazione fra più di due variabili qualitative categoriche TIPO DI PROCEDURA: modello logistico applicato a una tavola di contingenza multidimensionale Analisi Log - lineare

26 I dati sperimentali possono produrre diversi modelli Log Lineari. Il modello è definito saturo quando rappresenta tutte le possibili combinazioni fra le celle; non saturato quando solo alcune delle interazioni sono considerate.

27 Nel modello gerarchico leffetto interazione (definito termine di ordine superiore in quanto comprende in sé più termini) è accostato a termini di ordine inferiore(singoli fattori). Attraverso questo modello è possibile considerare solo gli effetti di ordine superiore o inferiore

28 Tavola di contingenza multidimensionale: ogni cella è vista come combinazione di due o più variabili Esempio

29 Applicare più test χ² per analizzare ciascuna combinazione sarebbe una procedura non corretta perché: Aumento dellerrore alpha Lettura dei risultati non comprensibile

30 Date le tre variabili da studiare nella loro relazione è possibile analizzare: Ogni confronto binario Linterazione fra tutte le variabili

31 Modello Log lineare attraverso ununica procedura di analisi rappresenta tutte le possibili combinazioni in modo indipendente le une dalle altre. 1.Struttura modello 2.Stima dei parametri e valutazione della bontà del modello

32 dove: F ij è la frequenza osservata della cella ij, λ i X, è leffetto della i-esima categoria della variabile X, λ j Y leffetto della j-esima categoria della variabile Y λ ij XY leffetto interazione fra le due. μ è la media dei logaritmi calcolati per tutte le celle λ è calcolata togliendo al totale di riga o di colonna di quella cella la media generale.

33 Struttura: logaritmo delle frequenze di ogni combinazione possibile in funzione dei valori delle varie componenti di classificazione ln F ijk = μ+λ i I + λ j J + λ k K + λ i I j J + λ i I k K + λ j J k K + λ i I j J k K Tuttavia… Scopo del modello è rappresentare adeguatamente i dati sperimentali con il numero minore di relazioni fra le variabili ln F ijk = μ+ λ i I + λ j J + λ k K + λ i I j J + λ i I k K

34 Tutte le variabili sono considerate come variabili indipendenti o fattori, la variabile dipendente è il numero di casi in ogni cella, ovvero la frequenza osservata, che è proprio lindice dellinterazione fra le variabili in studio.

35 Stima dei parametri: 1.Calcolo del logaritmo delle frequenze osservate 2.Calcolo delle frequenze attese 3.Confronto frequenze attese con le frequenze osservate - residui

36 ParametroEsito 1Costante 2Esito=0; Terapia=1 3Esito=0; Terapia=2 4Esito=1; Terapia=1 5*Esito=1; Terapia=2 6Esito=0; Tipo=A 7Esito=0; Tipo=B 8*Esito=0; Tipo=C 9Esito=1; Tipo=A 10Esito=1; Tipo=B 11*Esito=1; Tipo=C Rappresentazione dei parametri secondo il modello Esito x Terapia + Esito x Tipo (Esito=0 corrisponde a esito negativo; Esito=1 corrisponde a esito positivo; Terapia=1 è la terapia farmacologica; Terapia=2 sta per terapia integrata

37 3a Una volta calcolate le frequenze attese per ogni cella si calcolano i punti z dei residui (dividendoli per la radice quadrata delle frequenze attese) 3b Dato il modello vengono quindi calcolati i parametri che divisi per il loro SE diventano punti z

38 Calcoliamo ad esempio la stima del parametro 2 relativo alla probabilità di avere un esito negativo avendo effettuato una terapia farmacologica (terapia =1 esito = 0). Per calcolare questa probabilità devo togliere dalla media generale gli effetti dovuti ai fattori terapia, tipo di personalità ed esito.

39 Per verificare se il modello rappresenta sufficientemente i dati si può considerare il test sullipotesi nulla che λ sia uguale a zero attraverso i limiti di falsificazione della distribuzione z ( )

40 Il Goodness of fit test è basato sul Χ 2 e testa la probabilità che quel particolare modello (F ij ) rappresenti bene i dati sperimentali (F ij ). È calcolato tramite la formula:

41 Il Likelyhood ratio test: la probabilità che raccolti quei dati sperimentali essi siano generati dal modello ed è dato dal logaritmo del rapporto fra valori sperimentali e teorici per tutte le possibili condizioni.


Scaricare ppt "Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica."

Presentazioni simili


Annunci Google