Regressione Logistica

Slides:



Advertisements
Presentazioni simili
Corso di esperimentazione di fisica 1 Il metodo dei minimi quadrati
Advertisements

Come organizzare i dati per un'analisi statistica al computer?
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Capitolo 8 Sistemi lineari.
Variabili casuali a più dimensioni
Analisi dei dati per i disegni ad un fattore
ANALISI DELLA COVARIANZA
Progetto Pilota 2 Lettura e interpretazione dei risultati
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
La regressione logistica binomiale
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 5: propagazione degli errori
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Analisi delle corrispondenze
STATISTICA PER LE DECISIONI DI MARKETING
Di Capuano,Colucci e Panunzi Valori medi I valori medi.
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
STATISTICA PER LE DECISIONI DI MARKETING
Attivazione dei recettori
Uso dei Modelli in Statistica
Teorie e Tecniche di Psicometria
MODELLI NON PARAMETRICI
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
COVARIANZA e CORRELAZIONE.
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Regressione Logistica: La stima e l’interpretazione del del modello.
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
Il residuo nella predizione
IL CAMPIONE.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Test basati su due campioni Test Chi - quadro
Analisi discriminante lineare - contesto
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Transcript della presentazione:

Regressione Logistica Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche Tecnica non parametrica

Regressione Logistica Utilizzo: permette di prevedere il comportamento di una variabile dipendente dicotomica (espressa come presenza/assenza di una caratteristica o risultato) basandosi sui valori di una serie di variabili predittori (fattori o covariate del modello).

Regressione Logistica Risultato: la probabilità dell’evento dati quelle covariate la probabilità dell’influenza di ciascuna delle covariate rispetto alla probabilità di una delle caratteristiche della dipendente

1.Procedura: definizione del modello Regressione Logistica 1.Procedura: definizione del modello La relazione fra la variabile dipendente e le covariate è spiegata da una funzione logaritmica logit (variabile)= b0 + b1  x1 + b2  x2 …

Regressione Logistica Trasforma la variabile qualitativa dicotomica (evento, non evento) in una variabile quantitativa utilizzando il parametro odds 1.Variabile 0,1 2.Probabilità 0 1 3.Odds 0 

Regressione Logistica Per poter utilizzare una equazione nel campo dei numeri reali si esegue una ulteriore trasformazione logarimica che prende il nome di logit Odds logit (valore - --- 0 --- +)

Regressione Logistica Logaritmo: funzione inversa dell’esponente Logaritmo naturale (Ln) di x è l’esponente da dare a e (numero naturale e = 2.718) per ottenere x Ln 5 = 1.6 perché 2.718 1.6 = 5

Regressione Logistica Proprietà dei logaritmi Ln 1 = 0 Ln 0 = -  Ln +  = + 

Regressione Logistica La variabile può essere vista come funzione dei fattori in un modello regressivo attraverso il quale è possibile assumere la relazione stessa come lineare : logit (variabile)= b0 + b1  x1 + b2  x2 + b3  x3

Regressione Logistica 2. Procedura: VALUTAZIONE della Bontà del modello - stima dei parametri b a.Diversi metodi di approssimazione (iteration) basati sul maximum likelihood A blocchi: valuta tutti i parametri assieme tramite il criterio di tolleranza (esclude le variabili che apportano poca informazione al modello) Per passi o per esclusione: toglie o aggiunge i parametri a seconda dell’apporto di questi alla significatività del modello

Regressione Logistica Il likelihood , utilizzato anche per il modello Log lineare, è la probabilità che i dati sperimentali siano stati generati dal modello

Regressione Logistica Successive approssimazioni: si crea il modello con un’approssimazione si valuta il likelihood Si effettua una successiva approssimazione Si valuta il likelihood Se questo crea un cambiamento superiore a una certa soglia si va avanti, altrimenti ci si ferma

Regressione Logistica b. Valutazione della bontà del modello Statistica Wald Tuttavia, la statistica Wald non può esser usata da sola poiché quando il valore assoluto di b diventa molto grande, l’errore standard sarà anche esso grande e la statistica Wald assumerà valori molto piccoli che facilmente falsificheranno l’ipotesi nulla anche quando non sarebbe da falsificare.

Regressione Logistica c. Valutazione della bontà del modello Goodness of fit che valuta la probabilità che il modello sia adeguato nella rappresentazione dei dati Si valuta attraverso la non falsificazione di H0 utilizzando una distribuzione 2 che confronta le frequenze osservate con le frequenze attese create dal modello

Regressione Logistica d. Valutazione della bontà del modello Pseudo R squared valuta attraverso il confronto fra il likelihood del modello e il modello dell’ipotesi nulla (considerando che nessun parametro sia influente)

Regressione Logistica 3. Significatività di b e senso dell’influenza Il contributo di ciascun fattore e il senso della sua influenza sulla variabile dipendente è stimato attraverso l’esponenziale di b (odds ratio)

Regressione Logistica Significatività La significatività dei parametri relativi ai fattori si può anche verificare attraverso l’intervallo di confidenza attorno all’esponenziale di b per ciascun fattore

Regressione Logistica La regressione logistica fornisce le significatività per: il modello globale i singoli parametri, togliendo gli effetti dei parametri già considerati

Regressione Logistica Esempio logit (risposta aggressiva)= b0 + b1  x1 + b2  x2+ b3  x3 Dove il logit della probabilità di rispondere in modo aggressivo è visto in funzione di una costante b0 sommata al contributo dato da ciascun fattore al quale il modello ha attribuito il valore 1 moltiplicato per il suo coefficiente bn Attraverso la regressione logistica tutte le variabili categoriche vengono trasformate in variabili dicotomiche (con valori 0,1) B1 è il parametro relativo all’essere maschi B2 è il parametro relativo all’età B3 è il parametro relativo alla professione di dipendente

Regressione Logistica

Regressione Logistica

Regressione Logistica Exp(b) L’esponenziale di b relativo al genere è dato dal rapporto fra l’odds di rispondere con un comportamento aggressivo essendo femmina diviso l’odds di rispondere con un comportamento aggressivo essendo maschi.

Regressione Logistica logit (risposta aggressiva)= b0 + b1  x1 + b2  x2+ b3  x3 logit (risposta aggressiva)= -0.856 + 1.41  x1 + (-0.093) + 0 x3= 0.461

Regressione Logistica P (risposta aggressiva)=1 / (1+ e-0.461) = 0.56 Odds ratio (genere=1) = 4.098 Essere maschi incrementa la probabilità di risposta aggressiva di un coefficiente pari a 4.098 l’odds di risposta aggressiva essendo maschio è 4.098 volte superiore rispetto all’odds della risposta aggressiva essendo femmina, mantenendo costanti le altre variabili

Analisi Log - lineare SCOPO: studia la relazione fra più di due variabili qualitative categoriche TIPO DI PROCEDURA: modello logistico applicato a una tavola di contingenza multidimensionale

Analisi Log lineare I dati sperimentali possono produrre diversi modelli Log Lineari. Il modello è definito saturo quando rappresenta tutte le possibili combinazioni fra le celle; non saturato quando solo alcune delle interazioni sono considerate.

Analisi Log lineare Nel modello gerarchico l’effetto interazione (definito termine di ordine superiore in quanto comprende in sé più termini) è accostato a termini di ordine inferiore(singoli fattori). Attraverso questo modello è possibile considerare solo gli effetti di ordine superiore o inferiore

Analisi Log lineare Tavola di contingenza multidimensionale: ogni cella è vista come combinazione di due o più variabili Esempio

Analisi Log lineare Applicare più test χ² per analizzare ciascuna combinazione sarebbe una procedura non corretta perché: Aumento dell’errore alpha Lettura dei risultati non comprensibile

Analisi Log lineare Date le tre variabili da studiare nella loro relazione è possibile analizzare: Ogni confronto binario L’interazione fra tutte le variabili

Analisi Log lineare Modello Log lineare attraverso un’unica procedura di analisi rappresenta tutte le possibili combinazioni in modo indipendente le une dalle altre. Struttura modello Stima dei parametri e valutazione della bontà del modello

Analisi Log lineare 1. Struttura del modello dove: Fij è la frequenza osservata della cella ij, λiX, è l’effetto della i-esima categoria della variabile X, λjY l’effetto della j-esima categoria della variabile Y λijXY l’effetto interazione fra le due. μ è la media dei logaritmi calcolati per tutte le celle λ è calcolata togliendo al totale di riga o di colonna di quella cella la media generale.

Analisi Log lineare Struttura: logaritmo delle frequenze di ogni combinazione possibile in funzione dei valori delle varie componenti di classificazione ln Fijk = μ+λiI + λjJ + λkK + λiIjJ + λiIkK + λjJkK + λiIjJkK   Tuttavia… Scopo del modello è rappresentare adeguatamente i dati sperimentali con il numero minore di relazioni fra le variabili ln Fijk = μ+ λiI + λjJ + λkK + λiIjJ + λiIkK

Analisi Log lineare Tutte le variabili sono considerate come variabili indipendenti o fattori, la variabile dipendente è il numero di casi in ogni cella, ovvero la frequenza osservata, che è proprio l’indice dell’interazione fra le variabili in studio.

Analisi Log lineare Stima dei parametri: Calcolo del logaritmo delle frequenze osservate Calcolo delle frequenze attese Confronto frequenze attese con le frequenze osservate - residui

Analisi Log lineare: Rappresentazione dei Parametri Parametro Esito 1 Costante 2 Esito=0; Terapia=1 3 Esito=0; Terapia=2 4 Esito=1; Terapia=1 5* Esito=1; Terapia=2 6 Esito=0; Tipo=A 7 Esito=0; Tipo=B 8* Esito=0; Tipo=C 9 Esito=1; Tipo=A 10 Esito=1; Tipo=B 11* Esito=1; Tipo=C Rappresentazione dei parametri secondo il modello Esito x Terapia + Esito x Tipo (Esito=0 corrisponde a esito negativo; Esito=1 corrisponde a esito positivo; Terapia=1 è la terapia farmacologica; Terapia=2 sta per terapia integrata

Analisi Log lineare 3a Una volta calcolate le frequenze attese per ogni cella si calcolano i punti z dei residui (dividendoli per la radice quadrata delle frequenze attese) 3b Dato il modello vengono quindi calcolati i parametri che divisi per il loro SE diventano punti z

Analisi Log lineare Calcoliamo ad esempio la stima del parametro 2 relativo alla probabilità di avere un esito negativo avendo effettuato una terapia farmacologica (terapia =1 esito = 0). Per calcolare questa probabilità devo togliere dalla media generale gli effetti dovuti ai fattori terapia, tipo di personalità ed esito.

Analisi Log lineare Per verificare se il modello rappresenta sufficientemente i dati si può considerare il test sull’ipotesi nulla che λ sia uguale a zero attraverso i limiti di falsificazione della distribuzione z (+-1.96)

Analisi Log lineare 4. Valutazione della bontà del modello Il Goodness of fit test è basato sul Χ2 e testa la probabilità che quel particolare modello (Fij ) rappresenti bene i dati sperimentali (Fij ). È calcolato tramite la formula:  

Analisi Log lineare Il Likelyhood ratio test: la probabilità che raccolti quei dati sperimentali essi siano generati dal modello ed è dato dal logaritmo del rapporto fra valori sperimentali e teorici per tutte le possibili condizioni.