Regressione e Variabili Dipendenti Dicotomiche (intro alla logistica)

Regressione e Variabili Dipendenti Dicotomiche (intro alla logistica)
Marcello Gallucci Lezione: 20

La regressione logistica
La regressione logistica si propone di studiare e quantificare le relazioni tra una o più variabili indipendenti quantitative (es. età, salario, atteggiamento verso la birra, birre bevute) e una variabile dipendente dicotomica (es. stato civile, voto al referendum, appartenenza ad un gruppo, etc.) Per capire come funziona, prima dobbiamo capire perché non possiamo usare una regressione come quella già studiata Per capire ciò, bisogna capire quando la regressione già studiata non può essere applicata Lezione: 20

Assunzioni della Regressione Semplice
Quando conduciamo una regressione o una ANOVA, facciamo implicitamente alcune assunzioni sui dati: Scopo dell’operazione Assunzione associata Stimiamo gli effetti di relazione La relazione è lineare Stimiamo la varianza spiegata La varianza di errore è uguale per tutti i valori predetti Testiamo la significatività Gli errori della regressione sono normalmente distribuiti Lezione: 20

Assunzioni e Conseguenze
La violazione di queste assunzioni (se non sono vere) porta a risultati non corretti Assunzione Se violata La relazione è lineare Non apprezziamo la relazione La varianza di errore è uguale per tutti i valori predetti La varianza spiegata sarà distorta Gli errori della regressione sono normalmente distribuiti Il valore-p sarà diverso dal vero rischio di commettere un errore nel rifiutare H0 Lezione: 20

Assunzione 1: Linearità
Come visto precedentemente (lezione 7 e 15), la relazione che riusciamo a catturare con la regressione è una relazione lineare Lezione: 20

Relazioni non lineari Le relazioni non lineari non sono catturate dalla correlazione/regressione B Le variabili A e B sono associate in maniera perfetta, eppure la loro correlazione è solo 0.2 La correlazione/regressione è in grado di quantificare solo le relazioni lineari A Lezione: 20

In media incrementa di .8 dev.stand. per ogni dev.stad. dell’altra
Relazioni non lineari La parte non lineare della relazione si perde in quanto le concordanza tra scostamenti (covarianza) è diversa ai diversi valori delle variabili Incrementa qui In media incrementa di .8 dev.stand. per ogni dev.stad. dell’altra Lezione: 7 Decrementa qui Incrementa qui In media incrementa di solo .1 dev.stand. Per ogni dev.stad. dell’altra r=0.1

Assunzione 2: Omoschedasticità
Quando stimiamo la varianza spiegata assumiamo che la varianza di errore sia uguale per tutti i valori predetti, cioè gli errori siano omoschedastici Lezione: 20

Consideriamo una regressione con atteggiamento verso il wrestling come VD e classe di età (giovani, adulti, anziani) come VI = valore predetto Varianza VD per giovani Varianza VD per adulti Varianza VD per anziani Lezione: 20

Ricordiamo (lezione 9) che la varianza spiegata può essere intesa come varianza totale meno varianza di errore R2 è dato dalla percentuale di varianza non di errore Lezione: 20

Ricordiamo (lezione 9) che la varianza spiegata può essere intesa come varianza totale meno varianza di errore Errore grande per gli adulti Se le varianze sono diverse ai diversi valori della VI, la varianza di errore sarà diversa per i diversi valori Errore piccolo per i giovani e anziani Errore per i diversi livelli di VI Lezione: 20

Violazione Omoschedasticità
Ricordiamo (lezione 9) che la varianza spiegata può essere intesa come varianza totale meno varianza di errore Dunque l’R2 non sarà accurato, in quanto a diversi valori spiegheremo quantità di verse di varianza Lezione: 20

Assunzione 3: Normalità
Quando testiamo l’ipotesi nulla sui coefficienti di regressione, assumiamo che gli errori associati alla regressione siano distribuiti normalmente Lezione: 20

Discrepanza osservati-predetti
Errori di regressione Ricordiamo (lezione 7 e 9) che la predizione non corrisponde di norma ai valori osservati predetti Discrepanza osservati-predetti errore Dunque i valori osservati di Y possono essere espressi come somma dei valori predetti e l’errore retta errore Lezione: 20

Distribuzione degli errori
Tali errori si assume essere distribuiti normalmente. Cioè se facciamo un istogramma degli errori per tutti i soggetti, otteniamo uan distribuzione fatta a campana Attegiamento TV = classe eta Lezione: 20

Attegiamento politico = classe eta
Violazione normalità Se tali errori non sono distribuiti normalmente, il test di significatività non sarà corretto Attegiamento politico = classe eta Lezione: 20

Violazioni assunzioni
Quando queste assunzioni non sono soddisfatte, i risultati sono da considerarsi dubbi Se la violazione delle assunzioni è grave, la regressione non può essere applicata Nella pratica, con variabili dipendenti continue normalmente distribuite, queste assunzioni sono abbastanza semplici da soddisfare Ma cosa succede se volessimo usare una variabile dipendente dicotomica? Lezione: 20

VD Categorica Quando abbiamo una variabile dipendente dicotomca, ogni soggetto ha o 1 o 0 come valore della variabile dipendente VD=sesso (Maschi=0, Femmine=1), VD=acquisto (Si=1, No=0), voto al referendum (Si=1, No=0) La media della variabile dipendente è la probabilità di ottenere il valore 1 Ciò che prediciamo è la probabilità p di appartenere al gruppo con valore 1 (e 1-p sarà la probabilità di appartenere al gruppo 0). Lezione: 20

Assunzioni e Dicotomiche
Ci domandiamo cosa accade alle assunzioni standard se usiamo una VD categorica Assunzione La relazione è lineare Linearità La varianza di errore è uguale per tutti i valori predetti Omoschedasticità Gli errori della regressione sono normalmente distribuiti Normalità errori Lezione: 20

Linearità La relazione non protrà mai essere lineare
Gran parte della varianza non è spiegata I punteggi saranno necessariamente raggruppati in due rette piatte La retta di regressione avrà moltissimo margine di errore Lezione: 20

Non Linearità La relazione sarà meglio rappresentata da altre forme
Ad esempio una sigmoidale Lezione: 20

Non Linearità e predizione
Se usassimo le regressione lineare, predirremmo valori assurdi Quale sarebbe la predizione per un soggetto con attepol=-3? Sicuramente un valore negativo, che è assurdo visto che stiamo predicendo probabilità!! Lezione: 20

Non Linearità e interpretazione
Se usassimo le regressione lineare, l’interpretazione potrebbe essere assurda Il cambiamento atteso in Y per uno spostamento della X di una unità Come può una probabilità cambiare di 3, visto che il massimo è 1 Lezione: 20

Assunzione 1: Linearità
Come visto precedentemente (lezione 7 e 15), la relazione che riusciamo a catturare con la regressione è una relazione lineare Se la regressione è condotta con una variabile dipendente dicotomica, l’assunzione di linearità non può essere soddisfatta, creando problemi sia nella bontà della predizione, che nella sua interpretazione Lezione: 20

Quando stimiamo la varianza spiegata assumiamo che la variabile dipendente sia omoschedastica, cioè abbia la stessa varianza per ogni livello della variabile indipendente Notiamo che se la variabile dipendente è dicotomica, i valori predetti possono essere o 0 o 1 Valore Osservato Valore predetto Errore Pi 0-Pi 1 1-Pi Noi predirremo una certa probabilità Il soggetto o ha 0 o ha 1 L’errore sarà o 1-P o 0-P Lezione: 20

Valore Osservato Valore predetto Errore Pi 0-Pi 1 1-Pi Quale sarà la varianza degli errori? (cf. Lezione 2 sulla varianze di proporzioni) Lezione: 20

Valore Osservato Valore predetto Errore Pi 0-Pi 1 1-Pi Quale sarà la varianza degli errori? (cf. Lezione 2 sulla varianze di proporzioni) Se P=.5 Se P=.3 Dunque: Per diversi valori di P avremmo varianze diverse a seconda dei valori predetti Lezione: 20

Quando stimiamo la varianza spiegata assumiamo che la variabile dipendente sia omoschedastica, cioè abbia la stessa varianza per ogni livello della variabile indipendente Se la regressione è condotta con una variabile dipendente dicotomica, l’assunzione di omoschedasticità non può essere soddisfatta, creando problemi in termini di test di significatività e di intepretazione della varianza spiegata Lezione: 20

Quando testiamo l’ipotesi nulla sui coefficienti di regressione, assumiamo che gli errori associati alla regressione siano distribuiti normalmente Valore Osservato Valore predetto Errore Pi 0-Pi 1 1-Pi L’errore sarà o 1-P o 0-P La distribuzione sarà sempre bimodale, cioè con due gobbe Lezione: 20

Valori predetti e osservati
Ciò accade perché i valori predetti saranno sempre una certa distribuzione di probabilità. I valori osservati possono essere solo 0 e 1 Valori predetti Valori osservati I residue sono scostamenti dagli osservati Lezione: 20

Valori residui dunque i residui (non standardizzati) saranno sempre intorno o a zero o a 1, mai meno di zero e mai più di uno Valori residui Gobba per chi ha valore osservato 0 Gobba per chi ha valore osservato 1 Lezione: 20

Quando testiamo l’ipotesi nulla sui coefficienti di regressione, assumiamo che gli errori associati alla regressione siano distribuiti normalmente Se la regressione è condotta con una variabile dipendente dicotomica, l’assunzione di normalità degli errori non potrà essere soddisfatta, creando problemi sui test di significatività Lezione: 20

Assunzioni e Dicotomiche
Dunque, la regressione che conosciamo non può essere applicata con le variabili dipendenti dicotomiche perchè sicuramente violeremmo tutte le assunzioni Assunzione Se VD dicotomica Linearità Non può essere lineare Sicuramente la varianza dipende dal valore predetto Omoschedasticità Normalità errori Gli errori saranno sempre distribuiti con due gobbe Lezione: 20

Soluzione Necessitiamo dunque di un tipo di regressione che:
Risolva il problema della omoschedasticità, linearità e normalità degli errori Ammetta valori non assurdi Ci esprima le relazioni sulla base di probabilità o qualcosa di comparabile Cioè dobbiamo trasformare la variabile dipendente tale da linearizzare la relazione, rendere la variabile dipendente continua, e farla variare su tutto l’asse (valori positivi e negativi) Lezione: 20

Soluzione: parte 1 Intanto decidiamo di non cercare di predire la probabilità, ma il rapporto tra probabilità Tale rapporto è detto odd ratio Lezione: 20

Odd ratio L’odd ratio è il rapporto tra la probabilità di un evento (appartenere ad un gruppo) rispetto alla probabilità del non evento (appartenere all’altro gruppo) Esempi: se la probabilità di avere una figlia femmina è .50 se la probailità di votare Si ad un referendum è .70 Lezione: 20

Odd ratio L’odd ratio indica quanto più probabile è un evento rispetto al suo complemento Esempi: Una figlia femmina è tanto probabile quanto un maschio Il voto Si è 2.33 volte più probabile del No Lezione: 20

Odd ratio: Interpretazione
L’odd ratio consente di esprimere la proabilità mediante valori che variano da 0 ad infinito OR da 0 ad infinito Probabilità da 0 a 1 Lezione: 20

L’odd ratio varia da 0 ad infinito Se gli eventi sono equiprobabili É maggiore di 1 se l’evento è più probabile del contrario É minore di 1 se l’evento è meno probabile del contrario Lezione: 20

L’odd ratio è spesso usato nelle scommesse, per indicare quanto la vittoria sia più probabile delle sconfitta La vittoria è tanto probabile quanto la sconfitta La vittoria è 2.33 volte più probabile della sconfitta La vittoria è .25 volte più probabile della sconfitta, dunque meno probabile Lezione: 20

Problema con odd ratio Se usassimo gli odd ratio come variabile dipendente, potremmo ottenere predizioni impossibili, come predizioni di valori negativi Se a=1, b=3 e x=-2 Lezione: 20

La trasformazione con il logaritmo si chiama logit
Soluzione: parte 2 Decidiamo di non cercare di predire l’odd ratio, ma il logaritmo dell’odd ratio La trasformazione con il logaritmo si chiama logit La regressione che cerca di predirre il logit si chiama regressione logistica Lezione: 20

Perché il logaritmo? Il logaritmo di una variabile che varia da 0 ad infinito (come gli odd ratio), varia per tutti i valori possibili, da negativi a positivi Il logaritmo dell’OR permette di esprimere la probabilità mediante valori sia positivi che negativi Lezione: 20

Il logaritmo dell’OR sta in relazione sigmoidale con la probabilità
Perché il logaritmo? Il logaritmo di una variabile che varia da 0 ad infinito (come gli odd ratio), varia per tutti i valori possibili, da negativi a positivi Il logaritmo dell’OR sta in relazione sigmoidale con la probabilità Lezione: 20

Linearizzazione della relazione
Grazie al fatto che il logit sta in rapporto sigmoidale con la probabilità, il logit sarà in rapporto lineare con le variabili dipendenti Se X predice P grazie ad una sigmoidale X predirrà LOGIT grazie ad una retta Lezione: 20

Regressione logistica
La regressione logistica è una regressione in cui la variabile dipendente è dicotomica, e dunque si predice mediante una regressione lineare il logaritmo del rapporto tra la probabilità di essere in un gruppo piuttosto che l’altro Lezione: 20

Regressione Logistica
Dato che la variabile è stata trasformata, la regressione ora è possibile Rispetto alla regressione che già conosciamo, cambierà: Come interpretare i coefficienti Il test di significatività Come interpretare l’R2 Lo vedremo la prossima lezione Lezione: 20

Fine Fine della Lezione XX

Regressione e Variabili Dipendenti Dicotomiche (intro alla logistica)

Presentazioni simili

Presentazione sul tema: "Regressione e Variabili Dipendenti Dicotomiche (intro alla logistica)"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Regressione e Variabili Dipendenti Dicotomiche (intro alla logistica)

Presentazioni simili

Presentazione sul tema: "Regressione e Variabili Dipendenti Dicotomiche (intro alla logistica)"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back