Il trattamento dei dati mancanti

Slides:



Advertisements
Presentazioni simili
RILEVAZIONE E RACCOLTA DATI
Advertisements

Monitoraggio e valutazione dei servizi formativi
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Alcuni aspetti chiave e preliminari:
Corso “lettura critica” degli studi clinici.
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Proprietà degli stimatori
Presupposti alla lezione
DISEGNO DI UNO STUDIO EPIDEMIOLOGICO
ERRORI L'errore è presente in ogni metodo analitico e può essere dovuto a cause diverse. L’errore può essere definito come la differenza tra il valore.
Analisi delle Decisioni Funzioni di utilita’ e lotterie
Ricerca non sperimentale: La ricerca survey (inchiesta)
La natura delle ipotesi
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
La piattaforma di BI si basa essenzialmente su un sistema di metadati centralizzato che garantisce la consistenza delle informazioni e consente la navigazione.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
LE RILEVAZIONI NEL SETTORE AGRICOLO (Loretta Lolli)
ALBERI DECISIONALI prima parte
Analisi della varianza (a una via)
PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Studente Claudia Puzzo
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi delle corrispondenze
Il Sistema Informativo e le
Cai Lin Lin Michela & Guidetti Emanuela presentano:
TECNICHE DI CAMPIONAMENTO DI POPOLAZIONI RARE O IN MANCANZA DI LISTE
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
STATISTICA PER LE DECISIONI DI MARKETING
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
TRATTAMENTO DEI DATI ANALITICI
STATISTICA PER LE DECISIONI DI MARKETING
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
Statistica La statistica è
Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari.
Variabili temporali Analisi statistica
La verifica d’ipotesi Docente Dott. Nappo Daniela
Psicologia come scienza:
Lezione B.10 Regressione e inferenza: il modello lineare
R. Soncini Sessa, MODSS, L 26 Stima degli effetti Calcolo degli obiettivi (Laplace) Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini.
IL CAMPIONE.
La pianificazione della produzione dei dati. Costituzione del gruppo di progettazione L’elevato grado di complessità e la multidisciplinarietà richiesta.
Test basati su due campioni Test Chi - quadro
Def : uno stimatore è una statistica T n le cui determinazioni servono a fornire delle stime del parametro ignoto  della v.c. X in cui sono state effettuate.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Disegno d’indagine Nella fase di definizione del disegno di indagine si individuano le modalità di rilevazione che soddisfano esigenze conoscitive su:
NB: La lettura delle slide è solo un supporto allo studio che non sostituisce i testi di esame Metodi e tecniche della ricerca sociale - Prof. Flavio Ceravolo.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
La ricerca sul campo.
ANALISI DELLA VARIANZA (ANOVA)
Accademia europea dei pazienti sull'innovazione terapeutica Lo scopo e i fondamenti della statistica negli studi clinici.
Pattern Recognition Lez.14: Miscugli di Gaussiane.
Campionamento procedimento attraverso il quale si estrae, da un insieme di unità (popolazione) costituenti l’oggetto delle studio, un numero ridotto di.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
ROMA 22 GIUGNO 2016 AREA TEMATICA 3. INNOVAZIONI E SPERIMENTAZIONI Ridisegno delle indagini sociali nell’ottica del censimento permanente INNOVAZIONI E.
Transcript della presentazione:

Il trattamento dei dati mancanti

Missing data Si distingue fra 2 tipi d dati mancanti L’errore determinato dalla mancanza d’espressione del dato rientra fra gli errori non campionari e si manifesta nella non partecipazione alla rilevazione di unità statistiche appartenenti al campione o nell’assenza di alcuni valori Si distingue fra 2 tipi d dati mancanti Mancate risposte TOTALI Mancate risposte PARZIALI

Le mancate risposte “totali” (unit non response) Si parla di mancata risposta “totale” quando mancano tutte le informazioni relative ad un individuo, così che nel database ci si trova di fronte ad un record di meno, ossia di una riga di meno nella matrice dei dati La presenza delle mancate risposte totali nei dati è un problema comune a tutte le basi di dati, comunque costituite Tutti gli strumenti adottabili per la prevenzione di tale fenomeno possono ridurne l'intensità, ma non riescono ad eliminarne del tutto la presenza Il rischio è che, come spesso accade, siano degli individui con determinate caratteristiche a non partecipare, inducendo una distorsione nei dati raccolti SELECTION BIAS

Che fare ? Il trattamento delle mancate risposte totali avviene a 3 livelli: in fase di rilevazione: richiami, sostituzioni, … in fase di editing: imputazione in fase di stima: riponderazione, post-stratificazione … N. B. Nel DM, 1. è impensabile, poiché si lavora sempre su dati provenienti da fonti secondarie 2. è la tecnica maggiormente utilizzata nel caso di mancate risposte parziali

Riponderazione Il metodo più diffuso di correzione consiste nella “riponderazione” delle unità. Assumendo note alcune caratteristiche della popolazione che si ritengono influenzare la non risposta totale, si partiziona il campione osservato e, con un meccanismo di post-stratificazione si ricostruiscono le proporzioni presenti nella popolazione, attraverso un opportuno sistema di pesi. L’assunzione forte che si fa è quella di un comportamento omogeneo, ai fini del fabbisogno conoscitivo, all’interno degli strati individuati

Le mancate risposte “parziali” (item non response) In presenza di un record con molti campi pieni, ma non tutti, o se i valori presenti appare non corretta o non valida, si parla di mancate risposte parziali Questo causa una cella vuota nella matrice dei dati

Valori non validi La localizzazione di valori non validi in un insieme di dati si basa su 3 tipi di controlli (o regole o edit) principali: controlli di consistenza: regole di incompatibilità fra campi diversi in una singola unità controlli di validità o di range controlli statistici: individuazione di valori anomali L’individuazione di valori non validi, anomali o incoerenti genera una cella vuota, assimilabile ad una mancata risposta parziale

L’imputazione di dati mancanti sostituzione dei valori mancanti o errati di un dato record con alternative coerenti e plausibili ottenute dai dati stessi (campionari e non), da fonti esterne o dalla combinazione di entrambi, in conformità a regole e metodi prestabiliti

Pro e Contro dell’imputazione Le procedure d’imputazione hanno l’obiettivo di ridurre le distorsioni introdotte dalla presenza di dati mancanti e di offrire, inoltre, maggiori garanzie sulla coerenza dei risultati derivati dalle analisi applicate, ma al contempo non confermano la generalità di tale riduzione, addirittura amplificando in taluni casi le distorsioni esistenti Mentre i produttori ufficiali di dati (es. ISTAT) hanno la necessità “istituzionale” di imputare i valori per fornirli agli utenti, indipendentemente dall’uso che questi ne faranno, sono stati sviluppati metodi statistici che non assegnano esplicitamente valori, ma includono il dato mancante all’interno della stessa analisi

Meccanismo di generazione È importante capire se i dati mancanti e i dati osservati hanno strutture comuni Si distinguono così diversi tipi di dati mancanti, ponendo come elemento cruciale da valutare, nel loro trattamento, se è possibile assumere che il meccanismo che gli ha generati sia trascurabile, oppure comporti delle distorsioni

Pattern di dati mancanti È utile capire se i dati mancanti e i dati osservati seguono o meno un certo andamento, e quindi se è possibile definire pattern che descriva i meccanismi che li determinano: ciò è utile per individuare le procedure più adatte per trattare quindi i dati mancanti, richiedendo i diversi approcci un differente impegno computazionale I pattern possono dipendere tanto dalla natura delle variabili quanto dall’aspetto del fenomeno che con esse si vuole investigare; è possibile considerare tre specifici pattern di dati (Huisman, 1999)

unit missing quando mancano interi blocchi di risposte Si parla di : unit missing quando mancano interi blocchi di risposte ad esempio, nel corso di studi di tipo longitudinale, i dati mancanti seguono questo modello quando parte dei soggetti decide di abbandonare l’indagine prematuramente, causando uno squilibrio nella matrice dei dati pattern monotono quando in uno stesso set di dati, l’insieme delle variabili yj ha più valori registrati dell’insieme delle variabili yj +1 (queste ultime sono cioè maggiormente soggette a non risposta) pattern di dati quando alcune caratteristiche vengono rilevate solo per un sottoinsieme di casi, si parla allora di missing by design

La struttura dei dati – Il Campione Assunto che il collettivo di riferimento sia costituito da N unità statistiche e che si considerino K variabili, la matrice dei dati iniziale sarà allora costituita da NxK elementi Indicate le variabili di selezione del campione con Yc e le variabili utilizzate nell’indagine con Yq, è possibile definire una variabile Di che assuma valore 1 se l’i-ma unità è campionata e valore 0 nel caso contrario: in tale circostanza, supposto che il procedimento utilizzato per la selezione del campione sia di tipo probabilistico, si considera trascurabile (ignorable) il meccanismo che porta alla perdita di una parte delle informazioni

È però possibile che il piano di campionamento scelto dai ricercatori non sia efficiente, o che sia riscontrabile un alto tasso di non rispondenti tra le unità selezionate: in questi casi è difficile tenere sotto controllo la presenza di dati mancanti e non è possibile trascurare le cause che hanno prodotto tale mancanza Indicate con Yq le variabili oggetto d’indagine, è possibile definire una variabile Rij che assuma 1 se l’unità risponde e 0 nel caso contrario: in presenza di dati mancanti è necessario considerare se il meccanismo che determina non risposta è trascurabile o no Si consideri, una variabile X non soggetta a non risposta, per la quale sia possibile registrare n determinazioni campionarie: si supponga, ad esempio, che la variabile X sia una variabile di struttura (sesso, età, titolo di studio, e così via), mentre la variabile Y rappresenti il reddito annuo dell’intervistato

? Missing at random ? La probabilità di risposta ad Y dipende: dalla variabile X e dalla variabile Y da X ma non da Y da X ed eventualmente anche da Y ?

Missing completely at random Se la probabilità di risposta è indipendente sia da X che da Y si dice che i dati mancanti sono missing at random e che i dati osservati sono observed at random, o più semplicemente che i dati mancanti sono Missing Completely At Random (MCAR): in questo caso i valori osservati della variabile Y formano un sottocampione casuale dei valori già campionati

Missing at random Se la probabilità di risposta dipende da X ma non da Y, si dice che i dati mancanti sono missing at random (MAR): il pattern che definisce il meccanismo di non risposta è ricostruibile o prevedibile dalle altre variabili coinvolte nell’indagine (piuttosto che dalla specifica variabile per la quale mancano alcune determinazioni), dette mechanism variables Es.: studio sul livello d’ansietà di alcuni individui nel tempo: i partecipanti con un basso livello di autostima saranno meno propensi ad essere coinvolti nelle successive sessioni di ricerca, così il ricercatore può utilizzare tale parametro per prevedere il modello di non risposta

Missing not at random Se la probabilità di risposta dipende da entrambe le variabili il meccanismo che causa la non risposta non è trascurabile e si parla di missing not at random (NMAR) Es.:e un partecipante ad uno studio sulla perdita di peso non si presenta ad una delle verifiche periodiche, i dati relativi potrebbero mancare per fattori non trascurabili: in contrasto con il caso precedente, il meccanismo che determina la perdita di informazioni può essere spiegato soltanto dalla variabile che presenta mancanze

Le principali strategie per il trattamento dei dati mancanti 1 Procedure basate sull’analisi delle unità completamente registrate non si considerano nell’analisi le unità per le quali manca, in alcuni campi, la registrazione dei valori PRO facile piccole quantità di dati mancanti CONTRO rischio di distorsione, riconducibile ad una selection bias

Le principali strategie per il trattamento dei dati mancanti 2 Procedure basate sull’imputazione tecniche d’imposizione di codici plausibili in modo da creare un set di dati completo che può poi essere analizzato con le tecniche standard PRO apparentemente elimina il problema CONTRO rischio di errore ulteriore: il codice forzato è plausibile (ma è considerato “vero”) N.B. Di regola mirano a preservare l’accuratezza delle statistiche di sintesi

Le principali strategie per il trattamento dei dati mancanti 3 Procedure basate su modelli questa classe generale di procedure prevede che sia generato un modello per i dati parzialmente mancanti, il procedimento inferenziale è quindi basato sulla verosimiglianza sotto quel particolare modello PRO non ha i rischi dei casi precedenti CONTRO non esplicita un valore imputato, ma lo ingloba implicitamente nell’analisi

Strategia 1 Si consideri la matrice dei dati (n, k): si eliminano le unità per le quali mancano alcuni valori, e l’analisi si effettua solo sulle m < n unità complete (complete-case analysis): si riduce l’informazione, ma non si modificanoi dati rilevati per svolgere analisi standard listwise deletion: si escludono le unità per cui manca anche un solo valore (è il default dai più diffusi software statistici, come SAS o SPSS) la pairwise deletion, più complessa, prevede l’inclusione di un’unità solo se vengono registrati i valori relativi ad una predeterminata coppia di variabili delle quali si vuole stimare la correlazione: tale soluzione fornisce la miglior stima per ogni correlazione, e utilizza tutte le informazioni disponibili per quell’obiettivo

Strategia 2 Es.: imputazione della MEDIA imputazione della MEDIANA Le procedure d’imputazione possono favorire la riduzione delle distorsioni introdotte dalla presenza di dati mancanti, costruendo valori coerenti, ma al contempo non confermano l’universalità di tale riduzione, addirittura amplificando in taluni casi le distorsioni esistenti L’immissione di dati effettuata ricorrendo a codici casuali, o ottenuti formulando congetture, comporta notevoli rischi: il sistema migliore per trattare i dati mancanti, secondo alcuni studiosi, è quello di utilizzare il codice “nessuna risposta”, rimandando la valutazione del fenomeno alla fase d’interpretazione dei risultati (Es. SPAD, di default) Es.: imputazione della MEDIA imputazione della MEDIANA HOT DECK IMPUTATION Principali problemi: attenzione alla riduzione di variabilità!!!

Hot Deck Imputation La ragione primaria per ricorrere a procedure hot deck è la necessità di ridurre le distorsioni prodotte dal verificarsi del fenomeno delle mancate risposte L’imputazione hot deck utilizza processi di classificazione di tutte le unità in gruppi distinti e quanto più omogenei all’interno, in base a caratteristiche precise stabilite di volta in volta in relazione al contesto dell’analisi: per ogni valore mancante si imputa un valore presente nello stesso gruppo, sotto l’assunzione che all’interno dei gruppi definiti i non rispondenti seguono la stessa distribuzione dei rispondenti

Hot Deck Imputation - Varianti hot deck imputation within adjustment cells una volta costruite le celle d’aggiustamento, s’imputano i valori mancanti in ogni singola cella scegliendo tra i valori registrati nelle stesse nearest neighbor hot deck imputation prevede la definizione di una metrica per misurare la distanza tra le diverse unità, e scegliendo quindi come valori da imputare quelli relativi alle unità rispondenti più vicine a quelle che sono invece affette da incompletezza

Multiple Imputation L’imputazione multipla è stata proposta da Rubin (1987) e consiste nel sostituire ogni valore mancante con un insieme di valori plausibili, così da preservare l’incertezza circa il valore “vero” che si vorrebbe ricostruire Questi valori multipli costituiscono diversi data set che vengono analizzati individualmente con le consuete misure standard per dati completi e i diversi risultati di queste analisi vengono combinati in un momento successivo

Strategia 3 L’algoritmo EM (Expectation-Maximization) I metodi basati sui modelli non si pongono l’obiettivo di identificare un opportuno valore da assegnare al record con valori mancanti, ma piuttosto di utilizzare tutta l’informazione disponibile per preservare le strutture di associazione e correlazione presente nei dati Uno degli strumenti più noti è: L’algoritmo EM (Expectation-Maximization) Consente di effettuare stime di Massima Verosimiglianza dei parametri di interesse su set di dati incompleti, come se fossero completi

L’algoritmo EM Dato un modello statistico, un insieme di dati osservati Yobs, un insieme di dati mancanti Ymis e un vettore di parametri ignoti q, partendo da una stima iniziale q(0) (starting guess), l’algoritmo consiste, ad ogni iterazione t di 2 passi: E-step calcolo del valore atteso H(q, q(t-1)) della verosimiglianza L(q|Yobs) rispetto alla distribuzione dei dati mancanti Ymis condizionatamente ai dati osservati e alle stime correnti dei parametri H(q , q(t-1)) ≡ M-step massimizzazione di H(q , q(t)) rispetto a q. L’algoritmo genera una successione {q (t)}t=1,2,.. che, sotto alcune ipotesi di regolarità, si dimostra (Dempster et al., 1977) convergere alla stima di massima verosimiglianza di q.