Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari.

Slides:



Advertisements
Presentazioni simili
VARIABILITA’ BIOLOGICA E VALORI DI RIFERIMENTO
Advertisements

8) GLI INTERVALLI DI CONFIDENZA
I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
Il Disegno Campionario
Alcuni aspetti chiave e preliminari:
Corso “lettura critica” degli studi clinici.
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
L’EPIDEMIOLOGIA CLINICA
2 Marketing La ricerca di marketing J. Paul Peter
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Campione e campionamento
Analisi preliminari dei dati
CAMPIONE E CAMPIONAMENTO
Progetto Pilota 2 Lettura e interpretazione dei risultati
Inferenza statistica per un singolo campione
Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
CAMPIONAMENTO Estratto dal Cap. 5 di:
RUOLO DELLA STATISTICA MEDICA nella LAUREA di BASE ed in quella SPECIALISTICA ATTITUDINI CONOSCENZE ABILITÀ
INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (1)
Obiettivi del corso di Statistica Medica.
ALBERI DECISIONALI prima parte
Analisi della varianza (a una via)
Introduzione alla statistica per la ricerca Lezione I
Appunti di inferenza per farmacisti
La disposizione a valutare il campione di popolazione che è assistito dal singolo medico è sufficiente per condurre una ricerca clinica autonoma? Quale.
ALCUNI TERMINI: POPOLAZIONE CAMPIONE CAMPIONAMENTO INFERENZA STATISTICA PARAMETRI (ad es. ) STIMATORI (ad es. x) n: DIMENSIONE DEL CAMPIONE MISURE.
di cosa si occupa la statistica inferenziale?
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Statistica sociale Modulo A
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Pedagogia sperimentale
Verifica delle ipotesi su due campioni di osservazioni
DIPARTIMENTO DI MEDICINA MOLECOLARE
I principali tipi di grafici
Le distribuzioni campionarie
Statistica Che cos’è?.
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
CAMPIONAMENTO DI REVISIONE CONTABILE
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Alessandra Burgio Roberta Crialesi Paola Di Filippo Lidia Gargiulo
Statistica La statistica è
Analisi Bivariata: Test Statistici
Esercizi riepilogativi Analisi Univariata e Bivariata
Selezione e armonizzazione delle variabili della base dati Health-Search e dell’indagine Istat sulle condizioni di salute Vincenzo Atella Federico Belotti.
La statistica.
Esame di Analisi Multivariata dei Dati
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Le distribuzioni campionarie
Test basati su due campioni Test Chi - quadro
Analisi discriminante lineare - contesto
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
Basi di FarmacoEconomia II
Intervalli di confidenza
Esercizio 1. Quesiti esercizio 1 Distribuzione congiunta: dalla definizione di distribuzione condizionale.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
SEGMENTAZIONE del mercato.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
Correlazione e regressione lineare
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Campionamento procedimento attraverso il quale si estrae, da un insieme di unità (popolazione) costituenti l’oggetto delle studio, un numero ridotto di.
ROMA 23 GIUGNO 2016 LABORATORIO NUMERACY Big data nel settore assicurativo e sanitario LABORATORIO NUMERACY Big Data. Metodi statistici per la società.
Stefano Lombardo SPAZIO CONFRONTI La soddisfazione dei cittadini nei confronti dei servizi pubblici – 2015 Istituto Provinciale di Statistica, Bolzano.
Transcript della presentazione:

Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari F. Vantaggi B. (Università di Roma ‘La Sapienza’) 24 giugno 2014

Indice 1.Contesto informativo: peculiarità e opportunità per integrazione 2.Contesto metodologico: statistical matching 3.Statistical matching con variabili misclassificate Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

 Nelle 2 fonti non vengono osservate le stesse unità statistiche  La fonte HS è un campione non aleatorio  Unità rispondenti diverse: IS gli individui della famiglia (soggetto dell’inferenza), HS i medici di base. Possono esserci degli effetti sulla risposta dovuti a questa differenza. Per esempio nel caso degli individui si può avere un effetto ‘percezione’ della malattia che non è invece presente nel medico che basa la sua classificazione su dati oggettivi Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Contesto informativo - Elementi per integrazione

 Valutazione e trattamento della misclassificazione derivante da ‘percezione’ della malattia  Analisi di variabili osservate rispettivamente in due fonti informative differenti Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Potenzialità metodi di integrazione fra IS-HS

 La non osservazione di unità in comune e la presenza di variabili in comune Statistical Matching  Si sfruttano le informazioni delle variabili in comune per fare inferenza sulle variabili osservate separatamente nelle due fonti di dati - e.g., previsione del dato micro Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Integrazione: statistical matching

 Nelle procedure classiche di matching (per es. imputazione con media della Y per profilo di unità dato dalle X) si sta assumendo l’indipendenza di Y (osservata in IS) e Z (in HS) dato X  Assumiamo che la conoscenza di X sia fortemente esplicativa del comportamento congiunto di Y e Z  Problema: ipotesi non testabile con i dati a disposizione Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Statistical matching sotto indipendenza condizionale

 Esempio: supponiamo che Y sia livello di educazione osservata solo in IS, Z = spesa per farmaci, X=classe di età, sesso, ripartizione geografica.  Prediciamo in IS la spesa per farmaci tramite la media della spesa osservata in una determinata X stimata su HS  Quando andiamo ad analizzare congiuntamente Y e Z è evidente che stiamo assumendo che ogni individuo in X (stesso sesso, età,…) abbia la stessa spesa per ogni livello di educazione. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Statistical matching sotto indipendenza condizionale

 Analisi dell'incertezza, i.e., analisi dello spazio di identificabilità del modello  Nel caso di variabili categoriali consiste nel calcolare gli estremi superiori ed inferiori delle frequenze di ogni singola (Y,Z) cella compatibili con le frequenze osservate in IS di (Y,X) e (Z,X) in HS Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Un metodo per fare inferenza oltre indipendenza condizionata (IC)

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica ??0.8 ??

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica 0.8? ??

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica ??0.8 ??

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica 0.7?0.8 ??

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica [0.7, 0.8][0, 0.1]0.8 [0.1, 0.2][0, 0.1]

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica sotto indipendenza

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Un metodo per fare inferenza oltre Indipendenza condizionata (IC)

 L’ampiezza media dell’incertezza da un indicazione sulla incertezza insita nel processo di matching  La distribuzione ottenuta con IC è sempre interna agli intervalli, quindi valutazione indiretta dell’applicazione di matching basata su IC Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Analisi dell’incertezza del matching

 HS campione non aleatorio  Possibile misclassificazione dovuta alla percezione dell’individuo Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Peculiarità dell’integrazione tra IS e HS

 È stato adottato un approccio basato sul calcolo di “pseudo design- based weight”.  Il calcolo di questo peso si basa sulla interpretazione euristica che ogni unità rappresenti le altre unità non campionate.  I pesi sono ottenuti tramite post-stratificazione rispetto ai totali noti della numerosità della popolazione per classe di età, sesso, ripartizione geografica. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Campione non probabilistico

 La post-stratificazione elimina il bias dovuto a problemi di selezione se, all’interno di ciascuna cella di aggiustamento, la probabilità che ogni unità risponda è indipendente dal valore assunto dall’unità per ciò che concerne le variabili oggetto di interesse.  Un altro modo di spiegare questa ipotesi è che i rispondenti ed i non- rispondenti in una data cella hanno la stessa distribuzione riguardo la variabile di interesse  In letteratura nota come ipotesi MAR Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Assunzioni

Sviluppo di metodi sotto IC e analisi incertezza che tengano conto della misclassificazione di alcune X Si ipotizza un modello classico per trattare variabili misclassificate Due contesti 1.Integrazione sotto IC avendo osservato (Y,X), (Z,X*) 2. Analisi dell’incertezza relativamente ai modelli compatibili con le distribuzioni osservate (Y,X), (Z,X*) Ipotesi: si prende come variabile X* di riferimento quella osservata in HS Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Matching con variabili misclassificate

Sia X la prevalenza osservata con misclassificazione e X* quella osservata correttamente, le ipotesi sono 1.P(X=0|X*=0)=1 2.P(X=1|X*=1,W=w) = λ w  Nel caso di variabili dicotomiche si ottiene che la probabilità di misclassificazione λ w =P(X=1|W=w)/P(X*=1|W=w)  La stima è stata ottenuta sostituendo le frequenze pesate Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Contesto 1 – Modello di misclassificazione

 Tramite P(X*=i|X=i,W=w), i=0,1 è stato previsto in IS la prevalenza condizionatamente al dato osservato X=i e w.  Con questa variabile corretta è stato poi condotto il matching sotto IC  Metodo : hot-deck per celle di imputazione. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Contesto 1 – Statistical Matching sotto IC

Si risolve il sistema tramite l’algoritmo sviluppato in [1] che fornisce gli estremi di ogni singola cella p min <= p(Y=y,Z=z)<=p max per ogni y,z [1] Capotorti Vantaggi, Locally strong coherence in inferential processes (2002) Annals of Mathematics and Artificial Intelligence, vol. 35 pp Contesto 2 - Analisi incertezza con misclassificazione

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Ulteriori sviluppi  Approfondimento su metodi alternativi per utilizzo di un campione non aleatorio (propensity score matching, inferenza da modello)  Approfondimento su come combinare stime ottenute da un campione probabilistico e non-probabilistico  Analisi incertezza senza assumere alcun modello di misclassificazione