Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari.

Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari F. Vantaggi B. (Università di Roma ‘La Sapienza’) 24 giugno 2014

Indice 1.Contesto informativo: peculiarità e opportunità per integrazione 2.Contesto metodologico: statistical matching 3.Statistical matching con variabili misclassificate Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

 Nelle 2 fonti non vengono osservate le stesse unità statistiche  La fonte HS è un campione non aleatorio  Unità rispondenti diverse: IS gli individui della famiglia (soggetto dell’inferenza), HS i medici di base. Possono esserci degli effetti sulla risposta dovuti a questa differenza. Per esempio nel caso degli individui si può avere un effetto ‘percezione’ della malattia che non è invece presente nel medico che basa la sua classificazione su dati oggettivi Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Contesto informativo - Elementi per integrazione

 Valutazione e trattamento della misclassificazione derivante da ‘percezione’ della malattia  Analisi di variabili osservate rispettivamente in due fonti informative differenti Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Potenzialità metodi di integrazione fra IS-HS

 La non osservazione di unità in comune e la presenza di variabili in comune Statistical Matching  Si sfruttano le informazioni delle variabili in comune per fare inferenza sulle variabili osservate separatamente nelle due fonti di dati - e.g., previsione del dato micro Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Integrazione: statistical matching

 Nelle procedure classiche di matching (per es. imputazione con media della Y per profilo di unità dato dalle X) si sta assumendo l’indipendenza di Y (osservata in IS) e Z (in HS) dato X  Assumiamo che la conoscenza di X sia fortemente esplicativa del comportamento congiunto di Y e Z  Problema: ipotesi non testabile con i dati a disposizione Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Statistical matching sotto indipendenza condizionale

 Esempio: supponiamo che Y sia livello di educazione osservata solo in IS, Z = spesa per farmaci, X=classe di età, sesso, ripartizione geografica.  Prediciamo in IS la spesa per farmaci tramite la media della spesa osservata in una determinata X stimata su HS  Quando andiamo ad analizzare congiuntamente Y e Z è evidente che stiamo assumendo che ogni individuo in X (stesso sesso, età,…) abbia la stessa spesa per ogni livello di educazione. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Statistical matching sotto indipendenza condizionale

 Analisi dell'incertezza, i.e., analisi dello spazio di identificabilità del modello  Nel caso di variabili categoriali consiste nel calcolare gli estremi superiori ed inferiori delle frequenze di ogni singola (Y,Z) cella compatibili con le frequenze osservate in IS di (Y,X) e (Z,X) in HS Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Un metodo per fare inferenza oltre indipendenza condizionata (IC)

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica ??0.8 ??0.2 0.90.11

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica 0.8? ??0.2 0.90.11

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica 0.80 0.1 0.2 0.90.11

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica ??0.8 ??0.2 0.90.11

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica 0.7?0.8 ??0.2 0.90.11

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica 0.70.10.8 0.20 0.90.11

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica [0.7, 0.8][0, 0.1]0.8 [0.1, 0.2][0, 0.1]0.2 0.90.11

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica sotto indipendenza 0.720.080.8 0.180.020.2 0.90.11

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Un metodo per fare inferenza oltre Indipendenza condizionata (IC)

 L’ampiezza media dell’incertezza da un indicazione sulla incertezza insita nel processo di matching  La distribuzione ottenuta con IC è sempre interna agli intervalli, quindi valutazione indiretta dell’applicazione di matching basata su IC Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Analisi dell’incertezza del matching

 HS campione non aleatorio  Possibile misclassificazione dovuta alla percezione dell’individuo Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Peculiarità dell’integrazione tra IS e HS

 È stato adottato un approccio basato sul calcolo di “pseudo design- based weight”.  Il calcolo di questo peso si basa sulla interpretazione euristica che ogni unità rappresenti le altre unità non campionate.  I pesi sono ottenuti tramite post-stratificazione rispetto ai totali noti della numerosità della popolazione per classe di età, sesso, ripartizione geografica. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Campione non probabilistico

 La post-stratificazione elimina il bias dovuto a problemi di selezione se, all’interno di ciascuna cella di aggiustamento, la probabilità che ogni unità risponda è indipendente dal valore assunto dall’unità per ciò che concerne le variabili oggetto di interesse.  Un altro modo di spiegare questa ipotesi è che i rispondenti ed i non- rispondenti in una data cella hanno la stessa distribuzione riguardo la variabile di interesse  In letteratura nota come ipotesi MAR Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Assunzioni

Sviluppo di metodi sotto IC e analisi incertezza che tengano conto della misclassificazione di alcune X Si ipotizza un modello classico per trattare variabili misclassificate Due contesti 1.Integrazione sotto IC avendo osservato (Y,X), (Z,X*) 2. Analisi dell’incertezza relativamente ai modelli compatibili con le distribuzioni osservate (Y,X), (Z,X*) Ipotesi: si prende come variabile X* di riferimento quella osservata in HS Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Matching con variabili misclassificate

Sia X la prevalenza osservata con misclassificazione e X* quella osservata correttamente, le ipotesi sono 1.P(X=0|X*=0)=1 2.P(X=1|X*=1,W=w) = λ w  Nel caso di variabili dicotomiche si ottiene che la probabilità di misclassificazione λ w =P(X=1|W=w)/P(X*=1|W=w)  La stima è stata ottenuta sostituendo le frequenze pesate Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Contesto 1 – Modello di misclassificazione

 Tramite P(X*=i|X=i,W=w), i=0,1 è stato previsto in IS la prevalenza condizionatamente al dato osservato X=i e w.  Con questa variabile corretta è stato poi condotto il matching sotto IC  Metodo : hot-deck per celle di imputazione. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Contesto 1 – Statistical Matching sotto IC

Si risolve il sistema tramite l’algoritmo sviluppato in [1] che fornisce gli estremi di ogni singola cella p min <= p(Y=y,Z=z)<=p max per ogni y,z [1] Capotorti Vantaggi, Locally strong coherence in inferential processes (2002) Annals of Mathematics and Artificial Intelligence, vol. 35 pp. 125-149 Contesto 2 - Analisi incertezza con misclassificazione

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Ulteriori sviluppi  Approfondimento su metodi alternativi per utilizzo di un campione non aleatorio (propensity score matching, inferenza da modello)  Approfondimento su come combinare stime ottenute da un campione probabilistico e non-probabilistico  Analisi incertezza senza assumere alcun modello di misclassificazione

Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari.

Presentazioni simili

Presentazione sul tema: "Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari.

Presentazioni simili

Presentazione sul tema: "Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back