La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Metodi statistici per lintegrazione di dati provenienti da fonti diverse Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto.

Presentazioni simili


Presentazione sul tema: "Metodi statistici per lintegrazione di dati provenienti da fonti diverse Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto."— Transcript della presentazione:

1 Metodi statistici per lintegrazione di dati provenienti da fonti diverse Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto

2 Sommario 1)Cosa vuol dire integrazione 2)Record linkage: perché 3)Il metodo di Fellegi e Sunter 4)Come risolvere il problema con RELAIS

3 Cosa vuol dire integrazione Integrare i dati: non è solo un problema informatico: ma sono necessarie analisi e procedure statistiche! La procedura di integrazione può essere soggetta a errore: bisogna misurarlo Diversi tipi di integrazione a seconda delle caratteristiche dei data set

4 Primo problema di integrazione Nomeetàreddito Aldo Bianchi Giulia Rossi Carlo Verdi ……… Nomeetàspese Aldo Bianchi Pino Bianchi Carlo Rossi ……… Questo problema prende il nome di record linkage (abbinamento esatto) Bisogna cercare i record che appartengono allo stesso individuo

5 Secondo problema di integrazione Nomeetàreddito Aldo Bianchi Giulia Rossi Carlo Verdi ……… Nomeetàspese Anna Gialli Pino Bianchi Carlo Rossi ……… Questi data set non hanno unità in comune, ma hanno variabili che è interessante studiare insieme Le tecniche da usare vanno sotto il nome di statistical matching, o abbinamento statistico

6 Abbinamento statistico Labbinamento statistico può essere svolto anche su dati aggregati. Esempio: elezioni 1990, Ohio Dem.Rep.Asten. Neri??? Bianchi??? Possibile ottenere informazioni sul legame fra gruppo etnico e voto? Dem.Rep.Asten. Neri Bianchi Dem.Rep.Asten. Neri Bianchi Dem.Rep.Asten. Neri Bianchi Disponibile dalle liste elettorali Disponibile al termine delle elezioni

7 Abbinamento statistico: esempi Abbinamento fra indagine sui consumi e quella sui redditi Abbinamento fra indagine sui redditi e campione anonimo di record fiscali Data set per microsimulazione

8 Abbinamento statistico Dem.Rep.Asten. Neri0-25%0-14%30-61%69% Bianchi0-25%0-14%0-31%31% 25%14%61%100% Abbinamento statistico = spremere i dati! Riprendiamo lesempio delle elezioni in Ohio Dem.Rep.Asten. Neri69% Bianchi31% 25%14%61%100% Questa è una informazione in più rispetto alle marginali!

9 Bibliografia Kadane, J.B. (1978), Some statistical problems in merging data files. In Compendium of tax research, Department of Treasury, U.S. Gov- ernement Printing Office, Washington D.C., (Reprinted in 2001, Journal of Official Statistics,17, ). King, G. (1997), A Solution to the Ecological Inference Problem, Princeton University Press, Princeton. DOrazio, M., Di Zio, M., Scanu, M. (2006b), Statistical Matching: Theory and Practice, Wiley Conti, P.L., Marella, D., Scanu M. (2012) Uncertainty Analysis in Statistical Matching, Journal of Official Statistics, pp. 69–88

10 Abbinamento esatto Il libro della vita Dunn (1946)* descrive il record linkage in questi termini …each person in the world creates a book of life. The book starts with the birth and ends with the death. Its pages are made up of all the principal events of life. Record linkage is the name given to the process of assembling the pages of this book into one volume. The person retains the same identity throughout the book. Except for advancing age, he is the same person… *Dunn (1946) "Record Linkage". American Journal of Public Health 36 (12): 1412–1416.

11 Le motivazioni 1.informazione congiunta su due o più variabili osservate su fonti diverse 2.contare una popolazione 3.sostituire parti di indagini con archivi 4.creazione di una lista di una popolazione 5.altri obiettivi di statistica ufficiale (imputazione ed editing/migliorare la qualità del micro dato; studio del rischio di identificazione dei microdati rilasciati)

12 Record Linkage - caso semplice A NomeCognomeCAPData di nascita Luogo di nascita Codice fiscale MarioRossi /05/70RomaRSSMRA70E18 H501T B NomeCognomeCAPData di nascita Luogo di nascita Codice fiscale RSSMRA70E18 H501T I due record si agganciano tramite il codice fiscale!

13 Record Linkage - caso meno semplice A NomeCognomeCAPData di nascita Luogo di nascita Codice fiscale MarioRossi /05/70RomaRSSMRA70E18 H501T B NomeCognomeCAPData di nascita Luogo di nascita Codice fiscale MarioRossi /05/70Roma--- I due record si agganciano tramite un insieme di variabili comuni che identificano i record

14 Record Linkage - caso più complicato A NomeCognomeCAPData di nascita Luogo di nascita Codice fiscale MarioRossi /05/70RomaRSSMRA70E18 H501T B NomeCognomeCAPData di nascita Luogo di nascita Codice fiscale M.Russi maggio 1970 Ostia I due record si agganciano tramite un insieme di variabili comuni che identificano i record e sono affetti da errori o problemi

15 Record Linkage - caratteristiche Se esiste un codice identificativo o un insieme di variabili che può svolgere il compito di un codice identificativo, il problema del ricongiungimento dei record di due data set è banale. I metodi per il record linkage si occupano del caso in cui un unico codice identificativo non cè, e le restanti variabili sono in grado di identificare le unità ma sono riportate con errore.

16 Schema delle operazioni Selezione delle variabili di matching e blocking Editing delle variabili blocking Metodo deterministico Metodo probabilistico Definizione regole Modello/stima valutazione Soglie per le decisioni Output: 1:1 o molti a molti Revisione manuale Valutazione errori negli abbinamenti Preelaborazioni Record linkage Analisi

17 Dati due file A e B di numerosità NA e NB, si consideri linsieme di cardinalità N=NA NB Ω = {(a,b), a A e b B}. Si vogliono classificare le coppie in Ω nei due insiemi M e U tali che: M = insieme delle coppie U = insieme delle non coppie con M U = Ω, M U =. Formalizzazione del problema

18 Le variabili di confronto Si selezionano le k variabili di matching (tra quelle comuni ai due data sets e identificative dellunità) Per ogni coppia (a,b) Ω, si definisce un vettore i cui K elementi sono il risultato del confronto tra le variabili di matching. Ad esempio

19 Frequenze La Tabella di Contingenza

20 (a,b) M (a,b) U Il modello mistura

21 Il peso di abbinamento Fellegi e Sunter (1969) introducono una funzione costituita dal rapporto di verosimiglianza sulla base del quale le coppie (a,b) possono essere ordinate e sottoposte ad un processo di classificazione negli insiemi M e U

22 La regola di decisione Il criterio di classificazione è basato su due livelli di soglia scelti in modo opportuno che assegnano le coppie a tre possibili sottoinsiemi M*, Q, U*

23 (a,b) M (a,b) U f r Q U*U* M*M* TmTm La regola di decisione TuTu

24 Le Fasi di un progetto di Record Linkage come proposte in RELAIS Preparazione dei files di input (pre-processing); Riduzione dello spazio di ricerca delle coppie candidate; Selezione degli attributi identificativi comuni (variabili di matching); Scelta della funzione di confronto; Scelta del modello di decisione; Stima delle probabilità di abbinamento (1) Valutazione delladattamento del modello ai dati (1) Assegnazione delle coppie (a,b) allo stato di abbinato o non abbinato Selezione degli abbinamenti univoci Valutazione dei risultati del Record linkage. (1) fase caratteristica dei metodi probabilistici

25 Bibliografia Scanu M. (2003) Metodi Statistici per il record linkage, Metodi e Norme - n.16, Istat Batini C., Scannapieco M. (2006) Data Quality: Concepts, Methods, and Techniques, Springer. Herzog T.N., Scheuren F.J., Winler E.W. (2007) Data quality and record linkage techniques, Springer. RELAIS: https://joinup.ec.europa.eu/software/relais/description


Scaricare ppt "Metodi statistici per lintegrazione di dati provenienti da fonti diverse Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto."

Presentazioni simili


Annunci Google