La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto

Presentazioni simili


Presentazione sul tema: "Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto"— Transcript della presentazione:

1 Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto
Metodi statistici per l’integrazione di dati provenienti da fonti diverse  

2 Sommario Cosa vuol dire integrazione Record linkage: perché
Il metodo di Fellegi e Sunter Come risolvere il problema con RELAIS

3 Cosa vuol dire integrazione
Integrare i dati: non è solo un problema informatico: ma sono necessarie analisi e procedure statistiche! La procedura di integrazione può essere soggetta a errore: bisogna misurarlo Diversi tipi di integrazione a seconda delle caratteristiche dei data set

4 Primo problema di integrazione
Questo problema prende il nome di record linkage (abbinamento esatto) Nome età reddito Aldo Bianchi 30 25000 Giulia Rossi 20 14500 Carlo Verdi 45 38000 Nome età spese Aldo Bianchi 30 30000 Pino Bianchi 27000 Carlo Rossi 45 20000 Bisogna cercare i record che appartengono allo stesso individuo

5 Secondo problema di integrazione
Le tecniche da usare vanno sotto il nome di statistical matching, o abbinamento statistico Nome età reddito Aldo Bianchi 30 25000 Giulia Rossi 20 14500 Carlo Verdi 45 38000 Nome età spese Anna Gialli 30 32000 Pino Bianchi 27000 Carlo Rossi 45 20000 Questi data set non hanno unità in comune, ma hanno variabili che è interessante studiare insieme

6 Abbinamento statistico
L’abbinamento statistico può essere svolto anche su dati aggregati. Esempio: elezioni 1990, Ohio Disponibile dalle liste elettorali Dem. Rep. Asten. Neri 55 054 Bianchi 25 760 80760 Dem. Rep. Asten. Neri 55 054 Bianchi 25 760 19896 10936 49928 80760 Dem. Rep. Asten. Neri Bianchi Dem. Rep. Asten. Neri ? 55 054 Bianchi 25 760 19896 10936 49928 80760 Possibile ottenere informazioni sul legame fra gruppo etnico e voto? Disponibile al termine delle elezioni

7 Abbinamento statistico: esempi
Abbinamento fra indagine sui consumi e quella sui redditi Abbinamento fra indagine sui redditi e campione anonimo di record fiscali Data set per microsimulazione

8 Abbinamento statistico
Abbinamento statistico = “spremere” i dati! Riprendiamo l’esempio delle elezioni in Ohio Dem. Rep. Asten. Neri 0-25% 0-14% 30-61% 69% Bianchi 0-31% 31% 25% 14% 61% 100% Dem. Rep. Asten. Neri 69% Bianchi 31% 25% 14% 61% 100% Questa è una informazione in più rispetto alle marginali!

9 Bibliografia Kadane, J.B. (1978), Some statistical problems in merging data files. In Compendium of tax research, Department of Treasury, U.S. Gov- ernement Printing Office, Washington D.C., (Reprinted in 2001, Journal of Official Statistics,17, ). King, G. (1997), A Solution to the Ecological Inference Problem, Princeton University Press, Princeton. D’Orazio, M., Di Zio, M., Scanu, M. (2006b), Statistical Matching: Theory and Practice, Wiley Conti, P.L., Marella, D., Scanu M. (2012) Uncertainty Analysis in Statistical Matching, Journal of Official Statistics, pp. 69–88

10 Abbinamento esatto “Il libro della vita”
Dunn (1946)* descrive il record linkage in questi termini …each person in the world creates a book of life. The book starts with the birth and ends with the death. Its pages are made up of all the principal events of life. Record linkage is the name given to the process of assembling the pages of this book into one volume. The person retains the same identity throughout the book. Except for advancing age, he is the same person… *Dunn (1946) "Record Linkage". American Journal of Public Health 36 (12): 1412–1416.

11 Le motivazioni informazione congiunta su due o più variabili osservate su fonti diverse “contare” una popolazione sostituire parti di indagini con archivi creazione di una “lista” di una popolazione altri obiettivi di statistica ufficiale (imputazione ed editing/migliorare la qualità del micro dato; studio del rischio di identificazione dei microdati rilasciati)

12 Record Linkage - caso semplice
Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T B Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale RSSMRA70E18H501T I due record si agganciano tramite il codice fiscale!

13 Record Linkage - caso meno semplice
Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T B Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 00125 18/05/70 Roma --- I due record si agganciano tramite un insieme di variabili comuni che identificano i record

14 Record Linkage - caso più complicato
Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T B Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale M. Russi 00152 18 maggio 1970 Ostia I due record si agganciano tramite un insieme di variabili comuni che identificano i record e sono affetti da errori o “problemi”

15 Record Linkage - caratteristiche
Se esiste un codice identificativo o un insieme di variabili che può svolgere il compito di un codice identificativo, il problema del ricongiungimento dei record di due data set è banale. I metodi per il record linkage si occupano del caso in cui un unico codice identificativo non c’è, e le restanti variabili sono in grado di identificare le unità ma sono riportate con errore.

16 Schema delle operazioni
Preelaborazioni Selezione delle variabili di matching e blocking Editing delle variabili blocking Metodo probabilistico Metodo deterministico Record linkage Modello/stima valutazione Definizione regole Soglie per le decisioni Analisi Output: 1:1 o molti a molti Revisione manuale Valutazione errori negli abbinamenti

17 Formalizzazione del problema
Dati due file A e B di numerosità NA e NB , si consideri l’insieme di cardinalità N=NANB Ω = {(a,b), a∈A e b∈B}. Si vogliono classificare le coppie in Ω nei due insiemi M e U tali che: M = insieme delle coppie U = insieme delle non coppie con M  U = Ω , M  U =  .

18 Le variabili di confronto
Si selezionano le k variabili di matching (tra quelle comuni ai due data sets e identificative dell’unità) Per ogni coppia (a,b) Ω , si definisce un vettore i cui K elementi sono il risultato del confronto tra le variabili di matching. Ad esempio

19 La Tabella di Contingenza
Frequenze 19

20 Il modello mistura (a,b)U (a,b)M

21 Il “peso” di abbinamento
Fellegi e Sunter (1969) introducono una funzione costituita dal rapporto di verosimiglianza sulla base del quale le coppie (a,b) possono essere ordinate e sottoposte ad un processo di classificazione negli insiemi M e U

22 La regola di decisione Il criterio di classificazione è basato su due livelli di soglia scelti in modo opportuno che assegnano le coppie a tre possibili sottoinsiemi M*, Q , U*

23 La regola di decisione f Tu Tm (a,b)U (a,b)M r U* Q M*

24 Le Fasi di un progetto di Record Linkage come proposte in RELAIS
Preparazione dei files di input (pre-processing); Riduzione dello spazio di ricerca delle coppie candidate; Selezione degli attributi identificativi comuni (variabili di matching); Scelta della funzione di confronto; Scelta del modello di decisione; Stima delle probabilità di abbinamento (1) Valutazione dell’adattamento del modello ai dati (1) Assegnazione delle coppie (a,b) allo stato di “abbinato” o “non abbinato” Selezione degli abbinamenti univoci Valutazione dei risultati del Record linkage. (1) fase caratteristica dei metodi probabilistici

25 Bibliografia Scanu M. (2003) Metodi Statistici per il record linkage, Metodi e Norme - n.16, Istat Batini C., Scannapieco M. (2006) Data Quality: Concepts, Methods, and Techniques, Springer. Herzog T.N., Scheuren F.J., Winler E.W. (2007) Data quality and record linkage techniques, Springer. RELAIS: https://joinup.ec.europa.eu/software/relais/description


Scaricare ppt "Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto"

Presentazioni simili


Annunci Google