La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat.

Presentazioni simili


Presentazione sul tema: "Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat."— Transcript della presentazione:

1 Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

2 2 XI Conferenza nazionale di statistica, 2013 Outline La qualità dei dati I nuovi contesti e le nuove tendenze nella produzione di statistiche ufficiali La qualità dei dati traibili dai sistemi informativi (le nuove anagrafi nazionali) Il ruolo dellIstat – Sistan nel controllo della qualità dei dati Il ruolo degli Uffici di Statistica nel controllo della qualità dei dati di provenienza amministrativa Alcune conclusioni

3 3 XI Conferenza nazionale di statistica, 2013 La qualità dei dati ufficiali Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009; Kenett & Shmueli, 2013): Pertinenza ( relevance ): grado di concordanza tra il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle informazioni Accuratezza : prossimità al valore vero Tempestività : pubblicazione entro il tempo pre- determinato Accessibilità fisica e intellettuale (comprensibilità) Comparabilità nel tempo e tra domini di studio Coerenza tra misure del medesimo fenomeno provenienti da diverse fonti e prodotte con metodi diversi Errore di III tipo: prodotto corretto per lobiettivo sbagliato Errore di IV tipo: prodotto corretto, ma troppo in ritardo Errore di I e II tipo

4 4 XI Conferenza nazionale di statistica, 2013 La qualità statistica dei dati ufficiali Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009): Pertinenza ( relevance ): grado di concordanza tra il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle informazioni Attendibilità : prossimità al valore vero, funzione di: Precisione campionaria Accuratezza della rilevazione e dellelaborazione dei dati Tempestività : pubblicazione entro il tempo pre- determinato Accessibilità fisica e intellettuale (comprensibilità) Comparabilità nel tempo e tra domini di studio e c oerenza tra misure del medesimo fenomeno provenienti da diverse fonti e prodotte con metodi diversi (armonizzazione)

5 5 XI Conferenza nazionale di statistica, 2013 Il nuovo contesto La tecnologia sta rendendo scambiabili le basi di dati locali e invita a costruire basi di dati nazionali: Anagrafe nazionale della popolazione (delle famiglie) Anagrafe nazionale delle abitazioni (numeri civici) Anagrafe nazionale delle imprese (ASIA) Pertanto, scompaiono i censimenti tradizionali e sono invece create ed alimentate nel continuo anagrafi nazionali (censimenti continui) per confluenza di quelle locali, scompaiono molte indagini campionarie e cambia il ruolo delle indagini campionarie nel processo di formazione delle statistiche ufficiali Assume un ruolo ancora più importante il controllo della qualità dei dati

6 La confluenza delle anagrafi This is a bias This is a hot point

7 7 Che cosa interessa allo statistico ufficiale? La qualità media dellacqua alla foce o lungo la pianura ( la qualità delle statistiche tratte dallanagrafe nazionale )? La qualità dellacqua dei singoli affluenti ( la qualità delle statistiche a livello locale )? Scoprire hot point inquinanti ( le fonti locali i cui errori possono minare lattendibilità delle statistiche nazionali )? La presenza di coccodrilli nellacqua stagnante ( i rischi di distorsione nelle stime traibili dalle anagrafi nazionali, spesso causate da chi organizza le rilevazioni dei dati )? SI Forse SI

8 Sistema di assicurazione qualità Alla foce (Istat: indagini periodiche per la valutazione della qualità media uscente) Alla sorgente (Sistan: un sistema di chiuse attraverso le quali passa/non passa lacqua) ISTAT (controllo periodico) Revisione metodologica Metadati e buone prassi Interventi sulle fonti locali ? SISTAN (auto-controllo, controllo su richiesta)

9 9 XI Conferenza nazionale di statistica, 2013 Il controllo continuo della qualità Ente realizzatore: Istat, oppure COGIS, o ente terzo (v. UK) Periodicità: ogni anno, oppure ogni due anni Obiettivi: Valutazione della qualità di statistiche di riferimento in dati domini di studio Controllo, a fini di miglioramento, del sistema di produzione delle statistiche nazionali Campionamento: batch (lotti) di dati prodotti da fonti locali (es: comune, UdS) per stimare anche laccuratezza locale, campionando più intensamente le fonti che, si ipotizza (in base ai dati noti), danno tassi derrore più alti ( hot points )

10 10 XI Conferenza nazionale di statistica, 2013 Il sistema di controllo locale Gli Uffici di statistica, gangli del SISTAN, per essere funzionali al sistema di controllo, dovrebbero: Essere pochi e di riconosciuta autorità, soprattutto nei confronti del sistema amministrativo di produzione dei dati (es: sistema periferico del Ministero dellInterno, oppure CCIAA) Essere in posizione tale da poter intercettare i flussi di dati locali e poter intervenire in tempi rapidi (es: province, grandi comuni, regioni) Essere formati sul piano statistico e normativo (e relazionale), tanto da essere in grado di elaborare i dati che transitano dallUdS, di comprenderne la qualità e di farla comprendere Sentirsi parte del Sistema statistico nazionale

11 11 XI Conferenza nazionale di statistica, 2013 I metadati Sono dati di quadro sul metodo e sui tempi di produzione dei dati, compreso il questionario, sui metodi di controllo ed analisi dei dati e sullesito della verifica della qualità dei dati, comprese indicazioni sulla loro utilizzabilità LEurostat (Pellegrino, 2006) ha posto in essere il sistema SDMX standardizzato, a valenza europea, per laccesso a file di metadati generali (es: Transparency of practices, Accessibility, etc.) Un sistema di metadati è il cuore di un sistema nazionale di formazione dei dati; va alimentato con gli esiti del controllo della qualità e con le relative riflessioni in termini di buone pratiche

12 12 XI Conferenza nazionale di statistica, 2013 La formazione delle fonti dei dati Formazione di carattere metodologico generale sulle rilevazioni statistiche e sul tipo e conseguenza degli errori nei dati Lavoro condiviso sui propri dati: dalla pratica di analisi dei dati e dalla costruzione di indicatori e di report nasce formazione on the job efficace; dalla collaborazione allattività degli amministrativi produttori dei dati si corrobora la consapevolezza della qualità e dei problemi che pone la formazione del dato Review ( self, peer, user ); peer review : forme di valutazione reciproche tra produttori di dati; user review : sistema di raccolta delle osservazioni sui dati da parte degli utenti Applicare il manuale di metadati, le buone pratiche

13 13 XI Conferenza nazionale di statistica, 2013 La diffusione delle informazioni sulla qualità Interna al sistema: il sistema deve mantenere la sua credibilità complessiva Forma sintetica: Indicatori di qualità, da valutare in serie storica, con interesse preminente per le cause degli errori, per i processi più vulnerabili e per i prodotti più a rischio Gestione dei metadati (v. FBI, http://www.fbi.gov/about- us/cjis/ucr/data_quality_guidelines ) finalizzata al raggiungimento di buone pratiche (insieme di coerenze e di ammissibilità, standard metodologici, …) http://www.fbi.gov/about- us/cjis/ucr/data_quality_guidelines Periodicità: 3-5 anni

14 14 XI Conferenza nazionale di statistica, 2013 Problemi del sistema di controllo 1. Lintegrazione tra fonti di origine amministrativa permette di scoprire incoerenze ( inconsistency ) tra dati. Altri errori si scoprono in base alla incoerenza o alla inammissibilità probabilistica tra variabili diverse dello stesso o di altri archivi. Come si utilizzano incoerenze e inammissibilità? Eventualmente a livello locale? 2. Il sistema di controllo ex-post non permette la valutazione della completezza della rilevazione. Lintegrazione tra fonti può, invece, portare alla scoperta di incompletezze. Come si utilizza linformazione sullincompletezza? 3. Che fare dei lotti con tanti errori? 4. La scoperta di errori si può tradurre in metadati ( warning ). Come si può tradurre in suggerimenti per buone pratiche?

15 15 XI Conferenza nazionale di statistica, 2013 Risorse necessarie Il minor costo del procacciamento dei dati ha liberato risorse. Tuttavia, la qualità costa, va messa a bilancio. Il controllo della qualità richiede indagini interne (svolte dallIstat stesso o da un ente esterno) La verifica interna dei possibili errori nei dati (microdati, batch di dati) richiede tempo e impegno del personale dedicato, anche se diventasse attività di routine degli UdS

16 16 XI Conferenza nazionale di statistica, 2013 Concludendo…. La qualità dei dati è, e ancor più sarà, uno degli impegni principali dei produttori di dati, come conseguenza del nuovo quadro tecnologico e normativo di produzione di grandi basi di dati statistici a livello nazionale I sistemi di controllo della qualità sviluppati da organismi statistici internazionali e nazionali di vari paesi, anche in ottemperanza a norme ISO 9000 e ISO 20252, mirano a sviluppare, armonizzare e rendere trasparenti i processi, non si interessano ai prodotti Per sviluppare un sistema italiano di controllo della qualità dei dati ufficiali è necessario coinvolgere e attrezzare il Sistan Molte aree rimangono da sviluppare sul piano metodologico se si vuole mettere in piedi un sistema specifico

17 Ringrazio per lattenzione


Scaricare ppt "Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat."

Presentazioni simili


Annunci Google