1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova Comstat ISTITUTO NAZIONALE DI STATISTICA
2 Schema della presentazione 1. Premesse: big data; censimenti continui e anagrafi 2. Qualità dei dati statistici e qualità dei processi di formazione dei dati 3. Le competenze necessarie e la competenza da riconoscere agli statistici 4. Big data vs. big brother: riservatezza vs. democrazia nelluso dei dati 5. Alcune conclusioni
3 Big data Tanti dati, grazie allinformatizzazione dei servizi sociali e degli scambi economici: dati amministrativi utilizzati a fini statistici (es: comunicazioni obbligatorie del Ministero del Lavoro) Collegamento tra archivi per relazionare informazioni (es: censimento istituzioni non-profit: unite quasi 30 fonti amministrative o statistiche) o per fare archivi più grandi (es: anagrafe nazionale della popolazione) Sistemi informativi invece di indagini statistiche (es: censimento continuo della popolazione) Cambio epocale nella gestione dei dati statistici Nuovi rapporti tra cittadino/impresa/istituzione e informazione pubblica sistemi informativi e SISTAN
4 Qualità dei dati statistici Dimensioni: Validità del processo produttivo delle statistiche: Tempestività Economicità Affidabilità del processo: fornire informazioni attendibili Utilità: i dati prodotti devono essere coerenti con le attese degli stakeholder (es: CNUIS) Oppure, semplificando, Efficienza tecnico-economica del processo produttivo (tempestività, economicità, affidabilità) Efficacia dei dati prodotti (utilità)
5 Attendibilità dei dati Copertura dellinsieme atteso Completezza unitaria: tutti i record devono essere presenti Copertura informativa: tutte le variabili inerenti ad un record devono essere presenti Copertura del fenomeno atteso: i dati registrati corrispondono agli obiettivi conoscitivi Corrispondenza al vero delle informazioni riportate: Precisione campionaria: il campione deve essere selezionato secondo metodologia e sufficientemente ampio (si applica alle indagini statistiche) Accuratezza del microdato: i singoli dati registrati devono corrispondere al vero Accuratezza del macrodato: le statistiche pubblicate devono corrispondere al valore atteso (verosimili)
Completezza Affermazione: se i dati sono contenuti in una base di dati informatica, sono perfetti. Niente di più sbagliato. Esempio: nel 1981 si confrontarono i risultati del censimento della popolazione con i dati anagrafici: circa italiani erano sfuggiti al censimento e allanagrafe ne mancavano circa ; dopo gli aggiustamenti, 2,7% mancava al censimento e un altro 2,7% mancava allanagrafe. Da 1991, lIstat non ha più pubblicato i dati sul confronto anagrafe-censimento Ogni statistica è affetta da errore, si può solo cercare di padroneggiare lerrore. 6
7 Il Sistan: sistema glocal Tanti produttori di dati: se i dati derivano dallambito locale, devono transitare dallUfficio di statistica per una certificazione (validation) Rete di utilizzatori, ad ogni livello, locale e nazionale, inserita in reti internazionali (UE, OECD, ….) Ruolo fondamentale dellIstat: Codifica dei processi di produzione: passare da record di eventi a record di unità statistiche (es: occupati nelle CO) Metadati, definizioni per analizzare e confrontare Formazione dei certificatori di dati che passano attraverso il Sistan Ruolo nuovo anche per laccademia Rimodellare le competenze degli statistici per i nuovi processi di produzione dei dati, cultura della qualità del dato
8 Progetto PLUG_IN PLUG_IN: Professional Life of University Graduates INformation system OBIETTIVO Creare un prototipo di sistema informativo-statistico che descrive carriera universitaria, storia lavorativa (CO) ed economica (UNIEMENS-INPS) dei laureati Sistema informativo = sistema di indicatori statistici OBIETTIVI Informare, ogni anno, sull efficacia della formazione acquisita dai laureati (valutazione corsi di studio) Misurare il valore sociale restituito dai laureati al mondo del lavoro e della produzione ( quanto vale una laurea? : orientamento strategico )
9 Come è stato creato Plug_In 1. Convenzioni tra Universit à di Padova e Veneto Lavoro, tra UdP e Ministero del Lavoro, tra MinLavoro e INPS (problema di privacy nell abbinamento dei record: record anonimizzati) 2. Estrazione dagli archivi universitari dell annata 2008 di laureati dell Universit à di Padova (N=11.770). Collegamento di archivi mediante il Codice Fiscale. È possibile che i laureati siano solo nell archivio universitario, in questo archivio e in UNIEMENS-INPS, in questi due archivi e tra le CO. 3. Collegamento tra il campione di laureati dell indagine Agor à dell Universit à di Padova (n=4.500) e gli archivi delle CO e dell INPS, al fine di stimare (per campione) l attendibilit à degli archivi amministrativi (CO e INPS)
Plug_In è formato da archivi amministrativi Dati universitari, 2008CO – MinLavoro, 2008Versamenti INPS, 2008 Versamenti INPS, 2009CO – MinLavoro, 2009 CO – MinLavoro, 2010Versamenti INPS, 2010 Versamenti INPS, 2011CO – MinLavoro, 2010 CO – MinLavoro, 2017Versamenti INPS, anni di linkage tra archivi per ogni laureato ::::
11 Alcune verifiche di copertura Gli laureati sono stati identificati negli archivi delle CO, di UNIEMENS-INPS e Università: CO+INPS: Solo CO 555 Solo INPS1.539 Né CO né INPS Nessun archivio 832 (17,1%) Re-iscritti Università di Padova Cercano lavoro (13,1%) Dipendenti INPS e altro Lavoratori autonomi Collaboratori agricoli Collab. parasubordinati (58,0%) Lavoratori dipendenti Tirocinanti /stagiaires (4,7%) Lavorava prima della laurea (7,1%) Studenti iscritti a altra università Lavorano in nero, allestero per lestero Morti, usciti dal mercato, suore, ecc. Errori di sistema, rifiuto a collaborare
12 Commenti allesperimento 1.Nella migliore delle ipotesi, utilizzando tutte le basi informative elementari, anche private, manca 7-9% dei laureati. È un angolo buio degli archivi da spiegare. 2.I database nascono come archivi amministrativi: ogni archivio ha proprie terminologie e classificazioni. Lunità statistica non è la persona, ma un atto amministrativo (es.: Come si definisce un occupato? Notevole differenza tra rilevazioni delle forze di lavoro e CO). È necessario trovare nuove definizioni. 3.Alluniversità interessa sapere se i lavori sono da laureati. Non ce lo dicono le CO (a meno che….), si può saperlo dallo stipendio INPS (tuttavia……). Non è ancora possibile sostituire del tutto i dati statistici con quelli amministrativi.
13 Le statistiche private La produzione di statistiche private si sta orientando in modo simile a quello pubblico. Princìpi: Utilizzare in modo efficiente le informazioni interne (sistemi informativi); Procurarsi le informazioni sul mercato attraverso la rete di vendita e della distribuzione (osservazione indiretta); Va svolto solo un numero limitato di interventi mirati per acquisire conoscenza diretta. Imperano, quindi, i princìpi che: le informazioni devono costare tra poco e niente; Bisogna bilanciare osservazione diretta ed indiretta della realtà che interessa.
Quindi….
15 Professionalità dello statistico Il Sistan ha bisogno di disporre di produttori qualificati di dati (statistici) i quali devono essere in grado di garantire il sistema delle statistiche pubbliche: Devono saper riconoscere la qualità dei dati (abitudine ad elaborare dati anche a livello periferico) Devono aver interiorizzato la razionalità dei metadati. Una statistica è di qualità se è stata prodotta da un sistema in qualità La formazione dei componenti gli Uffici di statistica può essere la forma di certificazione della qualità del processo di produzione a livello locale Per le statistiche private e per quelle terze, necessità di certificare i produttori: statistici certificati?
Il rischio dellautoreferenzialità 16 LIstat ha saldamente in mano linformazione statistica italiana e, giustamente, reclama lindipendenza dellinformazione dalluso. Per questo, è necessario il contatto continuo con gli utenti (CNUIS) e con lente di vigilanza (COGIS) La formazione universitaria degli statistici non si è riformata tenendo in conto il cambiamento epocale. Nelle università non sinsegna il metodo dellindagine e quello dellutilizzazione statistica di grandi basi di dati. Non si insegna ad utilizzare sia linformazione diretta che quella indiretta. Bisogno di riflettere, dialogando, con la società che utilizza i dati statistici.
Grazie per lattenzione