Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Monica Scannapieco Internalizzazione dello Sviluppo Software Diego Zardetto Software Generalizzato per la Produzione Statistica Luso di per il calcolo delle stime e degli errori Risultati ottenuti e lavori in corso Roma, 4 Marzo 2008 Il software per la statistica ufficiale: dai sistemi proprietari a quelli open source
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Struttura della presentazione Introduzione Descrizione del Test di Fattibilità Risultati Conseguiti Progetto di Migrazione Lavori in Corso Conclusioni
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Introduzione Esigenza di individuare alternative al SAS –Presente in Istat dai primi anni 80 –Originariamente inteso come software per lanalisi dei dati e la ricerca statistica… –…oggi è il sistema di elaborazione dominante in buona parte dei processi di produzione
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Introduzione (continua) Individuazione di R come possibile candidato a sostituire il SAS: –Consenso diffuso sulle grandi potenzialità di R nellanalisi dei dati e nella ricerca statistica –Dubbi sulla possibilità concreta di utilizzare R nei processi di produzione: gestione di grosse moli di dati velocità di elaborazione affidabilità dei package aggiuntivi Necessità di testare la fattibilità della migrazione SAS>R in una specifica fase del processo di produzione
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Caratteristiche del Test di Fattibilità Criterio di scelta: test di fattibilità nel caso Istat peggiore per –complessità degli algoritmi –dimensione dei dati da elaborare Quale Fase? Quale Indagine? Disponibilità di un package R? Calibrazione Forze di Lavoro Survey (funzione calibrate )
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Il Problema di Calibrazione Problema di Calibrazione Pesi diretti Funzione distanza Variabili ausiliarie Vettore dei totali noti Bounds Pesi finali Stimatori di Calibrazione: consentono di migliorare la qualità delle inferenze mediante il ricorso ad informazioni ausiliarie… …ma presuppongono un metodo di calcolo dei pesi complesso
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori La Calibrazione dei Dati in Istat Sistema GENESEES (GENEralized Sampling Estimates and Errors in Surveys) –Sviluppato in Istat alla fine degli anni 90, in uso dal 2001/2002 –Basato su SAS Funzionalità principali: –Calibrazione –Calcolo delle stime e degli errori standard
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Il Processo seguito per il Test 1.2: Selezione dati di benchmark 1.1: Selezione sistema di benchmark 1.3: Ambiente HW e SW di sperimentazione Fase 1: Definizione dellambiente di test Fase 2: Sviluppo prototipale per il test 2.1: Definizione dellambiente di prototipazione 2.2: Test di efficacia 2.3: Test di efficienza 3.1: Test di efficienza e ottimizzazione 3.2: Test di efficacia e correzione Fase 3: Realizzazione del test di fattibilità
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Ambiente di Test Dati di benchmark: –Forze di lavoro Disegno di campionamento complesso ~ record individuali, ~ record familiari 182 variabili ausiliarie 21 domini di calibrazione Sistema di benchmark: –GENESEES/SAS Ambiente HW e SW: –PC Windows XP, 760 MB RAM, CPU da 3 GHz –Server Linux, 10 GB RAM, 4 CPU da 2 GHz
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Risultati Sperimentali: Efficacia Pesi calibrati: GENESEES/SAS vs. Survey/R Massimo valore assoluto delle differenze relative fra i pesi calibrati nei due sistemi > summary(abs(pesi_GENESEES-pesi_SURVEY)/pesi_GENESEES) Min. 1st Qu. Median Mean 3rd Qu. Max e e e e e e-7
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Risultati Sperimentali: Efficienza Tempi di esecuzione: GENESEES/SAS vs. Survey/R –GENESEES in ambiente PC: ~ 9 minuti –Survey:
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Esito del Test di Fattibilità Efficacia identica Efficienza confrontabile Interventi di programmazione ad-hoc contenuti E possibile utilizzare Survey/R nella fase di calibrazione dei dati nei contesti applicativi reali dellIstat? Sì
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori La migrazione di GENESEES Il risultato positivo della sperimentazione ha consentito di avviare il progetto di migrazione del sistema GENESEES da SAS ad R
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Il Progetto di Migrazione Obiettivo minimo: realizzare in R entrambe le funzionalità fondamentali di GENESEES (calibrazione e calcolo delle stime e degli errori standard) Migrazione come occasione per reingegnerizzare il software migliorandone la qualità complessiva CARATTERISTICHEGENESEES/SASGENESEES/R LINGUAGGIOSASR ARCHITETTURASTANDALONE INTERFACCIAGUI QUALITA DEL SOFTWARE MONOLITICO -MODULARE + LEGACY -ESTENDIBILE + EFFICIENZA =
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Reingegnerizzazione: Astrazione 1. Interazione con lutente a maggiore livello di astrazione DATI OUTPUT DATI INPUT calmodel=~(X+Y:Z) partition=~D1:D2... DATI INPUT
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Reingegnerizzazione: Integrazione DATI OUTPUT DATI INPUT calmodel=~(X+Y:Z) partition=~D1:D Integrazione di funzionalità
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Reingegnerizzazione: Estensione 3. Aggiunta di nuove funzionalità Calcolo degli errori di campionamento basato sul metodo DAGJK (Delete-A-Group Jackknife) Sviluppato un nuovo package R dedicato: EVER (Estimation of Variance by Efficient Replication) Vantaggi rispetto al metodo tradizionale (Taylor linearization) implementato in GENESEES/SAS: –Minore complessità matematica –Procedura di calcolo indipendente dalla forma funzionale dello stimatore e dal disegno di campionamento –Utilizzabile anche per stimatori non-analitici (es. stime di povertà)
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Architettura Logica di GENESEES/R
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Stato di Avanzamento del Progetto Inizio Sperimentazione: Maggio 2006 Fine prevista Migrazione: Dicembre 2008 Stima Mesi/Persona (allo stato attuale): 23,8 Oggi 30/6/2008 β-Version
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Conclusioni Una delle prime esperienze di utilizzo di R per la realizzazione di funzionalità standard nei processi di produzione dellIstituto –Giudizio pienamente positivo sullutilizzo di R nella realtà Istat: Accesso al codice sorgente dei package, importante per la personalizzazione e lottimizzazione delle soluzioni Grandi potenzialità del linguaggio R: elevato livello di astrazione, semplicità di programmazione e tempi di sviluppo contenuti Luso di R per il calcolo delle stime e degli errori Roma, 4 Marzo 2008