Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Monica Scannapieco Internalizzazione dello Sviluppo Software Diego Zardetto Software.

Slides:



Advertisements
Presentazioni simili
, un Ambiente Statistico Open Source: Esperienze e Prospettive Istat
Advertisements

Qual è per una piccola/media impresa emiliano/romagnola il costo complessivo REALE del sistema informatico nel caso in cui si sia scelto di basarsi su.
1 Introduzione ai calcolatori Parte II Software di base.
Scomposizione funzionale
Procedure e funzioni A. Ferrari.
I.Stat per i censimenti Stefania Bergamasco | Dipartimento per l'integrazione, la qualità e lo sviluppo delle reti di produzione e di ricerca.
SVILUPPO DI UN METODO DI CALIBRAZIONE DI UN SISTEMA STEREOSCOPICO PER LA MISURA DELLA LARGHEZZA DI PRODOTTI PIANI LAMINATI A CALDO Laureando: MASSIMO DAL.
Università degli Studi di Trieste
DAL MICROPROCESSORE AI SISTEMI EMBEDDED Informatica per lAutomazione II (Informatica B o II) Anno accademico 2008/2009 Prof. Giuseppe Mastronardi Ing.
Introduzione alle misure strumentali
Il Campus INValSI Una piattaforma di eLearning per il Corso eVAL.101
Comportamento dinamico di manipolatori interagenti con l'ambiente
Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.
Linee guida e profili di cura
Roma, 12 marzo 2001 Enrica Massella Ducci Teri Sintesi della giornata svolta su "Analisi e verifica della qualità dei dati" del 26 febbraio.
Il patrimonio informativo, le condizioni di utilizzo e accesso ai microdati dell’Istat Luisa Franconi Istat - Direzione centrale per lo sviluppo dei sistemi.
Giulio Barcaroli Il processo di produzione dellinformazione statistica e lopzione open source Roma, 4 marzo 2008 Il software per la statistica ufficiale:
La piattaforma di BI si basa essenzialmente su un sistema di metadati centralizzato che garantisce la consistenza delle informazioni e consente la navigazione.
La statistica ufficiale incontra… la comunità degli sviluppatori di software per la statistica Di quali innovazioni nel software per la statistica abbiamo.
Serena Palmieri Intervento su Indagine conoscitiva sulle determinanti e modalità di internazionalizzazione produttiva delle medie e grandi imprese italiane.
sulle professioni Isfol-Istat
IL PATRIMONIO DI DATI - LE BASI DI DATI. Il patrimonio dei dati Il valore del patrimonio di dati: –Capacità di rispondere alle esigenze informative di.
Corso di Informatica (Programmazione)
Francesca Del Corso, CCR - Gruppo Windows, Bologna 16/02/2006 SUS - WSUS per il Security Patch Management.
1 2. Analisi degli Algoritmi. 2 Algoritmi e strutture dati - Definizioni Struttura dati: organizzazione sistematica dei dati e del loro accesso Algoritmo:
Modelli e Algoritmi per la Logistica
Introduzione1 Algoritmi e strutture dati - Definizioni Struttura dati: organizzazione sistematica dei dati e del loro accesso Algoritmo: procedura suddivisa.
D2I Integrazione, Warehousing e Mining di sorgenti eterogenee Tema 2: Progettazione e interrogazione di Data Warehouse Unita' coinvolte nel tema Università
MODALITÀ DI ACQUISIZIONE DEL SOFTWARE APPLICATIVO Paolo Atzeni Dipartimento di Informatica e Automazione Università Roma Tre 03/12/2008 (materiale da:
FACOLTÁ DI INGEGNERIA CORSO DI LAUREA INGEGNERIA INFORMATICA Progetto e Sviluppo di un Algoritmo di Scheduling per il Sistema RTAI Candidato: Luca Marzario.
Fondamenti di Informatica1 Software di base Tra il linguaggio macchina (basso livello) e i linguaggi evoluti (alto livello) esiste uno strato di software.
Modello Relazionale Definisce tipi attraverso il costruttore relazione, che organizza i dati secondo record a struttura fissa, rappresentabili attraverso.
Labortaorio informatica 2003 Prof. Giovanni Raho 1 INFORMATICA Termini e concetti principali.
Gaetano Santucci Centro Nazionale per l’Informatica
I SISTEMI OPERATIVI.
Comitato metodologie 9 luglio 2010 Costituzione di una rete per linnovazione metodologica nella produzione statistica.
Fondamenti di informatica Linguaggio C Main Program: Architettura di un PC Diagrammi di flusso Linguaggio C.
UNIVERSITA’ STUDI DI ROMA “FORO ITALICO”
Propagazione degli errori
Lima 3D FASE 1 Durata: 1 mese (avviamento del progetto) FASE 2
Case study Maiora srl.
La progettazione di un sistema informatico
Università Politecnica delle Marche
Modulo 1 - Hardware u.d. 3 (syllabus – 1.3.5)
L’ingegneria del software
Il processo di sviluppo del Sw: strategia make
1 I vantaggi per la Pubblica Amministrazione nelluso di software Open Source.
Introduzione a XI Conferenza nazionale di Statistica febbraio 2013 Pillole formative di statistica.
Ingegneria del software Modulo 2 -Il software come prodotto Unità didattica 2 - I costi del software Ernesto Damiani Università degli Studi di Milano Lezione.
Design Goals Definiamo le fondamenta dello sviluppo del sistema.
Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Programma del Corso.
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Politecnico di Torino maggio DIDAMATICA 2011 Insegnare Futuro EXCEL4PS&SP – 6 Maggio 2011 Prof. Nicola Armenise, PhD I.T.E.S. “A. Olivetti” -
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.
Ingegneria del software Modulo 1 -Introduzione al processo software Unità didattica 3 -Modelli di fase d’analisi Ernesto Damiani Università degli Studi.
Roma, 9 maggio 2005 Luca Nicoletti – Unità Disegno e progettazione Sistemi Access Management centralizzato per applicazioni WEB: l’esperienza del MEF.
Dati e DBMS DBMS relazionali SQL Progettazione di un DBMS Normalizzazione Programma del Corso di Basi di Dati.
La pianificazione della produzione dei dati. Costituzione del gruppo di progettazione L’elevato grado di complessità e la multidisciplinarietà richiesta.
Sorrentino, Corvino, Palumbo, Credendino, Salzano, Ponticiello Caso di studio 2 Gruppo 7 Materia : Informatica- progetto ABACUS Scuola: ITIS indirizzo.
Master MATITCiclo di vita del Sistema Informativo1 CICLO DI VITA DEL SISTEMA INFORMATIVO.
B IBLIO S ERVICE consultazione di articoli online Anna Riccioni Progetto per il corso di Reti di Calcolatori L-S Anno Accademico
Progetti Regole dei progetti Due studenti per progetto Due studenti per progetto Lavoro indipendente, con coordinamento per mettere insieme le due.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
FESR Trinacria Grid Virtual Laboratory Porous Fluid Dynamics Analyzer Supporter : Salvatore Scifo Affiliation : TRIGRID Second TriGrid Checkpoint.
HARDWARE (2). MEMORIE Due classi di memoria MEMORIA CENTRALE –media capacità - ottima velocità MEMORIA DI MASSA elevata capacità - bassa velocità.
Statistica con Excel Corso di Fisica ed Elementi di Laboratorio ed Informatica CdL Scienze Biologiche AA 2015/2016.
ROMA 24 GIUGNO 2016 SPAZIO CONFRONTI Il sistema DARCAP a supporto della rilevazione SIS PRO SPAZIO CONFRONTI Il sistema DARCAP a supporto della rilevazione.
ROMA 23 GIUGNO 2016 AREA TEMATICA 1. PROSPETTIVE DEI SISTEMI STATISTICI Validation: un approccio metodologico comune per la validazione dei dati e l’automazione.
ROMA 22 GIUGNO 2016 AREA TEMATICA 3. INNOVAZIONI E SPERIMENTAZIONI Ridisegno delle indagini sociali nell’ottica del censimento permanente INNOVAZIONI E.
ROMA 23 GIUGNO 2016 OFFICINA MODERNIZZAZIONE - Gli strumenti del Programma di Modernizzazione dell’Istat Silvia Bruzzone - Introduzione ai temi della sessione.
Transcript della presentazione:

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Monica Scannapieco Internalizzazione dello Sviluppo Software Diego Zardetto Software Generalizzato per la Produzione Statistica Luso di per il calcolo delle stime e degli errori Risultati ottenuti e lavori in corso Roma, 4 Marzo 2008 Il software per la statistica ufficiale: dai sistemi proprietari a quelli open source

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Struttura della presentazione Introduzione Descrizione del Test di Fattibilità Risultati Conseguiti Progetto di Migrazione Lavori in Corso Conclusioni

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Introduzione Esigenza di individuare alternative al SAS –Presente in Istat dai primi anni 80 –Originariamente inteso come software per lanalisi dei dati e la ricerca statistica… –…oggi è il sistema di elaborazione dominante in buona parte dei processi di produzione

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Introduzione (continua) Individuazione di R come possibile candidato a sostituire il SAS: –Consenso diffuso sulle grandi potenzialità di R nellanalisi dei dati e nella ricerca statistica –Dubbi sulla possibilità concreta di utilizzare R nei processi di produzione: gestione di grosse moli di dati velocità di elaborazione affidabilità dei package aggiuntivi Necessità di testare la fattibilità della migrazione SAS>R in una specifica fase del processo di produzione

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Caratteristiche del Test di Fattibilità Criterio di scelta: test di fattibilità nel caso Istat peggiore per –complessità degli algoritmi –dimensione dei dati da elaborare Quale Fase? Quale Indagine? Disponibilità di un package R? Calibrazione Forze di Lavoro Survey (funzione calibrate )

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Il Problema di Calibrazione Problema di Calibrazione Pesi diretti Funzione distanza Variabili ausiliarie Vettore dei totali noti Bounds Pesi finali Stimatori di Calibrazione: consentono di migliorare la qualità delle inferenze mediante il ricorso ad informazioni ausiliarie… …ma presuppongono un metodo di calcolo dei pesi complesso

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori La Calibrazione dei Dati in Istat Sistema GENESEES (GENEralized Sampling Estimates and Errors in Surveys) –Sviluppato in Istat alla fine degli anni 90, in uso dal 2001/2002 –Basato su SAS Funzionalità principali: –Calibrazione –Calcolo delle stime e degli errori standard

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Il Processo seguito per il Test 1.2: Selezione dati di benchmark 1.1: Selezione sistema di benchmark 1.3: Ambiente HW e SW di sperimentazione Fase 1: Definizione dellambiente di test Fase 2: Sviluppo prototipale per il test 2.1: Definizione dellambiente di prototipazione 2.2: Test di efficacia 2.3: Test di efficienza 3.1: Test di efficienza e ottimizzazione 3.2: Test di efficacia e correzione Fase 3: Realizzazione del test di fattibilità

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Ambiente di Test Dati di benchmark: –Forze di lavoro Disegno di campionamento complesso ~ record individuali, ~ record familiari 182 variabili ausiliarie 21 domini di calibrazione Sistema di benchmark: –GENESEES/SAS Ambiente HW e SW: –PC Windows XP, 760 MB RAM, CPU da 3 GHz –Server Linux, 10 GB RAM, 4 CPU da 2 GHz

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Risultati Sperimentali: Efficacia Pesi calibrati: GENESEES/SAS vs. Survey/R Massimo valore assoluto delle differenze relative fra i pesi calibrati nei due sistemi > summary(abs(pesi_GENESEES-pesi_SURVEY)/pesi_GENESEES) Min. 1st Qu. Median Mean 3rd Qu. Max e e e e e e-7

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Risultati Sperimentali: Efficienza Tempi di esecuzione: GENESEES/SAS vs. Survey/R –GENESEES in ambiente PC: ~ 9 minuti –Survey:

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Esito del Test di Fattibilità Efficacia identica Efficienza confrontabile Interventi di programmazione ad-hoc contenuti E possibile utilizzare Survey/R nella fase di calibrazione dei dati nei contesti applicativi reali dellIstat? Sì

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori La migrazione di GENESEES Il risultato positivo della sperimentazione ha consentito di avviare il progetto di migrazione del sistema GENESEES da SAS ad R

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Il Progetto di Migrazione Obiettivo minimo: realizzare in R entrambe le funzionalità fondamentali di GENESEES (calibrazione e calcolo delle stime e degli errori standard) Migrazione come occasione per reingegnerizzare il software migliorandone la qualità complessiva CARATTERISTICHEGENESEES/SASGENESEES/R LINGUAGGIOSASR ARCHITETTURASTANDALONE INTERFACCIAGUI QUALITA DEL SOFTWARE MONOLITICO -MODULARE + LEGACY -ESTENDIBILE + EFFICIENZA =

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Reingegnerizzazione: Astrazione 1. Interazione con lutente a maggiore livello di astrazione DATI OUTPUT DATI INPUT calmodel=~(X+Y:Z) partition=~D1:D2... DATI INPUT

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Reingegnerizzazione: Integrazione DATI OUTPUT DATI INPUT calmodel=~(X+Y:Z) partition=~D1:D Integrazione di funzionalità

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Reingegnerizzazione: Estensione 3. Aggiunta di nuove funzionalità Calcolo degli errori di campionamento basato sul metodo DAGJK (Delete-A-Group Jackknife) Sviluppato un nuovo package R dedicato: EVER (Estimation of Variance by Efficient Replication) Vantaggi rispetto al metodo tradizionale (Taylor linearization) implementato in GENESEES/SAS: –Minore complessità matematica –Procedura di calcolo indipendente dalla forma funzionale dello stimatore e dal disegno di campionamento –Utilizzabile anche per stimatori non-analitici (es. stime di povertà)

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Architettura Logica di GENESEES/R

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Stato di Avanzamento del Progetto Inizio Sperimentazione: Maggio 2006 Fine prevista Migrazione: Dicembre 2008 Stima Mesi/Persona (allo stato attuale): 23,8 Oggi 30/6/2008 β-Version

Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Conclusioni Una delle prime esperienze di utilizzo di R per la realizzazione di funzionalità standard nei processi di produzione dellIstituto –Giudizio pienamente positivo sullutilizzo di R nella realtà Istat: Accesso al codice sorgente dei package, importante per la personalizzazione e lottimizzazione delle soluzioni Grandi potenzialità del linguaggio R: elevato livello di astrazione, semplicità di programmazione e tempi di sviluppo contenuti Luso di R per il calcolo delle stime e degli errori Roma, 4 Marzo 2008