Giulio Barcaroli Il processo di produzione dellinformazione statistica e lopzione open source Roma, 4 marzo 2008 Il software per la statistica ufficiale: dai sistemi proprietari a quelli open source
Il processo di produzione dellinformazione statistica e lopzione open source Allinterno dellISTAT da alcuni anni è stata avviata una riflessione sulle reali possibilità di utilizzo di software libero allinterno dei processi di produzione dellinformazione statistica Allinizio, si è trattato di un processo spontaneo attuato in modo non pianificato e diffuso, su iniziativa di ricercatori ed informatici dellIstituto Negli ultimi tre anni si è cominciato ad investire con decisione in questa direzione, coordinando i diversi interventi Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source 1
Roma, 4 marzo 2008 La scelta di esplorare soluzioni non proprietarie è stata fatta tenendo conto dei seguenti obiettivi: per ottemperare a direttive e linee-guida (Stanca 2003, Finanziaria 2007) che investono tutte le pubbliche amministrazioni; per ridurre i costi; per garantire maggiormente linnovazione, permettendo la rapida acquisizione e la sperimentazione di nuove soluzioni; per partecipare allo sviluppo congiunto di soluzioni portabili e utilizzabili con altri partner quali: altri enti del SISTAN; altri Istituti nazionali di statistica allinterno di: iniziative di sviluppo congiunto (vedi EUROSTAT); progetti di cooperazione internazionale Il processo di produzione dellinformazione statistica e lopzione open source 2 Il processo di produzione dellinformazione statistica e lopzione open source
La direttiva Stanca per lopen source (2003) Roma, 4 marzo 2008 Analisi comparativa delle soluzioni - Valutazione comparativa … tenendo conto … della possibilità di poter sviluppare programmi informatici specifici e del riuso da parte di altre amministrazione dei programmi informatici sviluppati ad hoc Da privilegiare le soluzioni che: assicurino l'interoperabilità e la cooperazione applicativa tra i diversi sistemi informatici della Pubblica amministrazione; rendano i sistemi informatici non dipendenti da un unico fornitore o da un'unica tecnologia proprietaria; garantiscano la disponibilità del codice sorgente; esportino dati e documenti in più formati, di cui almeno uno di tipo aperto Il processo di produzione dellinformazione statistica e lopzione open source
La finanziaria 2007 Roma, 4 marzo 2008 Con la Legge Finanziaria 2007 si dà sostegno ai progetti Che utilizzano e/o sviluppano applicazioni a codice sorgente aperto per la Pubblica Amministrazione. Gli strumenti che il CNIPA mette a disposizione della PA per contribuire al perseguimento di questi obiettivi consistono in: un ambiente di sviluppo software cooperativo (ASC), uno strumento completo che permette di collaborare allo sviluppo di progetti Open Source per le necessità della Pubblica Amministrazione, nonché di ricercare quali progetti possono essere più adatti alle particolari esigenze della propria amministrazione; una vetrina virtuale che raccoglie le esperienze delle Pubbliche Amministrazioni italiane nell'uso di software Open Source (eventualmente insieme a software proprietario) per le proprie esigenze. Il processo di produzione dellinformazione statistica e lopzione open source
I costi in ISTAT per lacquisto e la manutenzione di alcuni software Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source Software (acquisto e manutenzione)Spesa annua in euro SAS ORACLE BLAISE Microsoft ModelEasy 717, , , ,515 31,000
Favorire linnovazione La continua valutazione comparativa di soluzioni alternative è fondamentale non solo dal punto di vista dei costi, ma dellinnovazione. Sotto questo aspetto, la dipendenza da un fornitore unico è un fattore estremamente limitante, soprattutto in un ambiente di ricerca, nel quale la frontiera delle soluzioni possibili si muove continuamente. Un ente di ricerca ha una necessità ancora maggiore di non essere vincolato dal punto di vista della continua acquisizione e sperimentazione di soluzioni. Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Concorrere alla produzione globale di software per la statistica ufficiale Proposta EUROSTAT di condivisione dello sviluppo software nel Sistema Statistico Europeo Partecipazione ad iniziative quali quella Adamsoft Inserimento nella community di R: sviluppo di package da condividere con lintera comunità degli sviluppatori e degli utenti R Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
La strategia per lopen source allinterno dellIstituto Nazionale di Statistica Utilizzo di strumenti open anziché proprietari Adozione dellapproccio open per lo sviluppo Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Lutilizzo di strumenti open LISTAT ha appena concluso un processo di definizione dei propri standard tecnologici di sviluppo, riguardanti: architetture sistemi linguaggi In particolare, per ogni macrofase del processo di produzione dellinformazione statistica, sono stati individuati standard con lobiettivo di minimizzare lutilizzo di software proprietario. Laddove luso di software proprietario sia reso necessario dalloggettiva superiorità o dagli investimenti già effettuati, si è provveduto ad affiancare tecnologie proprietarie con software non proprietario. Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Gli standard tecnologici di sviluppo Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source Ambiente di riferimento linguaggiSW generalizzati Acquisizione dati Linux Windows Apache-Tomcat Oracle MySql Oracle Developer, Java, PHP, C Teleform, DATISTAT, exFolia, BLAISE, CsPro, LimeSurvey, ACTR Controllo e correzione Linux Windows Oracle MySql Oracle Developer, Java, PHP, C, R CONCORD-JAVA, CANCEIS, DIESIS, BANFF Stime e tabulazioni Linux Windows Oracle MySql Java, PHP, C, RSMOL+ IMPAGINA, R (SURVEY, EVER), GENESEES Diffusione tradizionale e web Linux Windows Apache-Tomcat Oracle MySql Oracle Developer, Java, PHP, C, R Mu-Argus, Tau- Argus, SMOL, Foxtrot.META, Foxtrot.PD, Web.PD, Foxtrot.MD, Web.MD, Sdmx.ISTAT
Le attività in corso e pianificate Gli obiettivi sono: sviluppo delle nuove applicazioni con tecnologie open; eliminazione dai sistemi sviluppati in ISTAT delle componenti di software proprietario, per garantirne la portabilità e la fruibilità da parte altri soggetti. Nel perseguire tali obiettivi, si intende massimizzare il riuso, favorito dalla disponibilità del codice sorgente. Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Sviluppo di nuove applicazioni con tecnologie open appena rilasciato il sistema generalizzato RELAIS per il record linkage probabilistico, sviluppato in JAVA e R in fase di sviluppo nuove versioni di sistemi generalizzati che coprono il disegno dei campioni (MAUSS) e il calcolo delle stime campionarie coi relativi errori (GENESEES), utilizzando R anziché SAS Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Eliminazione dai sistemi sviluppati in ISTAT da componenti di software proprietario software generalizzato ISTAR per la costruzione di web data warehouse: è in corso di completamento, grazie ad un progetto di cooperazione, una versione del toolkit che sostituisce le componenti DBMS Oracle e Oracle Developer, rispettivamente con MySql e Java software generalizzato CONCORD per il controllo e la correzione degli errori: è in fase di rilascio la versione con interfaccia Java anziché SAS/AF portabile in qualsiasi ambiente Linux o Windows software generalizzato DIESIS per il controllo e la correzione degli errori in variabili sia categoriche che continue: tale software fa uso di CPLEX, in corso di sostituzione con equivalente strumento open Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Le potenzialità dellopen source: massimizzazione del riuso Caso del software generalizzato per la produzione delle stime campionarie (calibrazione e calcolo varianza). In corso il progetto di sviluppo di GENESEES-R, dove le funzionalità saranno così ottenute: package survey di R per la calibrazione; package survey modificata per il calcolo analitico della varianza campionaria; package ever sviluppata ex-novo in ISTAT per il calcolo della varianza campionaria col metodo dei campioni replicati (per stimatori di qualsivoglia complessità). Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Ladozione dellapproccio open La rivoluzione indotta dallopen source è nelladozione di una logica cooperativa di sviluppo, propria dei metodi di produzione dei sistemi aperti. La coppia ambiente di sviluppo cooperativo e vetrina virtuale è alla base di un tale approccio. Esempi CNIPA: ed R: Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Un ambiente per lo sviluppo open in ISTAT Per favorire ladozione della modalità aperta di sviluppo, occorre individuare analoghi strumenti allinterno dellIstituto. La vetrina può essere costituita da due elementi già disponibili o in corso di completamento: lOsservatorio Tecnologico del Software (software generalizzato); il Catalogo Applicazioni (applicazioni riutilizzabili). Lambiente per lo sviluppo cooperativo deve invece essere allestito. Dovrà garantire: gestione delle release e delle relative documentazioni; repository e versioning del codice sorgente; gestione dei task; gestione news e forum Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Le modalità di sviluppo e utilizzo del software: scenario con software proprietario Le tecnologie e gli strumenti sono quelli messi a disposizione dal fornitore di software proprietario. Le informazioni sullevoluzione dellofferta sono date dai commerciali e dai siti-vetrina. Levoluzione può essere orientata a logiche differenti da quelle dellutente. Esiste una spinta esterna ad adottare determinate soluzioni. Le soluzioni innovative spesso non sono a costo zero. Le soluzioni innovative non sempre sono immediatamente reperibili e sperimentabili (logica del trial con scadenza prefissata). Le procedure vengono realizzate con strumenti di cui non è disponibile il sorgente. Le procedure realizzate non sempre sono portabili allesterno. Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Le modalità di sviluppo e utilizzo del software: scenario con software open Le tecnologie e gli strumenti sono quelli messi a disposizione dalle comunità di sviluppatori. Le informazioni sullevoluzione dellofferta sono disponibili in rete. Si scelgono gli strumenti la cui evoluzione è in linea con quella dellutente. La convenienza dellutente è lunica motivazione ad adottare una soluzione Il costo di acquisizione è nullo. Le soluzioni innovative sono immediatamente reperibili e sperimentabili da rete. Le procedure vengono realizzate con strumenti di cui è disponibile il sorgente, alloccorrenza modificabile. Le procedure realizzate sono sempre portabili, per definizione Roma, 4 marzo 2008 Il processo di produzione dellinformazione statistica e lopzione open source
Titolo del convegno anche su più righe Necessità di un percorso condiviso che trasformi lambiente di produzione del software per i processi di produzione e le sue modalità di fruizione da parte degli utenti (informatici e statistici) Investimenti in formazione e trasformazione del modo di lavorare Da clienti nel mercato a comunità scientifica Conclusioni Il processo di produzione dellinformazione statistica e lopzione open source Roma, 4 marzo 2008