Modulo 6. La conservazione a lungo termine di documenti informatici GESTIONE DOCUMENTALE Maria Guercio
i temi Introduzione La conservazione digitale: i nodi concettuali I formati per la produzione e la conservazione di documenti informatici I metodi per la conservazione Depositi d’archivio e custodia di archivi digitali Il quadro normativo nazionale: la conservazione digitale
INTRODUZIONE
che cosa si intende per conservazione di documenti digitali La funzione in grado di assicurare che gli utenti del futuro possano: identificare, ricercare, trattare, interpretare, utilizzare documenti digitali in un ambiente caratterizzato dalla modifica costante della tecnologia e in condizioni che assicurino la presunzione di autenticità dei documenti medesimi Si caratterizza più decisamente rispetto al passato in termini di gestione del rischio Richiede un continuo aggiornamento delle policy, delle attrezzature, degli standard di rappresentazione Si configura come una funzione diffusa e condivisa di cura del digitale (digital curation)
che cosa implica la conservazione di documenti digitali interventi di mantenimento dei documenti e delle loro caratteristiche significative (significant properties e/o informazioni di rappresentazione?) con specifica attenzione alla completezza, coerenza e accuratezza degli elementi descrittivi delle entità documentarie e delle relazioni di contesto che danno al documento significato all’adozione di corrette e precoci politiche per gestire il trasferimento di custodia e la selezione alla documentazione nel tempo dei processi e delle attività di gestione e tenuta in tutte le fasi di vita alla definizione e gestione di modelli generali di riferimento
il modello OAIS: un’architettura aperta per la creazione di depositi digitali Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6
il modello OAIS: in sintesi I due perni basilari, su cui ruota l’intera struttura dell’OAIS, sono le informazioni di contenuto (oggetto di dati e informazioni di rappresentazione sintattiche e semantiche), ossia il documento da conservare assieme ai suoi metadati, e le informazioni di conservazione, ovvero tutte le informazioni utili alla conservazione digitale di quel determinato documento in oggetto, distinte in informazioni di identificazione, di provenienza, di contesto e di integrità. Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6
il modello OAIS: informazioni descrittive per la conservazione (PDI) Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6
il modello OAIS: le informazioni ci sono tutte…: informazioni di identificazione e di contesto informazioni di identificazione (reference information): individuano senza ambiguità le informazioni di contenuto (ad esempio le informazioni catalografiche di una risorsa biblioteconomica, ma anche le informazioni di localizzazione web per il controllo delle versioni e delle copie, come nel caso dell’Uniform Resource Name), informazioni di contesto, (context information): definiscono il legame fra il contenuto e l’ambiente, del quale è espressione e da cui proviene; descrivono il motivo per cui il contenuto informativo è stato creato e i modi in cui si connette con altri contenuti informativi esistenti altrove (puntatori relativi alle specifiche hardware e software, al supporto di memorizzazione e ai relativi lettori per la codificazione, alla versione originaria in caso di migrazione, link per individuare relazioni e rimandi utili a sostenere percorsi differenziati di lettura, ecc.) Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6
il modello OAIS: le informazioni ci sono tutte…: informazioni di provenienza e di integrità informazioni di provenienza (provenance information): afferiscono alla storia delle informazioni di contenuto, ossia alle loro origini, alla descrizione della loro fonte, ai cambiamenti subiti nel corso della loro storia, alla responsabilità di chi si è fatto carico del loro mantenimento con particolare riferimento alle trasformazioni subite nel corso delle attività di gestione e conservazione (documentazione delle migrazioni, ecc.) informazioni di integrità (fixity information): intendono utilizzare a fini esclusivamente gestionali tutti i mezzi di controllo dell’integrità del documento o chiavi di validazione e verifica (ad es. la firma digitale), per assicurarsi che il contenuto del documento non sia stato oggetto di modifiche o manipolazioni illecite (schemi per l’individuazione di errori, controlli di ridondanza ciclica e tutti quegli elementi che evidenziano potenziali corruzioni nella stringa di bit , ecc.) Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6 10
… e sono integrate con i processi e i responsabili negoziare con i soggetti produttori dei documenti al fine di acquisire il prima possibile le informazioni rilevanti ai fini della conservazione (produttore e deposito comunicano mediante SIP che sul piano operativo devono essere trasformati in modelli semplici): potrebbe essere una fase più semplice con l’impiego di standard descrittivi in fase di formazione della risorsa esercitare un controllo adeguato sul livello (in termini di qualità e quantità) delle informazioni utili a fini conservativi di lungo termine (il deposito predispone AIP) identificare la “comunità designata di utenti” e la disponibilità di informazioni immediatamente comprensibili alla comunità medesima (la comunicazione avviene mediante DIP trasformati in strutture e moduli intuitivi) definire politiche e procedure per la funzione conservativa pianificate, documentate e monitorate al fine di garantire il mantenimento e la fruizione di informazioni autentiche e integre (esercitando la funzione di archival storage) valutare adeguatamente i modelli organizzativi da adottare rispetto alle tipologie previste in OAIS (modello indipendente, cooperativo, federato, condiviso). Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6
il modello OAIS: i vantaggi - 1 capacità di rispondere alle esigenze di qualunque tipo di ambiente, adattabilità alle esigenze di un’archiviazione complessa, supporto agli interventi pianificati, possibilità di applicare lo standard anche retroattivamente, sviluppo di un linguaggio comune e di comunicazione per una sempre più ampia e diversificata comunità di riferimento (utenti interessati ai contenuti, personale addetto alla gestione amministrativa e informatica dei depositi, sistemisti e sviluppatori, responsabili per la definizione di policy, auditor e finanziatori) Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6
il modello OAIS: i vantaggi - 2 possibilità di gestire - oltre alle componenti descrittive - requisiti gestionali e attività rilevanti per il servizio di conservazione: avvisi di gestione, controllo terminologico e di coerenza, registrazione di schemi di metadati, autorizzazioni. Ogni servizio è adeguatamente documentato capacità di rispondere alla necessità crescente di strumenti in grado di tracciare l’evoluzione della prassi e gestire problemi complessi e imprevisti di conservazione (identificazione e tenuta di nuove tipologie di oggetti anche complessi, impacchettamento, federazione, identificatori, integrazione tra depositi e altri sistemi) Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6 13
che cosa non è la conservazione digitale Non è riducibile a procedure e comportamenti omologati all’ambiente tradizionale Non è riducibile a procedure uniformi: non esistono soluzioni fotocopia Non si identifica con la conversione/riproduzione su supporti di qualunque natura o, comunque, su supporti di maggiore durata e affidabilità, che consiste solo di uno dei tanti possibili strumenti o metodi al servizio della conservazione Non è riconducibile alla conservazione di bitstream È in ogni caso finalizzata a limitare gli effetti negativi dell’obsolescenza tecnologica e della fragilità dei supporti.
gli ambiti cruciali di indagine (e le principali ricerche in corso) quadro di riferimento concettuale e terminologia rigorosi e coerenti (InterPARES) formati (PRONOM) metadati per conservare e descrivere documenti (ISO, EAD-EAC, PREMIS, modello di riferimento delle attività definite nelle diverse fasi della gestione (formazione, tenuta, conservazione: document creation, record keeping, record preservation) (OAIS, CASPAR, Chain of preservation di InterPARES) responsabilità: la funzione dei depositi digitali archivistici (pianificazione, analisi e verifica dei requisiti, monitoraggio, certificazione) (TRAC, DRAMBORA, NESTOR, RAC-ISO 16363) applicazioni integrate: ARCHIVEMATICA (www.archivematica.org) reti: APARSEN
la conservazione digitale in particolare: i passaggi critici all’interno di un’organizzazione - 1 policy interne a ciascuna organizzazione utilizzando nel caso dei sistemi documentari attivi l’opportunità di predisporre manuali di gestione del sistema documentario (dpr 445/2000 per le pp.aa, ma il nuovo CAD si applica in parte ai privati), con crescente attenzione alle parti, già previste, dedicate alla tenuta dei documenti adozione di formati standard nella fase di formazione dei documenti individuazione di responsabilità certe, diffuse e riconosciute interne all’ente Anche se molta strada resta da percorrere in questo ambito, alcuni punti fermi si possono considerare acquisiti:
la conservazione digitale in particolare: i passaggi critici all’interno di un’organizzazione - 2 definizione di regole e procedure stringenti soprattutto nel caso di esternalizzazione dei servizi per la p.a.: la funzione documentaria è una funzione pubblica e non può essere gestita da terzi senza garanzie; la responsabilità è sempre dell’amministrazione valutazione, analisi e contenimento dei costi in relazione agli obiettivi e ai metodi possibili o necessari riqualificazione delle componenti professionali tecniche (archivisti e informatici) e di tutto il personale con specifico riferimento ai dirigenti responsabili mediante programmi di formazione: la conservazione è possibile nella misura in cui si gestisce adeguatamente la formazione dei documenti Anche se molta strada resta da percorrere in questo ambito, alcuni punti fermi si possono considerare acquisiti: 17
la conservazione digitale: i nodi concettuali
una infrastruttura teorica e metodologica per la conservazione di archivi autentici: il ruolo di InterPARES Il progetto ha sviluppato principi teorici e metodologia essenziali per la conservazione a lungo termine di documenti autentici creati e mantenuti in forma digitale. In particolare, si definiscono le basi per formulare direttive, strategie e standard in grado di assicurare la persistenza dei documenti e la capacità per gli utenti di presumerne l’autenticità. Il supporto non è inestricabilmente legato al contenuto documentario: si limita a gestire la memorizzazione di uno o più bitstream utilizzati per riprodurre il documento ma non è utile al fine di valutare l’autenticità dei documenti conservati. Anche se molta strada resta da percorrere in questo ambito, alcuni punti fermi si possono considerare acquisiti:
la definizione di conservazione digitale (OAIS) “L’insieme dei principi, delle politiche, delle disposizioni e delle strategie finalizzate a prolungare l’esistenza di un documento o di una risorsa digitale grazie alla sua tenuta in condizioni adatte all’uso nella forma originale e/o in un formato persistente che garantisca l’integrità della configurazione logica e del contenuto”
concetti chiave: autenticità “la capacità del documento di essere ciò che dichiara, senza falsificazioni e manipolazioni” È a rischio nei processi di trasmissione e di conservazione È riconducibile ai concetti di identità e di integrità L’autenticità è presunta sulla base del grado di requisiti cumulativamente rispettati da un sistema di conservazione: più alto è il numero dei requisiti rispettato più alto è il grado di presunzione dell’autenticità raggiungibile n
autenticità: identità e integrità L’identità di un documento riguarda gli attributi che consentono di caratterizzare univocamente un documento: i nomi delle persone che concorrono nella sua formazione, le date di formazione (creazione, ricezione, tenuta) e di trasmissione l’indicazione dell’atto/fatto rappresentato o in cui partecipa l’espressione del vincolo archivistico (indice di classificazione o altro codice univoco di identificazione) L’integrità di un documento si riferisce alla sua completezza e intangibilità negli aspetti essenziali 22
autenticazione/validazione La dichiarazione dell’autenticità di un documento da parte di chi sia autorizzato in un determinato sistema giuridico a produrre tale dichiarazione (pubblico ufficiale, notaio, autorità di certificazione): può essere inclusa nel documento in ambiente digitale si traduce in un metodo per provare l’autenticità del documento in un momento dato (firma digitale, sigillo informatico, timbro elettronico, ecc.) firme digitali e sigilli informatici possono essere strumenti di gestione dei processi conservativi, ma non sono oggetto di conservazione: gli istituti di conservazione in Nord America non accettano in versamento documenti cifrati o firmati digitalmente n
affidabilità La credibilità di un documento in quanto rappresentazione di un atto/fatto. E’ valutabile analizzando la completezza della forma del documento e la quantità di controlli presenti in relazione al processo di formazione del documento
documento digitale e componenti digitali Un documento digitale viene riprodotto da un sistema informatico, tipicamente su uno schermo, in relazione alla richiesta di un utente o nell’ambito di interrelazioni tra sistemi. In ogni caso non può essere memorizzato nella forma in cui è visualizzato e utilizzato. Il documento digitale è conservabile non come originale, ma solo in quanto capacità di riprodurre il documento (una sua copia autentica) mediante la conservazione delle componenti digitali costitutive: il sistema deve perciò essere in grado di identificare e localizzare tutti le componenti digitali di ciascun documento e utilizzare il software appropriato per ciascuna componente. Esempi: Email = 1. testo del messaggio, 2. una fotografia, 3. una firma digitale, 4. dati di intestazione (4 componenti) Rapporto: file pdf unico (1 componente) oppure n file per ciascuna pagina (n componenti): n componenti possono essere incorporate in un’unica componente senza produrre significativi cambiamenti
le condizioni dell’affidabilità e dell’autenticità dei documenti Un sistema documentario affidabile nel tempo richiede : organizzazione e controllo delle responsabilità per la produzione e tenuta dei documenti sviluppo di procedure e strumenti che identifichino in modo certo nel tempo e nello spazio i documenti prodotti e conservati e il collegamento con le attività cui partecipano. L’autenticità è assicurata dalla integrità e dalla identificazione univoca e certa dei documenti e delle informazioni per la loro formazione e gestione che ne consentono la comprensione con riferimento al contesto originario di produzione L’autenticità è verificabile/presumibile se il sistema documentario e i modi concreti di gestione sono documentati in modo completo.
il nodo dell’autenticità e degli strumenti di verifica (InterPARES) - 1 Il problema dell’autenticità è centrale per i documenti attivi oggetto di migrazione tecnologica per il mantenimento dei documenti versati negli istituti di conservazione: le condizioni di autenticità devono essere verificabili per i documenti nella fase critica di trasferimento dall’ambiente di produzione originario a quello di consultazione a fini di ricerca La verifica dell’autenticità di un documento è possibile solo ricostruendo la storia (anche gestionale) del documento medesimo a condizione, quindi, che il documento ne abbia mantenuto le tracce (come avviene nel caso di documenti cartacei durevoli e stabili): è indispensabile perciò mantenere anche la documentazione relativa agli interventi di migrazione effettuati nel tempo e ai trattamenti subiti
il nodo dell’autenticità e degli strumenti di verifica (InterPARES) - 2 Centralità del concetto di provenienza, della sua documentazione e del custode fidato Inutilità della firma digitale a fini di conservazione a lungo termine: difficoltà di valutare – a distanza di tempo – la semantica delle firme utilizzate (per funzioni e fini diversi da persone diverse), rischi nella durata delle Public Key Infrastructure; il documento perduto non può essere ricostituito e non ci sono garanzie sul fatto che anche il valore dell’impronta non sia stato manipolato: la firma digitale è un meccanismo molto fragile Nel deposito digitale sono necessari numerosi sistemi di garanzia e sicurezza anche con riferimento alla conservazione dei metadati
la garanzia dell’accessibilità (InterPARES) Mantenere, a costi accettabili, la possibilità di accesso e la fruizione efficiente implica la definizione di metodi per affrontare l’evoluzione delle tecnologie Non ci sono metodi oggi accettati e fattibili che non implichino (sia pure con frequenza diversificata) modifiche al flusso di bit dei documenti Diversi approcci sono possibili e spesso complementari nelle diverse fasi di tenuta di una risorsa digitale: emulazione, incapsulamento, virtual machine software, migrazione evolutiva o in formati standard persistenti (es. XML) La fattibilità della tenuta delle fonti digitali nel tempo costituisce un parametro molto significativo e di difficile valutazione (in tempi utili). E’ indispensabile; preparare per tempo la transizione utilizzare gli standard per gestire formati dei dati compatibili con l’interoperabilità e la conservazione, escludendo formati binari, formati proprietari, formati orientati all’applicazione
i requisiti per la verifica dell’autenticità presso l’ente produttore I requisiti di autenticità si basano sulla possibilità di: identificare (utilizzando la metodologia sviluppata dalla diplomatica) uno schema generale delle componenti del sistema documentario (di cui la firma digitale è solo un elemento): elementi identificativi del documento stabilire quali componenti del documento e del contesto siano essenziali per la conservazione di documenti autentici (gestione dei privilegi di accesso, audit trail, misure protettive, gestione in sicurezza dei supporti, controllo dell’obsolescenza, backup, ecc.)
i requisiti per la verifica dell’autenticità presso gli archivi di conservazione Dopo che i documenti sono stati dichiarati autentici nel corso del processo di selezione e sono stati trasferiti dal produttore alla persona giuridica responsabile per la conservazione, la loro autenticità deve essere mantenuta riproducendo i documenti stessi e autenticando le copie La produzione di copie autentiche è regolata da un secondo gruppo di requisiti concettuali per i quali si sono sviluppati standard internazionali finalizzati alla creazione di procedure di certificazione (baseline requirements secondo InterPARES)
Baseline requirements : B1 Controlli su trasferimento, mantenimento e riproduzione dei documenti Le procedure e i sistemi usati per trasferire i documenti all’archivio storico, mantenerli e riprodurli devono includere controlli adeguati ed efficaci a garantire l’identità e l’integrità dei documenti, e specificatamente devono assicurare che: sia mantenuta e documentata la qualità della custodia dei documenti; siano rispettati i requisiti previsti nella fase di formazione siano messe in atto e monitorate procedure di sicurezza e controllo; e il contenuto dei documenti rimanga inalterato dopo la riproduzione
Baseline requirements : B2 Documentazione del processo di riproduzione e dei suoi effetti L’attività di riproduzione a fini conservativi deve essere documentata e la documentazione deve includere: La data della riproduzione e il nome della persona responsabile; Una descrizione della relazione tra i documenti acquisiti dal produttore e le copie prodotte dall’archivista; Una descrizione dell’impatto del processo di riproduzione sulla forma, il contenuto, l’accessibilità e l’uso dei documenti; e Nei casi in cui la copia non riproduca pienamente e fedelmente gli elementi che esprimono l’identità e integrità del documento, tale informazione deve essere documentata dall’archivista e questa documentazione deve essere facilmente accessibile all’utente.
Baseline requirements: B3 Descrizione/documentazione degli archivi e dei processi conservativi La descrizione archivistica del fondo che contiene i documenti elettronici deve includere - oltre all’informazione sui contesti giuridico-amministrativo, di provenienza, procedurale e documentario - anche le informazioni sui cambiamenti che i documenti hanno subito a partire dalla fase di formazione
alcuni punti fermi negli standard internazionali - 1 Il problema della conservazione non è riducibile alla gestione del supporto E’ necessario distinguere due classi di documenti digitali: i documenti memorizzati (stored record) e i documenti resi accessibili/esibiti temporaneamente, ogni volta che sia necessario, in quanto copie autentiche (manifested record) Con riferimento ai dati digitali memorizzati (componenti digitali) da conservare per riprodurre i documenti conservati si distinguono tre tipologie: content data, form data, composition data “To face the challenges and take advantage of the possibilities offered by digital technology, we need a richer and deeper understanding of the nature of digitally encoded information and how such information can be and can be managed as records. We need to be better able to apply the knowledge we have of records and records management in the digital realm; translating it in terms that make it effective; adapting it where necessary; and also abandoning those concepts and techniques that are not viable in cyberspace. If we fail to do so, we run the risk of seeing records management become an increasingly esoteric exercise, divorced and isolated from the mainstream of affairs…
alcuni punti fermi negli standard internazionali - 2 Il processo di conservazione richiede un numero crescente e impegnativo di informazioni (metadati) da acquisire: è destinato ad avere peso e successo se gestito automaticamente, strettamente correlato ai processi di formazione dei documenti e alla gestione delle informazioni di contesto, utilizzato come componente specifica di una catena della conservazione I metadati resi disponibili nei processi di formazione dei documenti e rilevanti a fini conservativi sono finalizzati ad acquisire informazioni significative in relazione agli aspetti gestionali e alle transazioni che hanno per oggetto i documenti, la cui principale funzione è quella di testimonianza di attività giuridicamente rilevanti e non di contenitore di informazioni E’ necessaria una mediazione “descrittiva” da parte dell’archivista. Da Investigating the roles and requirements, manifestations and management of metadata in the creation of reliable and preservation of authentic electronic entities, Report on the work and findings of the Interpares 2 Description Cross Domain Group, 2006
metadati e conservazione digitale: una funzione essenziale Per quanto riguarda le finalità conservative, i metadati sono necessari: alla identificazione certa e univoca della risorsa (ad esempio i dati di protocollazione/classificazione, ecc.) a documentarne l’integrità in fase di trasmissione nello spazio e nel tempo: dati di contesto in relazione al processo di lavoro documentazione sulle attività per la tenuta dei documenti (selezione, collocazione fisica, protezione, migrazione…)
quali metadati per gestire la conservazione? Metadati relativi agli interventi di conservazione audit trail o altre procedure protettive che prevengano perdite o corruzione dei documenti controllo/monitoraggio relativo al deterioramento dei supporti e ai cambiamenti tecnologici (obsolescenza delle tecnologie) sistemi di validazione esistenza di privilegi di accesso concernenti la produzione, la modificazione, l’annotazione, il movimento e la distruzione dei documenti identificazione delle procedure di trasferimento: indicazione dei documenti trasferiti, delle strutture e persone responsabili per il trasferimento e per la sua acquisizione, data del trasferimento, identificativo del versamento, relazioni archivistiche con gli altri documenti e archivi collegati, documentazione di autorizzazione Metadati di formazione dei documenti: Identity Metadata Integrity Metadata Creation Process Metadata Metadati di trasferimento: Transfer Verification Metadata Feasibility Confirmation Metadata Record Accession Metadata Preservation Action Metadata Description Metadata Retrieval Metadata Presentation Metadata Package Output Metadata
i formati per la produzione e conservazione di documenti informatici
i formati dei file Ogni oggetto digitale (non ogni documento digitale) è memorizzato come una sequenza di bit identificata e memorizzata come entità unica nell’unità di memoria (un file word di 30 kb equivale a una sequenza di 245760 bit costituiti di 0 e 1 espressi secondo uno specifico ordine) La sequenza di bit è intelligibile e riproducibile come contenuto e forma se interpretata da un sistema informatico sulla base dei medesimi codici e delle stesse regole con cui è stata originariamente creata
i requisiti dei formati per la conservazione: requisiti generali di I livello non proprietà (formato libero): le specifiche non sono prerogativa di organizzazioni private, ma dipendono dalla comunità degli sviluppatori (ODF) apertura (completa documentazione pubblica e liberamente accessibile, ad esempio sul web) (DOCX, PDF) standardizzazione (specifiche definite o approvate da un organismo di normalizzazione: ISO, ECMA, W3C): riconoscimento ufficiale possibilmente de jure; ampia adozione trasparenza: semplicità nell’analisi diretta del file anche mediante editor (TXT): sono trasparenti i formati non binari espressi direttamente con codifiche ASCII o UNICODE (TXT, XML, HTML). Sono formati facilmente interpretabili e quindi da privilegiare per la conservazione
i requisiti dei formati per la conservazione: requisiti generali di I livello: esemplificazioni DOC: proprietario, aperto, non trasparente, standard de facto RTF: proprietario, aperto, trasparente, standard de facto DOCX: non proprietario in quanto approvato dall’ISO nel 2008, aperto, trasparente (basato su XML), standard de jure
i requisiti dei formati per la conservazione: requisiti generali di II livello robustezza: in caso di corruzione consente il recupero anche parziale dei contenuti (è un problema di gradi: i formati compressi sono meno robusti): TIFF vs JPEG stabilità (compatibilità retroattiva e prospettica): modifiche limitate nel tempo (TIFF vs DOC): è quasi sempre solo retroattiva auto-contenimento o auto-inclusione: permette di includere tutte le risorse necessarie per la sua rappresentazione (risorse interne vs link) auto-documentazione: possibilità di includere metadati nel file indipendenza dal dispositivo o portabilità rispetto alla piattaforma assenza di meccanismi tecnici di protezione (possibilità di riproduzione vs password o crittografia) assenza di limitazioni sull’utilizzo accessibilità: facile fruizione anche da persone diversamente abili non modificabilità sicurezza: rispetto ad attacchi da parte di codici maligni efficienza: contenimento delle dimensioni del file
lo stato dell’arte per i principali formati ODF (OpenOffice): soddisfa tutti i requisiti purché non contengano contenuti multimediali (binari) OOXML (Microsoft): c.s. dal 2008 anche se l’efficienza è limitata PDF e PDF/A (Adobe): non proprietario, aperto, non trasparente (compresso), standard de jure
PDF/A Corrisponde alla versione 1.4 del PDF Assicura la produzione di rappresentazioni stabili (testo e immagini) Comprende regole in grado di sostenere la leggibilità (ad es. assenza di cifratura, font incorporati e standard, metadati standard) Esistono prodotti per la verifica del rispetto di tali regole
i formati specifici accettati dagli Archivi francesi - 1
i formati specifici accettati dagli Archivi francesi - 2
i metodi per la conservazione
considerazioni preliminari alla definizione di un metodo ( 1) Non è possibile conservare l’originale di documento elettronico, ma solo la capacità di riprodurlo La relazione tra un documento archivistico e un “file” può essere uno-a-uno, uno-a-tanti, tanti-a-uno, tanti-a-tanti La stessa presentazione di un documento può essere creata da una varietà di presentazioni digitali, e viceversa, da una presentazione digitale si può generare una varietà di presentazioni documentarie E’ possibile cambiare il modo in cui un documento è contenuto in un “file” senza cambiare il documento La conservazione digitale riguarda sia i documenti nati digitali che i patrimoni digitalizzati a fini culturali di varia natura
considerazioni preliminari alla definizione di un metodo (2): riproduzione Il primo passo nel riprodurre un documento elettronico è ricostruirlo associando tutte le sue componenti digitali nell’ordine giusto Il secondo passo è rendere le componenti, individualmente e collettivamente, nella forma documentaria giusta Il terzo passo è ristabilire le relazioni tra il documento in questione e tutti gli altri documenti che appartengono alla stessa unità.
considerazioni preliminari alla definizione di un metodo (3): catena di conservazione In considerazione del fatto che i processi di immagazzinamento e reperimento comportano trasformazioni fisiche e di rappresentazione, il concetto tradizionale di catena ininterrotta di custodia deve essere ampliato e includere i processi necessari ad assicurare la trasmissione inalterata nel tempo del documento La catena ininterrotta di conservazione comincia quando i documenti sono prodotti col rispetto dei requisiti per autenticità/benchmark e continua con la documentazione di tutti i cambiamenti subiti dai documenti e dei processi di selezione, trasferimento, riproduzione e conservazione
considerazioni preliminari alla definizione di un metodo (4) I controlli possono essere realizzati tecnologicamente, ma devono essere determinati sulla base di principi e criteri definiti in base alla natura dei documenti medesimi E’ impossibile mantenere letteralmente inalterato un documento elettronico L’unico modo di provare che un documento elettronico è autentico è riprodurre una copia autentica La tecnologia non può determinare la soluzione al problema della conservazione permanente dei documenti elettronici: Le esigenze determinate dalla natura degli oggetti digitali trattati (funzioni e caratteristiche) definiscono il problema e i principi per valutare la correttezza e adeguatezza di ogni soluzione tecnica Le soluzioni al problema della conservazione sono dinamiche
i metodi per la conservazione dei documenti informatici: requisiti Conservare una copia dell’oggetto digitale (con il livello di dettaglio sufficiente: non sempre è necessaria una copia esatta dell’originale) Restituire forma e contenuto dell’oggetto grazie a un sistema accurato di riproduzione delle caratteristiche ritenute essenziali Verificare (e assicurarne la verificabilità nel tempo) l’accuratezza dell’intero processo Disporre della necessaria consapevolezza per la complessità della gestione della funzione conservativa di lungo periodo
i metodi per la conservazione dei documenti informatici: proprietà significative La complessità dell’intervento dipende anche dalla necessità di definire criteri su base soggettiva (almeno parzialmente) generali di comportamento per tipologie documentarie e procedure definite: La decisione impegnativa di conservare i colori di una mappa richiede la valutazione del significato dei colori (essenziali in una mappa catastale), rilevanti a fini estetici in una mappa architetturale. La decisione conservativa deve avvenire a livello di archivio E’ necessario disporre degli elementi per valutare il grado di funzionalità e il loro possibile sviluppo soprattutto in termini di ragionevole riuso. E’ di grande utilità disporre dei dati che ci consentono di valutare il livello di documentazione accessibile e necessario per le diverse classi di oggetti: per i documenti testuali si possono richiedere la presentazione e il layout di stampa al fine di non perdere la fluidità e il contesto del testo; nel caso di un db relazionale la perdita dei metodi di presentazione può rendere del tutto incomprensibile il risultato finale del processo conservativo.
i metodi per la conservazione dei documenti informatici: contro la dipendenza dal software Contro i rischi di bitstream privi di significato è necessaria documentazione ricca finalizzata anche ad estrarre informazioni dai dati conservati Nonostante gli sforzi delle organizzazioni internazionali a proposito dei formati, i venditori elaborano nuove versioni senza rilasciare le specifiche tecniche (tuttavia i formati proprietari più diffusi sono sempre più ‘conservabili’) La specifica dei formati è in crescita ed è destinata a svolgere un ruolo rilevante in alcuni contesti (ambiti scientifici e tecnici evoluti, performing arts)
i metodi per la conservazione dei documenti informatici Conservazione delle tecnologie Stampare su carta Imitazione/Emulazione Migrazione
conservazione di tecnologia Conservazione di tecnologia: consiste nel conservare o riprodurre l’hardware e il software originari insieme al loro ambiente operativo. Prevede due opzioni: Mantenimento del vecchio ambiente tecnologico Riproduzione del vecchio ambiente E’ un metodo ritenuto da tempo non perseguibile per l’enorme quantità (in crescita esponenziale) di tecnologia diversa da mantenere. Esistono poi limiti fisici invalicabili. Ha il vantaggio di “sembrare” facile e di semplificare le procedure di verifica dell’autenticità dei documenti. E’ utilizzabile per fasi transitorie e per soluzioni di emergenza Le capacità di utilizzare i vecchi ambiente diminuisce molto rapidamente Gli oggetti fisici conservati rischiano di non poter più essere riparati
riprodurre su carta E’ una soluzione sempre meno utilizzabile (solo per gli oggetti statici: documenti testuali, immagini, ma non i database che sono ancora in attesa di soluzioni inadeguate).
imitazione/emulazione Prevede più opzioni: emulazione creazione di macchine virtuali ingegnerizzazione del software Consiste nel produzione di software specifico per la creazione di un nuovo ambiente informatico che consenta di utilizzare i documenti a fronte di una evoluzione o di una perdita dell’hardware o del software nativi. E’ una sorta di “strato” tra il sistema operativo e i programmi applicativi che “simula” le proprietà originarie del precedente ambiente. Si basa sul presupposto che l’hardware esistente (ad esempio il computer Intel) sia perfettamente (o adeguatamente) documentato. E’ in ogni caso indispensabile operare al momento giusto: non troppo presto né troppo tardi in modo da evitare sia tecnologie troppo complesse sia soluzioni non ancora mature e sperimentate Dan, I have been thinking about software preservation both in binary and source form for quite a while now. Software dependencies are not really a problem if software is preserved correctly in the first place. By this I mean packaging a piece of software and all its dependencies and ensuring that at the time of packaging the software works as intended - i.e. good well defined behavioral testing procedures that can be reused in the future (as a form of representation information). Then at least at some point in time you do have a pointer to a version and all its dependencies that worked together. After that, what you need to do next depends on what someone in the future would want to do with the software. If they want to port the software to a new platform from the source code then the representation information about the languages (plus vendor extension) used in the software and its dependencies would be required. As you do not know what languages or compilers a user will have in the future, they may need to port or re-implement the appropriate compiler on their platform. If they want to run the binary software then full emulation (including the cpu) is the only practical solution. To support emulation you either need all the representation information about a computer system, including information about the instruction set and hardware you would like to emulate (so they can write their own emulator) or you need to preserve the source for the emulator and its behavioral test procedures. Emulation as a software preservation solution has many problems which originate from the types of software you are trying to run, though I am not going into the problems here (it is a research topic of mine). People have tried other types of solutions like binary translation, source code translation and virtual machines, but the one in existence have not proved practical yet. Basically the main problem to solve for software preservation is the problem of making sure that the software behaves as it is supposed to in the future, i.e. all the algorithms produce the correct results regardless of the range of inputs. The other problem is just a matter of defining and keeping the appropriate representation information to support the software preservation use cases. Steve. Dan Brickley wrote: If we're going to go deep into the description of dependencies amongst software, it'd be worth looking at the systems built for languages such as Perl (ie. CPAN), and at the opensource folks' infrastructure (Debian). In particular, there is emerging some interesting dialog about the relationships between these, and some work on integration. The blog post at http://use.perl.org/~Alias/journal/32221 summarises it well. I'll copy it below. The point is that different programming languages at the present time offer widely varying capabilities for representation of dependency (when installing, compiling, or running). Furthermore, many complex software systems (such as those that consume or intepreet the scientific, cultural or artistic content we hope to preserve via OAIS methods) are implemented in a *combination* of programming languages, eg. Perl code that uses a C library. http://use.perl.org/~Alias/journal/32221 is a good starting point, I think. If they succeed, there will be a unified environment for tracking dependencies across a huge variety of software packages and libraries. We could I think usefully then augment that system with more information about the file formats that these packages can be used with. That would I think be feasible, useful, and have a good chance of wide adoption in the outside world. I'll make some enquiries about the representation they're drafting. Details of blog post copied below. cheers, Dan [[[[ Sunday January 21, 2007 05:32 AM The Last Great Repository Problem [ #32221 ] I get bored easily. To fight this boredom, I find myself attracted to grand problems. The sort of problems so wide in scope they can hold off boredom for years. Hence my heavy involvement in the CPAN. CPAN is a hugely interesting thingy to play with, and I've enjoyed fixing some of its problems, or at least coming up with solutions for them that work (not all of which have been implemented yet). Of the remaining CPAN internal problems, most are now just optimisation and scaling issues. We have solutions, they just need to be pushed in different directions. For example, the index problem (which Debian has as well) where the index is starting to get annoyingly large and downloading it every time is getting more painful. The core of the CPAN however, which is essentially an implementation of a "3-uniform complete infinite directed acyclic hypergraph with property rights" works well, and is as sophisticated as it needs to be. PITA, toolchain boot-strapping, mirror auto-detection, getting rid of FTP transports and so on, are just rounding out the capability of this implementation to make it more robust and reliable. But there remains one last great unsolved problem. And this is what from Perl's perspecive could be called the "external dependency problem". That is, we can map depedencies on other Perl modules and fulfill them just fine, but the CPAN client can't install dependencies for other languages. With the increasing likelyhood of large-scale cross-language dependencies in the future (and the existing problem we have already of dependencies on C libraries) this is going to become a bigger and bigger problem. After a lot of discussions with various folks at Linux.Conf.Au from several languages and Linux distributions, I think we might finally have a first approximation of a solution to this problem. Now, depending on the approach there are really only two viable solutions to the dependency problem. Firstly, to make the installers of every language co-operate. I'd believed this to be nearly insurmountable, but happily Perl hacker and Debian packager Angus Lees from Google's Dublin admin group came up with an improvement on my method for attaining installer interoperability. However, the concept in general still has problems, not least the vastly differing underlying methodologies for different installers, plus things like mention platform issues. Some languages like Python can't handle variations in dependencies on different platforms very well or dependencies on language versions (although they are in planning for the third phase of their repository efforts, so who knows). The second, and more preferable option (for now at least), is to instead attack the problem from the perspective of integrating all source repositories more tightly to all the downstream binary repositories, for the various operating system distributions. Specifically, we need to provide the ability for the people like Debian, Redhat et al to automate the mass-production of binary packages. Ironically, they will then still need to solve the problem of interoperating multiple installers, but at least they only have to make it work ONCE, at packaging time, and they have much better options for falling back on humans to deal with corner cases than if we had to intergrate source installation. To achieve this, the best option for starting to deal with this seems to be the creation of a universal grammar for describing dependencies between arbitrary software packages. While not necesarily used natively by each source repositories (although languages with weak packaging like ocaml might adopt it natively anyway) this would be a secondary format that the installers/packages for each source repository could emit on request or as needed. The downstream binary auto-packager could then parse the metadata grammar, establish if those packages exist already as binary packages, and map the deps to the native binary packages appropriately. In the case they aren't available, the binary auto-packager could them abort the process, and recurse to try and binary pack the dependencies first. This wouldn't necesarily let us package ALL of CPAN for the downstream repositories, but it should certainly let us take an application like Jifty or Plagger and bulk-create any packages that don't already exist, crossing language boundaries as needed. And with all upstream repositories using a common format, we can supply not just to Debian, but to ALL downstream binary repositories far more easily, and ultimately, regular users will be installing by binary packages. Except that now, they can actually get a useful module coverage, instead of the current deplorable situation. As a side effect, in future we will have existing code available from these auto-packagers for doing multi-repository recursion, which we can then applied to doing a more-difficult multi-language source installer as well. Andrae Muys from the Mulgara project (the most scalable RDF database currently available) was kind enough to stay behind after LCA and spend Saturday with me, fleshing out a first cut at an RDF grammar for this metadata format (initially intended as a companion vocabulary to the highly-adopted DOAP). DOAP is kinda neat, but WAY too oversimplified. For something with such wide adoption that claims to be aimed at package metadata for open source projects, you'd think the DOAP people would have put in a call to CPAN at some point. The first goal is going to be some sort of proof of concept joining the two richest and most developed source and binary repositories together. That is, to join CPAN to Debian. The second goal will be to repeat the process with two vastly different repositories, probably something like ocaml or erlang on the source side, and something like Fedora on the binary side. So two source and two binary repositories all connected together. If we have something suitable for handling those, we can then take the format to the wider community. Linux Australia seems interested in some sort of "Packaging Summit" to achieve this. And then with another year or so work, we can hopefully round the language out into something suitable via a standards-like process, and come up with a final grammar. If we're successful, this should mean 10,000+ additional modules for downstream distributions, and finally give us a real chance of having "all" (for some definition) of CPAN on your operating system of choice. ]]]
imitazione/emulazione: condizioni E’ necessario conservare: la documentazione dell’hardware il sistema operativo nella forma di un flusso di bit (Windows 2000) il programma applicativo (ad esempio word 2000) nella forma di un flusso di bit l’oggetto digitale (il documento) nella forma di un flusso di bit tutti i metadati necessari (descrittivi, gestionali, ecc.)
imitazione/emulazione: le fasi successive Le fasi successive della conservazione comprendono: la costruzione di un software che emuli l’hardware originario (ad es. Pentium Intel) l’utilizzo del sistema operativo conservato come flusso di bit (ad es. Windows 2000) la ricostruzione e l’uso del programma originario conservato come flusso di bit (ad es. word 2000) per leggere l’oggetto digitale conservato (recuperato e interpretabile grazie alla presenza di metadati)
imitazione/emulazione: svantaggi Non è un metodo molto usato per fini di conservazione a lungo termine: è molto costoso e impegnativo e l’’evoluzione tecnologica rende sempre più difficile la scrittura di emulatori di software sempre più numerosi, sofisticati e complessi (centinaia di migliaia di combinazioni possibili di software applicativi), di cui non si hanno generalmente conoscenze sufficienti. Ripropone, inoltre, i difetti delle tecnologie originarie. Crea problemi notevoli per lo sviluppo di funzioni di help desk necessari a sostenere l’accesso futuro: ad esempio nei sistemi in rete sono necessari sistemi di aiuto alla ricerca molto complessi e diversificati Implica la rinuncia alla possibilità di utilizzare tecniche e prodotti migliori. Il progetto più noto è CAMiLEON (che si è tra l’altro basato anche sulla gestione dei metadati secondo il modello standard OAIS)
migrazione Consiste nel trasferimento di oggetti da un ambiente hardware/software a un altro. Può implicare modifiche anche rilevanti nel flusso di bit che costituiscono il documento. E’ costosa e presenta molti rischi di perdita di informazioni rilevanti all’adeguato accesso archivistico ai documenti. Richiede un livello dettagliato di metadati Prevede più opzioni per la gestione dei formati: il mantenimento dei formati originari compatibili (ad esempio il mantenimento dei vecchi formati word della Microsoft) la migrazione dei formati in modalità evolutiva la migrazione in formati standard per la creazione di persistent object , a sua volta distinguibile in: utilizzo di formati standard in fase di formazione utilizzo in formati standard in fase di trasferimento a fini di tenuta/conservazione
mantenimento dei formati originari Il mantenimento dei formati originari consente la capacità diffusa di manipolazione e, quindi, accresce i rischi per l’integrità dei documenti Non sono garantite le funzioni di archiviazione permanente
migrazione dei formati in modalità evolutiva Non risolve il problema dell’obsolescenza, perché è basata su soluzioni ad hoc e a termine Non è certa l’esistenza di formati di archiviazione Non elimina la difficoltà di gestire una molteplicità eccessiva di formati Non sono sotto controllo i cambiamenti dei formati medesimi: rischia di introdurre errori E’ costosa e impegnativa Dopo un certo numero di anni e una catena di conversioni può essere impossibile e troppo costoso gestire le necessarie verifiche in relazione all’integrità degli oggetti La comunità archivistica ha sempre più consapevolezza della necessità di conservare (anche) il bitstream originario Si utilizza talvolta la “migrazione on demand” per la quale è tuttavia necessaria una struttura intermedia di gestione (modulo di input, di conversione e di output)
migrazione in formati standard Consiste nella trasformazione/produzione di qualunque oggetto informatico utilizzando strumenti standard non proprietari, indipendenti dalla specifica applicazione. Nel caso di documenti office (testi, presentazioni, fogli elettronici) consiste nell’utilizzo di un linguaggio standard (ASCII o UNICODE), incapsulato in un insieme di metadati espressi con marcatori Ha tra l’altro il vantaggio di presumere una durata maggiore del formato e richiedere quindi un numero inferiore di migrazioni Nel caso di utilizzo di tali formati per la produzione di oggetti digitali, si riducono notevolmente i rischi di perdite dovute al processo di migrazione e si aumentano le potenzialità dell’interazione
migrazione in formati standard: vantaggi e limiti Poiché implica un numero minore di interventi di migrazione, si riducono i rischi di autenticità e si minimizzano i cambiamenti Consente controlli specifici e procedure predefinite per la verifica dell’autenticità E’ una tecnica coerente con la natura dei documenti (stabilità dei contenuti e della struttura di rappresentazione) Consente l’utilizzo di tecnologie più avanzate che migliorano l’accesso e la gestione del sistema Ha il limite (temporaneo) di non disporre di applicazioni di mercato evolute
il concetto di deposito digitale
depositi d’archivio e custodia di archivi digitali il concetto di deposito digitale requisiti e progetti di certificazione qualche approfondimento: il trasferimento di custodia (ADRI, UN/CEFACT) le proposte nazionali per i versamenti nelle regole tecniche lo standard UniSInCRO le soluzioni di Archivematica
deposito digitale: una definizione - 1 E’ definito come “un luogo” dove memorizzare, consentire l’accesso e conservare oggetti digitali di diversa natura e complessità insieme ai metadati necessari per descrivere e gestire gli oggetti medesimi. Il rapporto del Research Library Group sui Trusted digital repositories costituisce un punto di partenza e fornisce una struttura di riferimento per sviluppare concetti di base sulla conservazione digitale Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6
deposito digitale: una definizione - 2 I requisiti fondamentali previsti dal rapporto riguardano: il deposito e le relative politiche, standard e infrastrutture tecnologiche il deposito in quanto sistema accreditato (ovvero un sistema di sw e hw fondato su regole certe) E’ implicito il principio di assunzione di responsabilità per la conservazione e tutte le attività correlate inclusa la definizione di metodologie di valutazione e monitoraggio La prima sfida è quella di trasformare i servizi e i depositi tradizionali in servizi e depositi digitali accreditati Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6 71
il nodo cruciale non è tecnologico Da JISC, Infokit Digital Repository, 2010 http://www.jiscinfonet.ac.uk/infokits/repositories//index_html "What goes into a repository is currently less an issue of technological or software ability, and more a policy decision made by each institution or administrator” Ronald Jantz, Michael J. Giarlo, Digital Preservation Architecture and Technology for Trusted Digital Repositories, “D-Lib Magazine”, June 2005, Volume 11 Number 6
il deposito digitale ‘istituzionale’: una definizione ‘generalista’ Da JISC, Infokit Digital Repository, 2010 http://www.jiscinfonet.ac.uk/infokits/repositories//index_html “Typically content can include research outputs such as journal articles or research data, e-theses, learning and teaching materials, and administrative data” 73
requisiti essenziali negli standard internazionali conformità allo standard OAIS in quanto capace di fornire un modello funzionale (per l’archiviazione e l’accesso) e informativo (per la gestione dei metadati descrittivi e conservativi) adeguato chiara responsabilità amministrativa adeguatezza organizzativa e procedurale del deposito sostenibilità finanziaria dell’intervento nel lungo periodo idoneità della infrastruttura tecnologica sicurezza del sistema La finalità è quella di assicurare il grado necessario di affidabilità del sistema mediante il riconoscimento di procedure esplicite e formalizzate
le responsabilità amministratore generale e amministratori di settore; record manager e archivisti; specialisti ICT (sia nel disegno che nell’implementazione dei sistemi); personale per la gestione dei servizi di base e per la sicurezza esperti di gestione del rischio;
i parametri della certificazione dei depositi nei progetti internazionali La certificazione è un processo ordinato di interventi di verifica sul corretto funzionamento di un sistema di conservazione. Riguarda innanzitutto la capacità di provare la credibilità del deposito e dei suoi contenuti Poiché un sistema è il risultato di una combinazione di elementi o parti, anche di altri sistemi, la sua certificazione dovrà esprimersi attraverso una successione di atti di verifica che insistono sul sistema investendo tutte le sue parti. Un programma di certificazione, per essere efficace, deve dunque avere confini certi Certezza e sistematicità sono tuttavia difficili da garantire nell’ambiente aperto e dinamico della conservazione digitale
un quadro stabile in un contesto dinamico Necessità di distinguere tra l’auto-valutazione (progetto DRAMBORA) e l’auditing esterno a cura di terzi (progetto MOIMS, poi ISO 16363) Necessità di definire parametri interni ed esterni al processo: attributi e checklist (TRAC): alla base delle raccomandazioni e degli standard costi e tempi del processo di certificazione durata della validità e modalità di gestione delle ‘scadenze’
raccomandazioni e standard: lo stato dell’arte Dalle linee guida CCSDS allo standard ISO 16363 (metrica per la certificazione) e allo standard 16919 (linee guida per l’attività di auditing) I principali attori e le fasi del processo: NARA-RLG-OCLC (2002-2007: TRAC) CCSDS (2003-2011: MOIMS, ISO, PTAB) DCC (2004-2009: DRAMBORA) NESTOR (2006: criteri di accreditamento) DINI-CNI (2006-2007: soft certification) ADRI (2007: Australasian Digital Recordkeeping Initiative) Nestor: il Catalogo dei requisiti. Nestor-Kriterienkatalog vertrauenswürdige digitale Langzeitarchive, Versione 2, Frankfurt am Main, November 2008
criteri di creazione (dalle raccomandazioni internazionali TRAC e NESTOR) Le raccomandazioni del documento RLG-NARA, Task Force on digital repository certification, Audit checklist for certifying digital repositories (www.rlg.org/en/pdfs/rlgnara-repositorieschecklist.pdf) individuano 4 aree: organizzazione interna: policy per la conservazione, documentazione delle finalità, responsabilità, procedure e risorse, gestione della qualità (ISO 9000), pianificazione delle risorse cooperazione con i produttori e gli utenti finali: definizione della comunità di riferimento, criteri di selezione, linee guida per l’acquisizione, accordi e cooperazione con i produttori, politiche per l’accesso, servizi di consultazione gestione tecnica del sistema: conformità agli standard (es. ISO 15489:2001 sul RM, ISO 17799:2005 sulla sicurezza dell’informazione, ISO OAIS 14721), documentazione dei processi tecnici (disegno di sistema delle funzioni conservative della DL), garanzie di autenticità e integrità del sistema, ambiente HW e SW adeguato, fattibilità della migrazione, flessibilità e modularità) gestione tecnica degli oggetti digitali (metadati descrittivi, digestione, di conservazione e accesso, vocabolari controllati, codici di identificazione persistenti, autenticità e integrità degli oggetti, formati di archiviazione controllati, disponibilità a lungo termine degli oggetti)
che cosa si certifica Persone: livelli di formazione e competenze interdisciplinari, aggiornamento Programmi: mandato istituzionale, risorse finanziarie, staff, infrastrutture di servizio, gestione e conservazione dei depositi, sviluppo dei patrimoni digitali conservati, accesso Processi: livello di normalizzazione e controllo delle procedure (ISO 14721, standard sulla sicurezza) con particolare attenzione per il trasferimento Dati: normalizzazione nella gestione dei contenuti e dei metadati (ISO 9000, metadati descrittivi e amministrativi, norme sulla interoperabilità, ad esempio UniSincro per i volumi/lotti di conservazione) Non tutti i depositi sono uguali: open-access repository, depositi istituzionali, depositi digitali per la conservazione, archivi digitali di livello locale, regionale, nazionale e internazionale. In molti casi la conservazione non è un obiettivo prioritario né necessario. Per altri invece è un obbligo (come nel caso degli archivi nazionali) Standard di riferimento in corso di approvazione è lo standard 16363 (draft) seminario AWIICS (Archival Workshop on Ingest, Identification, and Certification Standards) del 1999, ospitato al College Park dagli Archivi nazionali statunitensi
come si certifica - 1 Sulla base di un modello di riferimento (OAIS) In relazione a parametri definiti (TRAC, DRAMBORA e RAC-ISO 16363) Con il supporto di buone pratiche per le quali sono ancora in via di definizione i parametri di misurazione (PTAB) Grazie allo sviluppo di profili professionali adeguati per l’audit e la certificazione seminario AWIICS (Archival Workshop on Ingest, Identification, and Certification Standards) del 1999, ospitato al College Park dagli Archivi nazionali statunitensi
come si certifica - 2 Con l’ausilio di standard e linee guida di carattere quantitativo e qualitativo (standard ISO 9000, ma anche standard 27001:2005 sulla sicurezza) Con il supporto di documentazione pre-definita dalla normativa o sulla base di routine di dominio (esempio manuale di gestione per la qualità del sistema di gestione documentario del deposito) Con nuovi strumenti (ad esempio il manuale della conservazione previsto dalle regole tecniche in corso di approvazione). seminario AWIICS (Archival Workshop on Ingest, Identification, and Certification Standards) del 1999, ospitato al College Park dagli Archivi nazionali statunitensi
chi certifica Mancano figure professionali Mancano esperienze consolidate Servono metodologie miste sia dal punto di vista delle discipline che dei metodi (serve una combinazione di interventi di autovalutazione condotti sulla base di check-list standard e fasi di controllo affidate a programmi collaudati esterni di accreditamento e monitoraggio che prevedano la presenza di competenze distinte ma in grado di cooperare)
quanto si certifica La conformità alla metrica prevista dallo standard ISO 16363 non può che essere dichiarata in relazione a una valutazione Si sono infatti rese necessarie linee guida di accompagnamento per aiutare il lavoro di auditing (ISO 16919) Si prevede inoltre che il processo di auditing e le regole normalizzate destinate a facilitarne lo sviluppo saranno oggetto di miglioramenti continui sulla base delle esperienze avviate
i principi guida documentazione dei processi di conservazione (con particolare attenzione per la presunzione di autenticità: vedi progetto APARSEN WP 24), trasparenza, adeguatezza, misurabilità, connessione a reti/standard internazionali, ma anche conformità a pratiche/legislazioni nazionali
le prospettive di sviluppo standard internazionali e raccomandazioni nazionali per la definizione di criteri e requisiti per la valutazione dei depositi, Conformità alle normative e ai contesti nazionali specifici nel processo effettivo di audit e accreditamento sviluppo di una cornice generale e comune di criteri validi sul piano internazionale, esecuzione in contesti nazionali o comunque definiti dei processi di valutazione e verifica che conducono all’accreditamento dei depositi, costituzione di reti e consorzi locali di depositi accreditati e possibilmente federati
gli standard ISO 16363 e 16919 - 1 Il progetto in corso di maggior rilievo al fine della certificazione dei depositi digitali è quello costituito dal progetto RAC (Repository Audit Certification) avviato nel 2007 per iniziativa del settore aerospaziale (CCSDS) con l’ambizione di dar vita a standard internazionali riconosciuti, coerenti con lo standard ISO OAIS 14721 e finalizzati a sostenere i processi di accreditamento e certificazione dei depositi digitali, fornire una guida e favorire la produzione di guide tecniche di best practice, offrire elementi di conoscenza per sviluppare capacità interne di ‘auto-certificazione’, rendere disponibili basi tecniche per la elaborazione di strumenti operativi, predisporre un modello di miglioramento continuo in questo ambito.
gli standard ISO 16363 e 16919 - 2 Tra gli obiettivi principali si è stabilito di ottenere il riconoscimento delle regole da parte dell’ISO nella forma di linee guida e raccomandazioni per le attività di auditing a fini di accreditamento dei depositi digitali conformi al modello OAIS. Il comitato tecnico di riferimento ISO (TC 20/SC 13 - Space Data and Information Transfer Systems) è il medesimo cui si deve l’approvazione del modello OAIS Lo standard è in fase avanzata di approvazione
base di partenza e finalità degli standard ISO 16363 e ISO 16919 La base di partenza è costituita dai criteri di audit e certificazione esistenti, con specifico riferimento alla checklist predisposta dal gruppo di lavoro RLG/NARA e al lavoro di semplificazione realizzato dal progetto tedesco NESTOR, simili nella struttura e basati entrambi sul modello OAIS. Si è anche tenuto conto degli standard di audit e certificazione ISO 9000 e ISO 27000. Gli obiettivi specifici riguardano la definizione di una struttura gerarchica (e non una semplice lista) di requisiti e profili di certificazione in grado di sostenere livelli diversi di valutazione degli archivi digitali e l’elaborazione – come s è detto – di due standard ISO, l’uno finalizzato a una metrica per la certificazione dei depositi (ISO 16363), il secondo riferito alla individuazione di linee guida per i verificatori (ISO 16919)
gli standard ISO 16363 e ISO 16919 I requisiti sono discussi ed esemplificati nel medesimo ordine utilizzato nel rapporto TRAC e riguardano la infrastruttura organizzativa (capitolo 3), la gestione degli oggetti digitali (capitolo 4) e la gestione del rischio in relazione alla infrastruttura tecnica e alla sicurezza (capitolo 5). Per ogni requisito la metrica di valutazione è accompagnata da esempi concreti dei modi in cui la conformità possa o debba essere documentata e quindi misurata e verificata
gli elementi di valutazione per la certificazione (ISO 16363) - 1 mandato istituzionale coerente con le finalità anche in termini di garanzia di continuità in caso di trasformazioni istituzionali personale competente ed esperto per tutti i compiti affidati (tecnologici, organizzativi, archivistici) adeguato in numero e riconosciuto nelle responsabilità strumenti e meccanismi per garantire l’aggiornamento professionale del personale procedure e linee d’azione coerenti inclusive di meccanismi di verifica e aggiornamento sul piano tecnologico e organizzativo strumenti di verifica e monitoraggio interni finalizzati a sostenere la continuità della funzione conservativa valutazione esterna periodica sulle funzionalità del deposito documentazione dei cambiamenti intervenuti nel deposito con riferimento alle procedure, al software, all’hardware e in relazione alle strategie di conservazione adottate strumenti per la verifica dell’integrità delle risorse digitali conservate pianificazione delle attività al fine di garantire la sostenibilità del deposito
gli elementi di valutazione per la certificazione (ISO 16363)- 2 accordi di deposito con eventuali altri depositi federati funzioni, attività e procedure di acquisizione degli oggetti digitali che includano: elementi e attributi per ciascuna tipologia di oggetti (identificati secondo standard internazionali) definizione sulla base di accordi scritti con i soggetti produttori che depositano/versano i documenti/archivi delle procedure e delle modalità di gestione e di accesso linee guida per l’acquisizione requisiti per un controllo fisico degli oggetti depositati verifica della completezza e accuratezza degli elementi informativi disponibili (secondo i parametri indicati dal modello OAIS) documentazione delle responsabilità per la conservazione utilizzo di sistemi che garantiscano la identificazione univoca degli oggetti e i legami con le informazioni di rappresentazione utilizzo di meccanismi indipendenti di verifica dell’integrità dei contenuti del deposito
gli elementi di valutazione per la certificazione (ISO 16363) - 3 esistenza e documentazione di strategie di pianificazione della funzione conservativa e di migrazione/gestione che includano i riferimenti ai registri dei formati secondo gli standard internazionali gestione dei metadati descrittivi e gestionali/amministrativi politiche per l’accesso in grado di garantire risposte certe e documentate sistemi di tracciamento dei file di log in grado di testimoniare le criticità degli accessi strumenti in grado di garantire l’esibizione di documenti autentici infrastruttura tecnologica adeguata in termini di sistemi operativi, funzioni di backup, ridondanza (almeno 3 copie) e collocazione sicura delle copie, garanzie per il loro allineamento, meccanismi di verifica delle perdite e delle manipolazioni, processi di migrazione, di documentazione dei processi di gestione del ciclo di vita e del loro impatto sulla conservazione
gli elementi di valutazione per la certificazione (ISO 16363)- 4 sistemi di sicurezza di alta qualità che includano: l’analisi sistematica dell’ambiente, dei dati, del personale, degli impianti e delle attrezzature, delle esigenze meccanismi di implementazione un sistema chiaro di ruoli, responsabilità e autorizzazioni piani scritti di disaster recovery regolarmente verificati processi per la continuità del servizio
il trasferimento di custodia
il trasferimento di custodia Un nodo critico al centro delle attività di sperimentazione Sviluppo di uno standard, Record Exchange Standard BRS (Business Requirements Specification) a cura di un gruppo di esperti del CEN/ISSS/eBES/EG13 sostenuti dall’ICA e dall’ISO (poi UNICEFACT ma anche ADRI) Obiettivi: definire un processo standard di trasferimento e un SIP utile come “lingua franca” per qualunque sistema documentario con specifico riferimento al trasferimento tra sistemi documentari, in particolare nel caso di versamenti in un deposito di conservazione archivistica al fine di: ridurre il rischio di perdita o di compromissione dei documenti e limitare i costi complessivi del trasferimento di documenti digitali da un sistema ad un altro 96
Exchange Standard BRS/UNICEFACT: vantaggi e condizioni Riuso in altri contesti Ridimensionamento degli interventi di adattamento del software Riduzione del lavoro richiesto per il trasferimento di documenti Richiede un accordo per il versamento (transfer agreement) che include le indicazioni relative a: quali documenti trasferire e quali tipologie quando e quanto spesso con quali regole per l’accesso con quali standard di metadati
Exchange Standard BRS/UNICEFACT: sessioni di versamento Una sessione di versamento include: l’indicazione dei documenti da trasferire l’accertamento della accuratezza e completezza della documentazione la presenza di meccanismi di verifica della qualità nella gestione del trasferimento (ad esempio in relazione al fatto che tutti i documenti previsti siano stati trasferiti e che le responsabilità reciproche siano state rispettate e accettate Possono esserci più sessioni di versamento all’interno di un medesimo accordo Possono essere necessarie attività manuali (ad esempio per l’accettazione da parte del deposito d’archivio) e ci può volere un certo tempo (ad esempio per verificare la presenza di virus)
Exchange Standard BRS/UNICEFACT: le perdite Le perdite di documenti possono avvenire: durante il trasferimento nella rete nel deposito o presso il soggetto produttore per ragioni di selezione per le inadeguate funzionalità del software
Exchange Standard BRS/UNICEFACT: tipologie di trasferimento Il trasferimento può riguardare: l’intero archivio informatico (in forma gerarchica sulla base di un sistema di classificazione) parti dell’archivio solo i metadati duplicati dell’archivio
Exchange Standard BRS/UNICEFACT: caratteristiche dello standard Lo standard supporta: qualunque tipo di formato (inclusi i formati di trasferimento quali METS) qualunque tipo di standard di metadati meccanismi fisici diversi (via internet o supporti di varia natura) la mappatura con qualunque sintassi tecnica (ad esempio XML)
Exchange Standard BRS/UNICEFACT: definizione dei flussi Proposal/Manifest agreement o Reject Transfer Session. Transfer (attraverso la produzione di un SIP - Submission information package). Signal Transfer Status: il deposito informa il soggetto produttore; nel caso di ‘custody accepted’ l’archivio accetta la responsabilità per tutti gli oggetti/documenti digitali identificati. Finalise Transfer Session: il soggetto produttore e/o il deposito si scambiano informazioni sul completamento della sessione di trasferimento Esercizio: disegnare un flusso per un caso specifico di versamento 102
Exchange Standard BRS/UNICEFACT: Proposal/manifest agreement L’archivio può ispezionare la proposta di versamento ad esempio esaminando le denominazioni o gli indici di classificazione dei documenti, i tipi di metadati utilizzati. Il soggetto produttore può non accettare l’accordo se i meccanismi di verifica dell’integrità non sono assicurati Le attività possono essere manuali (in base ai diversi ordinamenti) Esercizio: disegnare un flusso per un caso specifico di versamento 103
Exchange Standard BRS/UNICEFACT: SIP message as transfer Gli oggetti digitali sono trasferiti in messaggi SIP (Submission Information Package). Il soggetto produttore (in accordo con il deposito) stabilisce le modalità di relazione tra gli oggetti e i messaggi SIP, ad esempio un documento e le sue componenti potrebbero costituire un solo messaggio; il deposito stabilisce le dimensioni massime del messaggio SIP Il messaggio SIP viene trattato dall’archivio se i meccanismi di verifica dell’integrità sono validi Esercizio: disegnare un flusso per un caso specifico di versamento 104
Exchange Standard BRS/UNICEFACT: Exchange Standard BRS/UNICEFACT: stati di un oggetto in fase di trasferimento Rifiutato per il trasferimento Accettato per il trasferimento (ma non ancora ricevuto) Ricevuto dal deposito a in corso di trattamento Rifiuto e ripresentato (ad esempio nel caso in cui il rifiuto sia legato a ragioni contingenti) Rifiutato, corretto e ripresentato (in caso di errore) Rifiutato e non ripresentato (ad esempio nel caso in cui l’errore non sia riparabile) Custodia accettata Esercizio: disegnare un flusso per un caso specifico di versamento 105
Exchange Standard BRS/UNICEFACT: messaggi protetti Tutte le comunicazioni relative al trasferimento sono considerate messaggi protetti e includono una serie di attributi: TransferId (Transfer Agreement Identifier) SessionId (Transfer Session Identifier): i due identificatori costituiscon un codice unico per ogni sessione di trasferimento DateTime (relativa al messaggio) Producer: può essere anche un testo descrittivo · Archive: può essere anche un testo descrittivo Sono messaggi protetti: Manifest Proposal, SIP, Transfer Session Completed, Status, and Reject Transfer Session. Status (Manifest Agreement e Final Status) Il contenuto di tutti i messaggi protetti è gestito con meccanismi di verifica dell’integrità (checksum o firma digitale) i cui algoritmi sono inclusi nel messaggio Esercizio: disegnare un flusso per un caso specifico di versamento 106
Exchange Standard BRS/UNICEFACT: Proposed Object Gli attributi per ogni proposed object include: ObjectId (object identifier): identifica univocamente l’oggetto nel sistema documentario del soggetto produttore (è improbabile ottenere un identificatore univoco globale in ambito archivistico). La sintassi è definita dal sistema documentario del soggetto produttore. Il valore può essere testuale o binario, fisso o di ampiezza variabile e può essere in formato XML. Ogni oggetto può avere uno o più insiemi di metadati associati (ad esempio relativi a un piano di classificazione o di conservazione) Ogni oggetto può avere più rappresentazioni associate e più relazioni associate (ad esempio con altri oggetti) Un oggetto può essere semplice (un documento e le sue rappresentazioni: digitale o fisica) o composto (serie, fascicoli) Un oggetto può essere associato a più metadata set (uno per ogni standard di metadati utilizzato: ad esempio DC, EAD) Esercizio: disegnare un flusso per un caso specifico di versamento 107
Exchange Standard BRS/UNICEFACT: metadata set Ha un solo attributo: Schema Identifier che identifica lo standard di riferimento. Può consistere in una denominazione o in un URL/URI riferito a uno schema pubblicato. Include due sottoclassi: il Transfer Metadata Set (richiesto nel processo di trasferimento) e l’Externally Defined Metadata Set (contenitore per ogni altro seti di metadati) I requisiti minimi prevedono: Il titolo dell’oggetto I dati di contesto del documento (in relazione agli altri documenti, ai fascicoli e alle serie) Le indicazioni sulla selezione (eventuali) Le informazioni sull’accesso Informazioni descrittive La dimensione dell’oggetto Esercizio: disegnare un flusso per un caso specifico di versamento 108
Exchange Standard BRS/UNICEFACT: representation Si prevedono due classi: digitale e fisica La rappresentazione digitale contiene i seguenti attributi: Formato (ad esempio Word, PDF, ecc). La codifica è indicata con uno specifico attributo, ad esempio MIME type, cfr IANA list http://www.iana.org/assignments/media-types) identificatore del formato: fa riferimento a qualunque registro di formati (ad esempio PRONOM unique identifier definito da The National Archives UK). Si prevedono due sotto-classi: Included (inclusa nel messaggio, comprende il sistema di codifica, il nome del file, la dimensione, la descrizione) e Referenced (non inclusa ma accessibile tramite URL) Esercizio: disegnare un flusso per un caso specifico di versamento 109
un esempio: le indicazioni del NARA sui trasferimenti dei documenti digitalizzati in forma di immagine - 1 definizione dei formati accettati, specifiche di qualità dell’immagine (se appropriato) documentazione prevista in termini di metadati, strumenti i ricerca e documentazione di processo: 3.3.1.1 Imaging system and version(s) (i.e., application sw and storage system) 3.3.1.2 Operating system and version(s) 3.3.1.3 Records Management Application (if applicable) and version(s) 3.3.1.4 Image file format(s) and version(s) 3.3.1.5 Image quality specifications (i.e., resolution, pixel (bit) depth, compression technique) 3.3.1.6 Total number of documents in the transfer 3.3.1.7 Total number of images in the transfer 3.3.1.8 Arrangement of files on the transfer media 3.3.1.9 Structure of image header (if applicable) http://www.archives.gov/records-mgmt/initiatives/erm-overview.html Regole NARA sui trasferimenti dei documenti digitalizzati: - http://www.archives.gov/records-mgmt/initiatives/scanned-textual.html: formati accettati, specifiche di qualità dell’immagine (se appropriato) documentazione: 3.3.1.1 Imaging system and version(s) (i.e., application sw and storage system) 3.3.1.2 Operating system and version(s) 3.3.1.3 Records Management Application (if applicable) and version(s) 3.3.1.4 Image file format(s) and version(s) 3.3.1.5 Image quality specifications (i.e., resolution, pixel (bit) depth, compression technique) 3.3.1.6 Total number of documents in the transfer 3.3.1.7 Total number of images in the transfer 3.3.1.8 Arrangement of files on the transfer media 3.3.1.9 Structure of image header (if applicable) 3.3.2 In addition, agencies must supply the following: 3.3.2.1 Control information necessary to enable retrieval of each file, including whether the file is a single image or multiple images. Such information can be conveyed through metadata (e.g., a thumbnail index), captured for each document either in the image header or in accompanying documentation. 3.3.2.2 Finding aids, indexes, and other information used to retrieve the records also must be transferred to NARA to support future access to the records. 3.3.2.3 The Optical Character Recognition (OCR) versions of the images (i.e., additional files enabling full text searches linked to the appropriate scanned image), if available. 3.3.3 Agencies also must supply a description of the quality control inspection performed as part of the imaging process and a report on the results of the last inspection performed on the images and the date of that inspection 110
un esempio: le indicazioni del NARA sui trasferimenti dei documenti digitalizzati in forma di immagine - 2 3.3.2 In addition, agencies must supply the following: 3.3.2.1 Control information necessary to enable retrieval of each file, including whether the file is a single image or multiple images. Such information can be conveyed through metadata (e.g., a thumbnail index), captured for each document either in the image header or in accompanying documentation. 3.3.2.2 Finding aids, indexes, and other information used to retrieve the records also must be transferred to NARA to support future access to the records. 3.3.3 Agencies also must supply a description of the quality control inspection performed as part of the imaging process and a report on the results of the last inspection performed on the images and the date of that inspection http://www.archives.gov/records-mgmt/initiatives/erm-overview.html Regole NARA sui trasferimenti dei documenti digitalizzati: - http://www.archives.gov/records-mgmt/initiatives/scanned-textual.html: formati accettati, specifiche di qualità dell’immagine (se appropriato) documentazione: 3.3.1.1 Imaging system and version(s) (i.e., application sw and storage system) 3.3.1.2 Operating system and version(s) 3.3.1.3 Records Management Application (if applicable) and version(s) 3.3.1.4 Image file format(s) and version(s) 3.3.1.5 Image quality specifications (i.e., resolution, pixel (bit) depth, compression technique) 3.3.1.6 Total number of documents in the transfer 3.3.1.7 Total number of images in the transfer 3.3.1.8 Arrangement of files on the transfer media 3.3.1.9 Structure of image header (if applicable) 3.3.2 In addition, agencies must supply the following: 3.3.2.1 Control information necessary to enable retrieval of each file, including whether the file is a single image or multiple images. Such information can be conveyed through metadata (e.g., a thumbnail index), captured for each document either in the image header or in accompanying documentation. 3.3.2.2 Finding aids, indexes, and other information used to retrieve the records also must be transferred to NARA to support future access to the records. 3.3.2.3 The Optical Character Recognition (OCR) versions of the images (i.e., additional files enabling full text searches linked to the appropriate scanned image), if available. 3.3.3 Agencies also must supply a description of the quality control inspection performed as part of the imaging process and a report on the results of the last inspection performed on the images and the date of that inspection 111
le proposte nazionali per i versamenti nelle regole tecniche
i pacchetti informativi: regole tecniche Pacchetto informativo: contenitore che racchiude uno o più oggetti da conservare (documenti informatici, fascicoli informatici, aggregazioni documentali informatiche), oppure anche i soli metadati riferiti agli oggetti da conservare Pacchetto informativo di versamento: pacchetto informativo inviato dal produttore al sistema di conservazione secondo un formato predefinito e concordato descritto nel manuale di conservazione (a fini di trasferimento nell’archivio di conservazione) Pacchetto informativo di archiviazione (allegato 4): specifiche tecniche coerenti con lo standard UNI SInCRO Conservazione e nel Recupero degli Oggetti digitali (UNI 11386:2010) per la creazione di insiemi di dati a supporto della conservazione (volumi/lotti a fini di conservazione) Pacchetto informativo di distribuzione: pacchetto informativo inviato dal sistema di conservazione all’utente in risposta ad una sua richiesta (a fini di consultazione)
la conservazione dei documenti amministrativi digitali: obblighi di legge - 1 dpr 445/2000, art. 67 e 69 (Trasferimento dei documenti all’archivio di deposito e storico) Almeno una volta ogni anno il responsabile del servizio per la gestione dei flussi documentali e degli archivi provvede a trasferire fascicoli e serie documentarie relativi a procedimenti conclusi in un apposito archivio di deposito costituito presso ciascuna amministrazione, rispettando l’organizzazione che i fascicoli e le serie avevano nell’archivio corrente e conservando un elenco dei fascicoli e delle serie trasferite (art. 67) I documenti selezionati per la conservazione permanente sono trasferiti contestualmente agli strumenti che ne garantiscono l’accesso, negli Archivi di Stato competenti per territorio o nella separata sezione di archivio secondo quanto previsto dalle vigenti disposizioni in materia di tutela dei beni culturali.
la conservazione dei documenti amministrativi digitali: obblighi di legge - 2 Gli obblighi di legge: Dpr 445/2000, artt. 67-69 Codice dei beni culturali (dlgs 42/2004), art. 30: Obbligo di mantenere l’archivio nella sua integrità e organicità Codice dell’amministrazione digitale, artt. 43 e 44 Obbligo di assicurare l’identificazione certa del soggetto che ha formato il documento e dell’amministrazione o dell’AOO, l’integrità, la leggibilità e l’agevole reperibilità dei documenti e delle informazioni identificative, inclusi i dati di registrazione e di classificazione originari, il rispetto delle misure di sicurezza
la conservazione dei documenti amministrativi digitali: obblighi di legge - 3 dpr 445/2000, art. 68 (Disposizioni sulla conservazione degli archivi) Il servizio per la gestione dei flussi documentali e degli archivi elabora ed aggiorna il piano di conservazione degli archivi, integrato con il sistema di classificazione, per la definizione dei criteri di organizzazione dell’archivio, di selezione periodica e di conservazione permanente dei documenti, nel rispetto delle vigenti disposizioni contenute in materia di tutela dei beni culturali e successive modificazioni ed integrazioni. Dei documenti prelevati dagli archivi deve essere tenuta traccia del movimento effettuato e della richiesta di prelevamento
la conservazione dei documenti amministrativi digitali: obblighi di legge - 4 CAD, art. 43 (Riproduzione e conservazione dei documenti) I documenti degli archivi, le scritture contabili, la corrispondenza ed ogni atto, dato o documento di cui è prescritta la conservazione per legge o regolamento, ove riprodotti su supporti informatici sono validi e rilevanti a tutti gli effetti di legge, se la riproduzione e la conservazione nel tempo sono effettuate in modo da garantire la conformità dei documenti agli originali, nel rispetto delle regole tecniche stabilite ai sensi dell'articolo 71 (in base alla delibera Cnipa 11/2004 fino all’approvazione delle nuove regole tecniche).
la conservazione dei documenti amministrativi digitali: obblighi di legge - 5 CAD, art. 43 (Riproduzione e conservazione dei documenti) Restano validi i documenti degli archivi, le scritture contabili, la corrispondenza ed ogni atto, dato o documento già conservati mediante riproduzione su supporto fotografico, su supporto ottico o con altro processo idoneo a garantire la conformità dei documenti agli originali. I documenti informatici, di cui è prescritta la conservazione per legge o regolamento, possono essere archiviati per le esigenze correnti anche con modalità cartacee e sono conservati in modo permanente con modalità digitali, nel rispetto delle regole tecniche stabilite ai sensi dell’articolo 71 Sono fatti salvi i poteri di controllo del Ministero per i beni e le attività culturali sugli archivi delle pubbliche amministrazioni
la conservazione dei documenti amministrativi digitali: obblighi di legge - 6 La delibera Cnipa 11/2004 intende risolvere con una sola procedura più ordini di problemi legati alla persistenza nel tempo dei documenti firmati digitalmente: la validità della firma e la sua verificabilità nel tempo (il certificato di firma scade e può essere anche revocato o sospeso: contiene, infatti, il termine iniziale e quello finale del periodo di validità e l’apposizione ad un documento informatico di una firma digitale basata su un certificato elettronico scaduto equivale a mancata sottoscrizione) l’integrità del documento garantita dall’utilizzo di una firma digitale a rischio di scadenza e di verificabilità dato che i documenti firmati digitalmente presentano problemi di data. E’ perciò fondamentale dimostrare che quando è stata apposta la firma il certificato di firma non fosse scaduto, sospeso o revocato e, poiché la verifica non è possibile nel lungo termine, è necessario ricorrere a una catena di date certe (marcature temporali assicurate dalla firma del certificatore qualificato) apposte ai documenti prima della scadenza delle firme originali o di garanzia
la conservazione dei documenti amministrativi digitali: obblighi di legge - 7 Come si verifica la firma dopo la scadenza del certificato o in caso di revoca (fino al 2009 il certificato era conservato obbligatoriamente solo per 10 anni)? occorre collocare nel tempo la firma: la delibera prevedeva l’uso della marcatura temporale mediante la generazione, da parte di una terza parte fidata (il certificatore qualificato) di una firma digitale del documento cui è associata l'informazione relativa ad una data e ad un'ora certa: un file marcato temporalmente ha estensione m7m e contiene il documento validato temporalmente e la marca temporale che viene conservata per 20 anni dal certificatore, mentre non è necessario che il certificato del firmatario sia conservato è comunque necessario disporre del certificato del certificatore con cui esso ha firmato il certificato del firmatario e verificare che esso fosse valido al tempo della firma (del certificato) E’ quindi necessario operare la verifica il prima possibile e registrare il fatto che la verifica sia stata effettuata nel sistema di protocollo
la conservazione dei documenti amministrativi digitali: obblighi di legge - 8 Delibera Cnipa 11/2004 art. 3 (conservazione sostitutiva di documenti informatici) e art.4 (conservazione sostitutiva di documenti analogici) La conservazione ‘sostitutiva’ consiste nell’apposizione sull’insieme dei documenti informatici o sull’evidenza informatica (le impronte dei documenti accumulati in un unico volume/lotto) del riferimento temporale e della firma digitale del responsabile della conservazione Si attesta in tal modo il corretto svolgimento del processo di ‘riproduzione sostitutiva’ e si consente con una sola firma dotata di marca temporale di stabilire data certa a interi nuclei di documenti (mediante la firma delle impronte) Sono tuttavia mancate indicazioni operative e le procedure specifiche sono state lasciate alle decisioni del mercato e dei fornitori
la conservazione dei documenti amministrativi digitali: obblighi di legge - 9 Il dpcm 30 marzo 2009 allarga le fattispecie di riferimenti temporali opponibili a terzi consentendo di prolungare la verifica della validità giuridica dei documenti. Si prevedono in alternativa (art. 37): il riferimento temporale contenuto nella segnatura di protocollo; il riferimento temporale ottenuto attraverso la procedura di conservazione dei documenti, ad opera di un pubblico ufficiale o di una pubblica amministrazione (mediante apposizione di firma digitale e marca temporale); c) il riferimento temporale ottenuto attraverso l'utilizzo di posta elettronica certificata d) il riferimento temporale ottenuto attraverso l'utilizzo della marcatura postale elettronica
la conservazione dei documenti amministrativi digitali: obblighi di legge - 10 Le novità delle nuove regole tecniche (ai sensi dell’art. 71 del CAD) riguardano l’attenzione per le responsabilità più che per le soluzioni tecnologiche: identificazione circostanziata dei compiti e delle responsabilità del responsabile della conservazione che includono la realizzazione secondo principi di sicurezza documentati di un vero e proprio sistema di conservazione relativo ai documenti digitali definizione e gestione degli aspetti organizzativi, con specifica attenzione per la tipologia dei documenti da conservare, le copie di sicurezza e l’eventuale delega di funzioni a terzi: si ribadisce, in sintonia con il nuovo CAD, il coordinamento con il responsabile del sistema di gestione dei documenti
la conservazione dei documenti amministrativi digitali: obblighi di legge - 11 1. Ai sensi dell’art. 44, comma 1, del Codice, il sistema di conservazione assicura, dalla presa in carico dal produttore fino all’eventuale scarto, la conservazione, tramite l’adozione di regole, procedure e tecnologie, dei seguenti oggetti in esso conservati, garantendone le caratteristiche di autenticità, integrità, affidabilità, leggibilità, reperibilità: a. i documenti amministrativi informatici con i metadati ad essi associati (allegato 5); b. i fascicoli informatici ovvero le aggregazioni documentali informatiche con i metadati ad essi associati, contenenti i riferimenti che univocamente identificano i singoli oggetti documentali che appartengono al fascicolo o all’ aggregazione documentale. 2. Le componenti funzionali del sistema di conservazione assicurano il trattamento dell’intero ciclo di gestione dell’oggetto conservato nell’ambito del processo di conservazione. 3. Il sistema di conservazione garantisce l’accesso all’oggetto conservato, per il periodo prescritto dalla norma, indipendentemente dall’evolversi del contesto tecnologico
i formati consigliati per la conservazione nell’allegato 2 alle regole tecniche “Il formato di un file è la convenzione usata per interpretare, leggere e modificare il file”; è identificato mediante l’estensione (una serie di lettere, unita al nome del file attraverso un punto, ad esempio [nome del file].docx identifica un formato testo di proprietà della Microsoft ) L’allegato fa riferimento ai principi dell’interoperabilità tra i sistemi di conservazione Elenco dei formati più diffusi (per categorie): testi/documenti (DOC, HTML, PDF,...); calcolo (XLS, ...), immagini (GIF, JPG, BMP, TIF, EPS, SVG, ...); suoni (MP3, WAV, ...); video (MPG, MPEG, AVI, WMV,...); eseguibili (EXE, ...); archiviazione e compressione (ZIP, RAR, ...); formati email (SMTP/MIME, …)
i formati: le caratteristiche - 1 Criteri di scelta ai fini della formazione, gestione e conservazione: è necessario scegliere formati che possano garantire la leggibilità e la reperibilità del documento informatico nel suo ciclo di vita e rispondano alle seguenti caratteristiche: apertura: conforme a specifiche pubbliche, cioè disponibili a fini di decodifica a chiunque abbia interesse ad utilizzare quel formato anche in assenza di prodotti che effettuino tale operazione automaticamente (formato documentato da un produttore o approvato da organismi di standardizzazione, quali ISO e ETSI); sicurezza: dipende dal grado di modificabilità del contenuto del file e la capacità di essere immune dall’inserimento di codice maligno portabilità: riguarda la facilità con cui i formati possano essere usati su piattaforme diverse, sia dal punto di vista dell’hardware che del software, inteso come sistema operativo; è indotta dall’impiego fedele di standard documentati e accessibili
i formati: le caratteristiche - 2 funzionalità: riguarda la possibilità da parte di un formato di essere gestito da prodotti informatici, che prevedono una varietà di funzioni messe a disposizione dell’utente per la formazione e gestione del documento informatico supporto allo sviluppo: è la modalità con cui si mettono a disposizione le risorse necessarie alla manutenzione e sviluppo del formato e i prodotti informatici che lo gestiscono (organismi preposti alla definizione di specifiche tecniche e standard, società, comunità di sviluppatori, ecc.). diffusione : è l’estensione dell’impiego di uno specifico formato per la formazione e la gestione dei documenti informatici; influisce sulla probabilità che il formato venga supportato nel tempo, attraverso la disponibilità di più prodotti informatici idonei alla sua gestione e visualizzazione altre caratteristiche rilevanti: la capacità di occupare il minor spazio possibile in fase di memorizzazione tenendo conto, in funzione delle esigenze dell’utente e dei problemi di conservazione gli eventuali livelli di compressione utilizzabili nonché la possibilità di gestire il maggior numero possibile di metadati, compresi i riferimenti a chi ha eseguito modifiche
i formati per la conservazione - 1 I formati per la formazione e per la conservazione devono essere indicati nel manuale di gestione per le diverse tipologie di documento I formati per la conservazione devono rispondere a ulteriori criteri (anche in base ai tempi di durata dei documenti): caratteristiche di immodificabilità e di staticità standard internazionali de iure o de facto XML: formato standard (W3C) TXT: testi non binari in chiaro RFC 2822/MIME per i messaggi di posta elettronica (per gli allegati si usano i formati indicati in precedenza)
i formati per la conservazione - 2 Primo elenco consigliato: PDF/A: assenza di collegamenti esterni, assenza di codici eseguibili quali javascript ecc., assenza di contenuti crittografati TIFF: non compresso o compresso senza perdita di informazioni, specifiche pubbliche e senza limitazioni JPG: da valutare in base ai rischi di perdita di dati in relazione ai livelli di compressione; JPEG2000: poco diffuso, senza compressione e capacità di associare metadati Open Office XML – OOXML: Microsoft suite 2007 e 2010 ODF: standard aperto, basato sul linguaggio XML, sviluppato dal consorzio OASIS per la memorizzazione di documenti corrispondenti a testo, fogli elettronici, grafici e presentazioni, spesso usato come standard per la produzione di documenti digitali nativi
lo standard UniSInCRO
standard e raccomandazioni: lo standard UNI SINCRO Lo standard SInCRO è stato elaborato dalla Commissione UNI-DIAM e in particolare dal comitato sulla gestione dei documenti e degli archivi per iniziativa di fornitori preoccupati per la qualità nel tempo dei servizi offerti (Ferri e Baudizzone) Ha la finalità di definire una struttura di dati in XML che consenta di predisporre sia le informazioni identificative minime (previste dal legislatore) che una infrastruttura generale in grado di gestire tutte le informazioni archivistiche necessarie al processo di formazione e tenuta dei documenti digitali in modo da assicurare l’interoperabilità tra sistemi e la conservazione a lungo termine L’ottimizzazione del processo di conservazione presuppone una corretta analisi archivistica dei documenti da digitalizzare e conservare e un adeguato sistema di tenuta dei documenti negli archivi correnti
lo standard UNISInCRO: le ragioni Le regole tecniche per la conservazione sostitutiva descrivono gli aspetti procedurali e indicano le responsabilità degli attori di questo specifico processo, ma non forniscono dettagli tecnici sulle modalità di rappresentazione dei dati e documenti oggetto di conservazione, e non contengono alcuna specifica disposizione mirata a conseguire o a promuovere forme d’interoperabilità sia delle informazioni di firma sia dei metadati di aggregazione logica dei documenti. Gli articoli 3 e 4 in particolare (dedicati alla conservazione sostituiva di documenti informatici ed analogici) si limitano a prescrivere l’uso della firma digitale e di un riferimento temporale per perfezionare il processo, con l’intervento del responsabile della conservazione eventualmente integrato o sostituito da quello di un pubblico ufficiale. Tecnicamente l’obbligo è limitato alla apposizione della firma digitale e del riferimento temporale “sull’insieme dei documenti o su una evidenza informatica contenente una o più impronte dei documenti o di insiemi di essi”. Libertà troppo ampia; rischi di auto-referenzialità e perdita degli investimenti già nel medio periodo
lo standard UNISInCRO: gli obiettivi La norma definisce la struttura dell'insieme di dati a supporto del processo di conservazione a norma: in particolare, precisa e integra alcune disposizioni contenute nella deliberazione CNIPA 19 febbraio 2004, n. 11, individuando gli elementi informativi necessari alla creazione dell'Indice di Conservazione (il cosiddetto "file di chiusura") e descrivendone sia la semantica sia l'articolazione per mezzo del linguaggio formale XML. L'obiettivo della norma è di consentire agli operatori del settore di utilizzare una struttura-dati condivisa al fine di raggiungere un soddisfacente grado d'interoperabilità nei processi di migrazione, grazie all'adozione dello Schema XML appositamente elaborato.
lo standard UNISInCRO: i vantaggi L’adozione di questo standard nello sviluppo di sistemi di conservazione “anticipata” è finalizzato a favorire: l’interoperabilità nei sistemi attivi tra produttori diversi e a fini di esibizione l’aggiornamento grazie alla presenza di uno schema di metadati aperto alle integrazioni nelle fasi successive di gestione E’ indipendente dal fornitore e dall’applicazione .
lo standard UNISInCRO: gli elementi LawAndRegulations (norme applicate) MoreInfo Name NameAndSurname Path (localizzazione) PreviousHash (catena delle impronte) Process Producer SelfDescription SourceIdC SourceVdC TimeInfo (data di realizzazione dell’indice) TimeReference VdC VdCGroup Version Agent (chi interviene nel processo) Agent_ID AgentName AttachedTimeStamp CreatingApplication Description (tipologia del volume) DetachedTimeStamp (data e ora del volume) EmbeddedMetadata ExternalMetadata File (indicazioni sul formato) FileGroup (criteri logici di aggregazione) FirstName FormalName Hash ID (identificatore univoco) IdC (indicazione dei contenuti in modo indipendente dal supporto) IdC_ID Label LastName
lo standard UNISInCRO: gli attributi CanonicalXML Encoding Extension Format Function Language Normal OtherRole OtherScheme RelatedIdC RoleScheme Scheme Type Url Version XMLScheme
lo schema XML in UNISInCRO
un esempio: l’indice e il volume di conservazione di cedolini stipendio delle Poste L’esempio 4 presenta un IdC di un VdC destinato alla conservazione di tre cedolini. Il VdC contiene: l’IdC stesso (poste-cedolini-20090929-A0001000.xml), i file dei cedolini (Cedolino1.pdf, Cedolino2.pdf, Cedolino3.pdf) la marca temporale detached (poste-cedolini-20090929-A0001000.tsr) lo Schema XML (poste-cedolini.xsd) della struttura specifica di metadati adottata per descrivere i cedolini (ExtraInfo)
le soluzioni di Archivematica
il progetto È un sistema completo di conservazione digitale basato sugli standard internazionali e sui principi archivistici sviluppati nell’ambito del progetto InterPARES. E’ sviluppato su base modulare al fine di fornire una suite integrata di strumenti open source che consentano ai depositi di gestire oggetti digitali di qualunque natura dalla fase di versamento a quelle di archiviazione e di distribuzione secondo il modello funzionale OAIS
le finalità Lo scopo è quello di offrire agli archivisti e ai bibliotecari che dispongano di mezzi tecnici e finanziari limitati gli strumenti, la metodologia e la fiducia per affrontare nell’immediato la conservazione di oggetti digitali, sintetizzando i passi specifici del modello OAIS e sviluppandoli, se possibile, in strumenti software di facile utilizzo presenti all’interno del sistema. Qualora l’applicativo non supporti l’automazione delle fasi, “si possono incorporare e documentare i passaggi in una procedura manuale da realizzare a cura dell’utente finale”. In sostanza il sistema è concepito come “un insieme integrato di tecnologia, risorse umane e procedure e non soltanto come un insieme di strumenti software
gli standard adottati Gli standard principali utilizzati sono: PREMIS per i metadati di conservazione, Dublin Core per identificare e descrivere i singoli oggetti e le componenti digitali che li costituiscono e che formano i pacchetti di versamento e gli standard di metadati significativi per ciascun dominio (ad esempio lo standard EAD-EAC per descrivere archivi).
come funziona - 1 L’applicativo si basa sulla creazione e integrazione per la funzione conservativa di micro-servizi indipendenti ma interoperabili, facili da sviluppare, migliorare o sostituire. La struttura fisica di un pacchetto informativo può contenere qualunque tipo di oggetto (file, checksum, log, metadati XML). Il meccanismo operativo è semplice: ogni micro-servizio è descritto in un file di configurazione XML e associato ad una directory; quando un pacchetto informativo viene trasferito in quella specifica directory, si attivano le procedure incluse nel micro-servizio correlato cui seguono ulteriori azioni e altri micro-servizi in una sequenza progressiva che concatena le directory trasformandole in workflow personalizzati.
come funziona - 2 E’ stato sviluppato un modello di base conforme a OAIS, ma gli utenti possono modificarlo sulla base delle loro specifiche esigenze. L’installazione dell’applicativo (open source e gratuito) può avvenire su qualunque tipo di macchina e di sistema operativo. Può limitarsi a una sola postazione o essere gestita in modalità distribuita anche per ambienti complessi.
la gestione dei formati Il sistema mantiene i formati originali di tutti i file acquisiti al fine di sostenere strategie diverse di migrazione o emulazione. Tuttavia la strategia principale utilizzata è basata sulla normalizzazione dei file originali migrati dopo il versamento in formati per la conservazione e la distribuzione, tutti conformi al requisito dei formati aperti. I formati sono raggruppati e gestiti per tipologia (testuale, audio, video, immagini vettoriali, ecc.). La scelta tiene anche conto delle buone pratiche specifiche di ciascuna comunità e delle caratteristiche peculiari di ogni categoria. L’obiettivo è di dar vita a un registro online di policy per la gestione dei formati, opportunamente strutturato e interoperabile con i registri dei formati esistenti (PRONOM e UDFR – Universal digital format registry).
standard ISO di riferimento ISO 15489-1:2001 Information and Documentation – Records Management – Part 1: General ISO 15489-2: 2001 Information and Documentation – Records Management – Part 2: Guidelines ISO 18492:2005 Long-term preservation of electronic document-based information ISO 23081-1:2006 Information and Documentation – Records management processes – Metadata for records – Part 1: Principles ISO 23081-2:2007 Information and Documentation – Records management processes – Metadata for records – Part 2: Implementation issues ISO 14721:2003 Space Data and information transfer systems – Open archival information system – Reference model ISO 15801:2004 Electronic imaging – Information stored electronically – Recommendations for trustworthiness and reliability ISO/IEC 17799:2005 Information technology – Code of Practice for Information security management ISO/IEC 27001:2005 Information Technology Security techniques – Information security management systems ISO 19005-1:2006 Document management – Electronic document file format for long-term preservation – Part 1: Use of PDF 1.4 (PDF/A-1) ISO 11799:2003 Information and Documentation – Document Storage requirements for Archive and Library Materials, deserves a reference in the storage chapters below.
i principali progetti internazionali in corso - 1 DIGITAL CURATION CENTRE (DCC) http://www.dcc.ac.uk DELOS http://www.dpc.delos.info PLANETS http://www.planets-project.eu/ CASPAR http://www.casparpreserves.eu/ INTERPARES http://www.interpares.org DRAMBORA http://www.repositoryaudit.eu INSPECT (Investigating the Significant Properties of Electronic Content Over Time) http://www.jisc.ac.uk/whatwedo/programmes/programme_rep_pres/inspect.aspx REPINF http://repinf.pbworks.com ARCHIVEMATICA http://www.archivematica.org
progetti nazionali in corso DORA (Portogallo, Archivi nazionali): Repositório de Objectos Digitais Autênticos http://roda.di.uminho.pt/RODA_Politica_de_preservacao_digital_v1.0.pdf ERA (US, NARA): Electronic Records Archive http://www.archives.gov/era/ NESTOR: network for digital preservation in Germany and Austria www.langzeitarchivierung.de PARADIGM: project for the preservation of digital personnel archives http://www.paradigm.ac.uk/