Restauro Digitale Salvatore Scifo TRIGRID Second TriGrid Checkpoint Meeting Catania, 30.06.2006
Supporter e Partner Supporter Partner I.N.F.N. di Catania: IR&T Salvatore Scifo (salvatore.scifo@ct.infn.it) Fabio Scibilia (fabio.scibilia@ct.infn.it) Partner IR&T Gianluca Arcidiacono (info@irt-engineering.it) Catania, Trigrid, 30.06.2006
La problematica scientifica Analisi, studio, definizione ed implementazione delle tecniche di elaborazione delle immagini da applicare a problematiche di restauro digitale di testi antichi Il restauro agisce sulla rappresentazione digitale del testo, (le pagine acquisite con opportuni scanner), con l’obiettivo di: Rimuovere diverse tipologie di alterazione del documento: Alterazioni Meccaniche (pieghe, graffi, strappi) Chimiche (macchie di ruggine, ossidazione, macchie di umido) Ricostruire le aree danneggiate ove possibile Recuperare eventuali parti del testo “illeggibili”, tramite algoritmi di riconoscimento di caratteri evoluti, ICR (Intelligent Character Recognition), applicati ai manoscritti Catania, Trigrid, 30.06.2006
La problematica scientifica Difetti di origine Meccanica derivanti da un non accurato trattamento degli oggetti in questione Crepe (Cracks) Graffi (Scratches) Strappi (Torn Paper) Difetti di origine Chimica derivanti per lo più dagli agenti atmosferici e hanno l’aspetto di macchie Macchie di tipo “Foxing” (ruggine) Ossidazione della Cellulosa (Cellulose Oxidation). Macchie Semitrasparenti (Semi-transparent blotches o Water blotches) Catania, Trigrid, 30.06.2006
La problematica scientifica : Esempi di Difetti Meccanici Crepe (Cracks) Questo genere di difetto può deteriorare in maniera pesante il documento, perché può essere di grandi dimensioni. Di solito non ha un particolare orientamento, anche se una singola crepa segue quasi sempre un’unica direzione. Strappi (Torn Papers) Gli strappi possono lasciare grandi vuoti all’interno del documento. Se l’entità dello strappo è sufficientemente grande è impossibile ricostruire le parti mancanti in maniera automatica. Graffi (Scratches) I graffi, spesso numerosi, sono sottili linee rette anch’esse di direzione arbitraria. Sono rilevabili specialmente nelle foto e nelle figure. Catania, Trigrid, 30.06.2006
Esempi di Difetti Chimici Ossidazione della cellulosa (Cellulose Oxidation) Macchie di tipo “Foxing” In certe immagini è possibile vedere delle macchie di colore rosso-marrone (colore della volpe, da cui Foxing), dovute al risultato di reazioni chimiche tra la carta ed alcuni microorganismi. Macchie Semitrasparenti (Semi-transparent blotches o Water blotches) Sono originate tipicamente da acqua e umidità. In questo caso, ogni pixel della macchia contiene sia informazioni sul dato reale che rumore. Questo fenomeno è dovuto all’ossidazione della cellulosa catalizzata da metalli. E’ importante rimuovere questo genere di difetto, poiché gli algoritmi di riconoscimento dei caratteri danno i loro migliori risultati se il testo presenta un fondo più chiaro ed uniforme possibile. Catania, Trigrid, 30.06.2006
Analisi del problema La maggior parte degli algoritmi di restauro richiedono dei parametri di input ben precisi: Tali parametri dipendono fortemente dall’immagine e dalla tipologia di difetto da rimuovere. L’obiettivo è realizzare un sistema di restauro digitale totalmente automatico che lavori anche in ambiente GRID. Problema Definire e implementare un algoritmo per ogni tipologia di difetto da rimuovere. (un algoritmo per ogni problema) Definire e implementare un algoritmo di ottimizzazione della funzione di restauro basato sulla ricerca dei parametri di input ottimi Integrazione delle due soluzioni Catania, Trigrid, 30.06.2006
Algoritmi di restauro innovativi Soluzione Implementare ogni algoritmo di restauro come una funzione “stand alone”; ogni modulo è indipendente e prende in input una immagine e una serie di parametri restituendo in output una immagine elaborata Implementare un Search Engine (algoritmo genetico evolutivo) efficiente in grado di identificare automaticamente, all’interno di un Dominio di valori Ammissibile (popolazione), i parametri che ottimizzano l’algoritmo di restauro (individuo). La ricerca della soluzione ottimale nello spazio delle soluzioni (generazioni), viene guidata da una funzione di Fitness. Tale funzione indica la bontà della soluzione Catania, Trigrid, 30.06.2006
Scheda Tecnica Porting Aspetti computazionali Ogni job lavora su una singola CPU e richiede 1 GB di RAM Il job principale genera 16 sottojob, quindi occorrono 16 CPU e 16 GB di RAM Spazio disco sul CE, 10 MB (l’immagine su cui lavora) Fornire informazioni sulla configurazione richiesta dei Worker Node: Compilatori : gcc Servizi GRID Computazione Storage Interazione tra applicazione e utente Algoritmi di restauro : batch Algoritmo evolutivo : batch Tool di restauro definitivo : interattivo Controllo d’accesso: Numero utenti: 5 Numero gruppi per VO: 1 Politica di accesso: gli utenti del gruppo hanno tutti gli stessi permessi, accesso all’applicazione e accesso ai file Crittografia dati: nessuna Catania, Trigrid, 30.06.2006
Stato attuale del progetto Algoritmi Implementati DeFoxing UnOxidation Algoritmi “under constraction” ScratchRemoving BlotchRemoving Algoritmi pianificati Torn Repairment OCR Enhancement Test effettuati con successo su WN Catania, Trigrid, 30.06.2006
Debug su Grid degli algoritmi di restauro implementati Attività Future Debug su Grid degli algoritmi di restauro implementati Implementazione algoritmi ScratchRemoving BlotchRemoving Analisi strutturale dell’algoritmo genetico e definzione di una architettura del software parallello (integrazione di MPI). Catania, Trigrid, 30.06.2006