Alcune problematiche di replicazione dati in unorganizzazione geograficamente distribuita Collaborazione CASPUR - ENEA Silvia Eccher - CASPUR Franco Iannone – ENEA Andrei Maslennikov - CASPUR Marco Mililotti – CASPUR Miguel Molowny Lopez - CASPUR Giuseppe Palumbo – CASPUR Maurizio Steffè – ENEA
Analisi del problema replicazione di grandi quantità di dati tra differenti siti (enti di ricerca, centri di calcolo) spesso distanti tra loro dati da replicare di vario genere: organizzati in database file di varie dimensioni (anche ingenti)
Analisi dei requisiti Vanno garantiti ai siti remoti: possibilità di lavoro autonomo (anche in assenza di collegamento) flessibilità nella scelta dei dati da condividere integrità e consistenza dei dati rapida replicazione delle informazioni possibilità di gestire più versioni contemporanee di software
Ambiente di sviluppo 4 macchine multiprocessore: mafalda guille felipe manolito 2.2Ghz, 1Gb RAM 1.1TB spazio disco Linux Mysql rsync 2.5.7
Struttura proposta database: 1 istanza master sul sito centrale (mafalda) 3 istanze slave - replica del master - su ciascun sito remoto (guille, felipe e manolito) in sola lettura
Struttura proposta database: 1 istanza master su ciascun sito remoto (felipe, guille e manolito) in modalità lettura/scrittura 3 istanze slave sul sito centrale (mafalda), ciascuna replica di uno dei master sui siti remoti
Struttura proposta filesystem contenente file randomici di diversa dimensione 2 versioni contemporanee, una in produzione e la seconda di sviluppo possibilità di commutare tra le 2 versioni di software
Realizzazione replicazione area dati: al momento rsync replicazione database: Mysql: funzioni di data replication sito centrale -> siti remoti siti remoti -> sito centrale inserimento dati sito centrale Perl: importer (auto, manual)
Realizzazione: importer funzioni principali: inserimento, modifica e cancellazione valori in tabelle condivise creazione, cancellazione e modifica di tabelle (se il sito remoto è considerato fidato) modalità di utilizzo: auto – propagazione delle operazioni senza interventi dallesterno manual – con supervisione delle operazioni di propagazione
Stato del progetto test delle prestazioni di trasferimento file tra due macchine collegate tramite rete gigabit: in locale: rsync ~ 47 MB/sec (con dischi da 90 MB/sec) in area wan: work in progress
Analisi delle prestazioni bbftp rsync
Link utili