ATLAS PRIN Next Steps Alessandro De Salvo 18-06-2014 A. De Salvo – 18 giugno 2014
Attività Cloud Computing EventIndex HTCondor PoD Cloud per servizi + Tier2 Distribuito EventIndex Studiare la possibilità di semplificare il TagDB di ATLAS trasformandolo in un indice degli eventi (EventIndex) HTCondor Condivisione di risorse a livello utente tramite HTCondor PoD Sviluppare e perfezionare PoD, Proof on Demand, ed integrarlo con le attività di ATLAS LHCONE e Tier2 Distribuito Sviluppo di una nuova generazione di reti geografiche di comunicazione dati (overlay L2 network) Prototipo di Tier2 distribuito (inizialmente NA+RM) 2
Cloud Computing: evoluzioni Storage Test di gluster 3.5 [09/2014] Test di Ceph [12/2014] Test di sincronizzazione in WAN con aumento di latenza (Tier-2 distribuito NA-RM) [07/2014] Infrastruttura di cloud Finalizzazione dei test con LBaaS e AutoScaling [09/2014] Applicazione dei concetti di cui sopra a servizi reali, quali squid, DB cluster nodes, web services e nodi interattivi [12/2014] Estensione della cloud mono-cella al Tier-2 distribuito [08/2014] Estensione della cloud in un ambiente multi-cella (Tier-2 distribuito NA-RM) [12/2014] 3
EventIndex: evoluzioni Giugno-luglio 2014: Assemblare la catena completa per collezionare dati di tutti i tipi per un anno/periodo di dati reali Capire cosa va fatto di diverso per i dati simulati e modificare quello che va modificato Settembre-ottobre 2014: Inserire il producer nei task di simulazione lanciati da ProdSys-2 Stabilire la catena di monitoring e cosa fare quando qualcosa si rompe Iniziare l'operazione continua Novembre-dicembre 2014: Indicizzare tutti i dati del Run1 Gennaio 2015: Prepararsi per il Run2 Stabilire il modello operativo a lungo termine 4
HTCondor: evoluzioni Organizzazione delle risorse utente in pool di HTCondor Aggregazione dei pool in un super-pool Possibile aggiunta di un’area comune Studio di fattibilità di aggiunta di risorse extra attraverso meccanismi di cloud computing 5
PoD: evoluzioni Ripetere i test di benchmark dei sistemi di storage: con protocollo httpd, anche con il redirector httpd istallato al CNAF e, se possibile, con il nuovo redirector di Rucio; test di saturazione dell’accesso ai dati, in funzione del numero di workers allocati. Ripetere i test di startup latency e di analisi utilizzando la nuova funzionalità sviluppata per PROOF di dynamic workers addiction; ovvero la possibilità di aggiungere nuovi core a un’analisi PROOF già avviata. Le nuove macchine vengono configurate non appena si rendono disponibili ed il carico di lavoro ridistribuito. Questo sviluppo di PROOF non è ancora disponibile in PoD. Migliorerà notevolmente l’usabilità del tool, consentendo di lanciare l’analisi senza dover attendere di avere l’intero cluster a disposizione, riducendo i tempi di startup latency: stima preliminare: miglioramento dell’efficienza di PROOF di circa il 30%. Inoltre, eviterà lo spreco delle risorse dovuto all’inattività dei core già allocati nella fase iniziale di completamento del cluster. 6
Rete e Tier2 distribuito: evoluzioni Testare l’architettura al variare della latenza in interazione col GARR, individuando i livelli critici Testare altri filesystem e confrontarli con gluster (CEPH in prima battuta) Test con GlusterFS-3.5 Implementazione di una Cloud distribuita e/o con celle federate test di servizi distribuiti di ATLAS, tramite servizi grid in HA e/o cloud distribuita per l’esperimento 7
Personale La maggior parte delle sedi ha già reclutato il personale Solo Frascati avrà il personale (per 8 mesi) a partire dalla fine del 2014 Nessun intervento particolare necessario in questo ambito 8
Pubblicazioni La maggior parte delle attività sono già state presentate a conferenze CHEP, in prevalenza Si può pensare anche ad altre conferenze e pubblicazioni Ad esempio, una volta che i risultati saranno più quantitativi si potrebbe pensare a veri e propri articoli su rivista Necessarie discussioni e identificazione dei target adeguati 9
Conclusioni Stato dei lavori più che soddisfacente e in linea con le previsioni iniziali Molte attività svole e in fase di svolgimento Risultati utili sia a livello locale che a livello di collaborazione di esperimento Reclutamento già avvenuto con successo nella maggior parte dei siti Necessario un incremento della visibilità dei lavori tramite pubblicazioni 1010