Estensioni elastiche CNAF – un po’ di idee e status report

Slides:



Advertisements
Presentazioni simili
ISA Server 2004 Enterprise Edition Preview. ISA Server 2004.
Advertisements

Remote file access sulla grid e metodi di interconnesione di rete M. Donatelli, A.Ghiselli e G.Mirabelli Infn-Grid network 24 maggio 2001.
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
ATLAS PRIN Alessandro De Salvo A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
Proposta per una cache distribuita a livello italiano ALESSANDRO DE SALVO (RM1) TOMMASO BOCCALI (PI)
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
CNAF. storage Siamo in una fase di tuning con lo storage, che al momento sembra essere un collo di bottiglia 1.~10 giorni fa vista saturazione GPFS.
Dynamic Farm Espansione Dinamica di una Farm Vincenzo Ciaschini CCR 31/3/2015.
PRIN NAPOLI Enzo Capone, Gianpaolo Carlino, Alessandra Doria, Rosario Esposito, Leonardo Merola, Silvio Pardi, Arturo Sanchez Pineda.
+ Call di Big Data (EINFRA- 1). + La call … + + Cosa abbiamo in mano (come INFN) 1. L’infrastruttura 1 Tier Tier2 O(25000) cores O(20) PB di Disco.
Pisa. Xrootd Pisa e’ ora insieme a Bari il nodo centrale europeo della federazione Xrootd di CMS – Per capirci, il CERN usa questi nodi per il fallback.
1 14 marzo 2006 sommaruga andrea Fondazione Ordine Ingegneri di Milano VPN: Reti Private Virtuali VPN: RETI PRIVATE VIRTUALI LE POSSIBILITA' DI ACCESSO.
Attività PRIN STOA a Cagliari Alessandro De Falco Università/INFN Cagliari.
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
AFS NELLA SEZIONE DI PADOVA aree_utenti: attualmente nessuno ha la proria home in AFS e quasi nessuno utilizza l'area utenti di AFS. /usr/local: si preferisce.
PGDay 2009 FSGateway Ing. Torello Querci Resp. Architetture SW - Negens S.r.l. 4 Dicembre 2009, Pisa.
VO-Neural Project e GRID Giovanni d’Angelo Dipartimento di Scienze Fisiche Università degli Studi di Napoli Federico II Martina Franca 12 – 23 Novembre.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
FARE MATCHING PER CRESCERE Unione Confcommercio Milano 17 OTTOBRE 2016.
Virtual Private Networks
Configurazione Router IR794- IG601
Corso per Webmaster base
Evoluzione del collegamento geografico e collaudo della nuova struttura CORE del TIER1 CDG – 06/10/2016 Stefano Zani
Resoconto delle attività del Gruppo di Lavoro DR
Cms.
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido
Summary di (quasi) tutti gli utenti non presentati…
dCache Test effettuati al CNAF
CMS HPC Italia.
CMS.
Monitoring e loadbalancing dei servizi Grid
INFN-Bari.
Attività su middleware Grid e sua evoluzione
Breve report su corso RedHat Enterprise Virtualization (RH318)
Risultati ultimi mesi Piano di lavoro prossimi mesi Reclutamento
Richieste di upgrade dei link di accesso alla rete Geografica
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
Nuovo sito della Commissione Calcolo e Reti
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Stato Acquisti Switch/Router T2
Pisa.
Sicurezza e Grid Computing
GridFlex: gestione di software
CMS T2: monitoring Cosa c’e’ / cosa vorremmo / cosa manca
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Incontro al CINECA per HEP - summary
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
INDIGO-DataCloud MidnightBlue Tutorial Days
(Breve) Riassunto del workshop WLCG
CNAF e Nuvole Comitato Tecnico del CNAF
Portal Architecture Data Management
Belle II Computing: Accesso alle risorse di storage via http/webdav
Distributed cache proposal
Sistema Operativo - DietPI
ATLAS PRIN Next Steps Alessandro De Salvo
Job Application Monitoring (JAM)
ONEDATA - distributed data caching -
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Calcolo “locale” ATLAS-Mi
Sviluppo di server web e sistema di caching per contenuti dinamici
Da circa 10 anni il fornisce agli utenti dei labs, che ne facciano richiesta, un servizio di storage via NFS. Come T2 viene fornito da qualche.
Rinnovi Firma Digitale «Clienti Aruba PEC» Firma Digitale ed ArubaKey
Analisi dati astronomici sulla GRID COMETA con HEAsoft
Concorrenza e parallelismo
ATLAS PRIN Roma1 - status Alessandro De Salvo
Tommaso Boccali (INFN-Pisa / CERN)
CLOUD.
Transcript della presentazione:

Estensioni elastiche CNAF – un po’ di idee e status report

Possibilita’ attuali Aruba CloudItalia Unicredit Microsoft (INDIGO) Tecnicamente ok, in produzione a lungo Ora stop tecnico (sembrano non risponderci piu’ alle mail/telefonate  Gaetano) CloudItalia Volendo deployment uguale ad Aruba, ma si puo’ osare di piu’ Unicredit Naufragata per mancanza di iteresse (anche da parte nostra – poche risorse) Tecnicamente fattibile utilizzando setup INDIGO-like Microsoft Grant di 20k$ arrivato (INDIGO) Un po’ di dettagli …

Possibilita’ tecniche (WM) Estensione elastica LSF Completamente trasparente a tutto (tutte le VO) LSF non ha modalita’ WAN: serve VPN o simile Bari: fatta dal GARR a livello rete Aruba: kernel level (dynfarm, in-house) – NAT irrilevante Accounting garantito centralmente da APEL+LSF+Cream Estensione elastica HTCondor HTCondor ha una modalita’ WAN (via CCB – anche su risorse NAT) LSF in tempi medio lunghi dovra’ essere comunque dismesso ($$$), HTCondor appare la soluzione piu’ ovvio al momento anche per le risorse locali HTCondor come batch system puo’ essere affiancato a Cream (ATLAS?) o a HTCondorCE o ad ARC Mi pare di capire che se si fa il salto si vuole farlo tutto  Soluzione all HTCondor Accounting dipende dall’accoppiata CE-HTCondor usata Tutte pero’ sono funzionanti in qualche parte del mondo HTCondor Startd diretto Funziona solo per le VO che usano un global pool di esperimento E’ completamente staccato dal CNAF, per quanto riguarda WM Ha problemi di autenticazione non irrilevanti Accounting da inventare – al momento fa solo quello di Esperimento

Possibilita’ tecniche (accesso ai dati) - #1 Accesso completo GPFS esportato WAN (con o senza AFM) Necessita di DMZ fra I siti (o almeno, meglio che ci sia…) Necessita di storage di caching (se AFM) molto performante E’ dove e’ fallito a Bari (e per scrivere??) Accesso streaming diretto Per noi vuol dire sostanzialmente Xrootd e potenzialmente WebDAV Entrambi potrebbero essere montati Posix, ma con non pochi problemi Non tutte le VO pronte ad utilizzare il sistema (e per scrivere???)

Possibilita’ tecniche (accesso ai dati) - #2 Caching! La cosa si fa complessa … Si vuole cachare solo il disco CNAF verso il sito remoto, e altrimenti utilizzare i meccanismi di fallback standard? (quindi come se la macchina fosse dentro il CNAF....) E’ ok per tutte le VO E’ ok per fallback Xrootd di LHC se la rete WN-LHCONE e’ decente e non a pagamento AFM dovrebbe essere ok, ma anche Xrootd proxy verso server CNAF, o comunque qualunque cosa che sappia “riempirsi” utilizzando protocolli che CNAF esporta Si vuole cachare tutto l’incoming traffic? + difficilmente ok per tutte le VO Ha bisogno di conoscenza su dove andare a prendere il file in caso di cache-miss Quindi probabilmente deve allacciarsi ad una federazione

Soluzioni tecniche identificate GPFS/AFM Gia usata con Bari; in pratica caching asincrono intelligente (per block) dei files del CNAF (usabile in scrittura?) Protocollo = Posix Xrootd Caching sia dello storage CNAF, sia di “tutto” se via federazione Facile da implementare, ma aiuta solo se protocollo di accesso lato utente e’ Xrootd Varnish Caching di HTTPS (e quindi di WebDAV); testato in una certa misura al CERN Caching trasparente: client richiede il file alla destinazione finale (via federazione?) DPM Ultima versione capace di cachare https/Xrootd/…. O caching dello storage CNAF solamente, o di “tutto” via federazione Ufficialmente supportato come test da DPM developers Idee da testare con CloudItalia

Per LHC il mondo e’ piu’ semplice… … Se c’e’ abbondante rete (Geant/Garr/Whatever ma tanta) … Se si accede a tutto via Xrootd/WebDAV ... Se la scrittura avviene in altro modo (SRM verso l’endpoint Storm CNAF o simili) In realta’ non serve molto, basta fidarsi del fallback Xrootd, magari in modo intelligente Primo fallback = CNAF Secondo fallback = Federazione

Oppure un caching trasparente Quello di cui si era parlato all’ELBA: QUI Caching nel POP della NREN (Xrootd per esempio), quindi la cache dal punto di vista dell’utente diventa un pezzo dell’infrastruttura di rete Molto Netflix-like Caching intelligente: block level, con TTreeCache dal lato utente Latenza in pratica azzerata, banda non un problema Questo sarebbe probabilmente il test piu’ interessante da fare, ma servirebbe collaborazione con GARR …

INDIGO – cosa stiamo facendo CMS diventato un use case ufficiale di INDIGO in WP2: “Seamless instantiation of on-demand, opportunisticLHC/CMS computing centers” Idea e’ la terza: HTCondor connesso direttamente al Global Pool di esperimento TX on demand: TOSCA template definisce il sito (N WNs, M Squids, ….) Macchine istanziate via Marathon e Mesos Creazione di siti dal nome qualunque, via template (T3_Tommaso_This_week) Utilizzo di tools standard di CMS (CRAB) per mandare jobs (possibile utilizzo di OneData come storage per le ntuple risultanti) Quasi funzionante Manca lato TOSCA Manca lato OneData

Use case tipici alla INDIGO Estensione elastica di un sito Risorse opportunistiche temporanee I sysadmin creano in INDIGO un sito virtuale, con lo stesso nome di quello reale. I WN del sito remoto virtuale si sommano dal punto di vista del global pool a quelli locali, senza nessuna distinzione Un gruppo di ricerca ottiene N cores per M giorni grazie ad un grant Con un sito on demand, dal nome specifico, puo’ utilizzare I tools di CMS per mandarce dei jobs senza concorrenza con gli altri standard