Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoVincenza Cecchini Modificato 11 anni fa
1
Stato del Tier2 di Atlas a Napoli Il ruolo dei Tier2 in Atlas La Federazione Italiana dei Tier2 Il Tier2 di Napoli Napoli, 21 Dicembre 2006 – A.Doria
2
Il Modello a Tier Tier-0 (CERN) Tier-0 (CERN) Archivio dei RAW data ricevuti dallEF e distribuzione ai Tier1 Prompt Reconstruction Prompt Reconstruction Distribuzione output ricostruzione (ESD,AOD,TAG) ai Tier-1 Distribuzione output ricostruzione (ESD,AOD,TAG) ai Tier-1 Il modello generale di calcolo per loffline e lanalisi di ATLAS è quello gerarchico multi-Tier. Event Builder Event Filter Tier3 10 GB/s 320 MB/s ~ 150 MB/s ~10 ~50 Mb/s ~PB/s Tier2 ~3- 4/Tier1 Tier0 Tier1 Tier-1 (10) Tier-1 (10) Accesso a lungo termine e archivio di un subset di RAW data Copia dei RAW data di un altro Tier-1 Copia dei RAW data di un altro Tier-1 Reprocessing della ricostruzione dei propri RAW data con parametri di calibrazioni e allineamenti finali e distribuzione AOD ai Tier-2 Reprocessing della ricostruzione dei propri RAW data con parametri di calibrazioni e allineamenti finali e distribuzione AOD ai Tier-2 Archivio dati simulati MC prodotti nei Tier-2 Archivio dati simulati MC prodotti nei Tier-2 Tier-2 Tier-2 Simulazione Monte Carlo Analisi Analisi
3
Il Modello a cloud prevede 3 o 4 Tier-2 per ogni Tier-1, secondo una distribuzione geografica Ruolo dei Tier-2 previsto nell ATLAS computing model: Simulazione Monte Carlo Simulazione Monte Carlo Analisi dei gruppi di Fisica e degli end-user Analisi dei gruppi di Fisica e degli end-user Calibrazione e allineamento per subdetectors di interesse locale Calibrazione e allineamento per subdetectors di interesse locale Dati da ospitare: Copia completa nei Tier-2 della cloud degli AOD (Analysis Object Data rappresentazione ridotta degli eventi per lanalisi: oggetti fisici ricostruiti) di dati reali (~200 TB/anno) e Monte Carlo (~60 TB/anno, 30%). Copia completa nei Tier-2 della cloud degli AOD (Analysis Object Data: rappresentazione ridotta degli eventi per lanalisi: oggetti fisici ricostruiti) di dati reali (~200 TB/anno) e Monte Carlo (~60 TB/anno, 30%). Copia completa dei TAG (Taginformazioni sintetiche per selezione veloce degli eventi negli AOD) ~2 TB/anno. Copia completa dei TAG (Tag: informazioni sintetiche per selezione veloce degli eventi negli AOD) ~2 TB/anno. RAW data e DB per le calibrazioni O (TB) RAW data e DB per le calibrazioni O (TB) Fino ad ora i Tier-2 hanno assolto pienamente e con buona efficienza al ruolo di centri di produzione Monte Carlo Ruolo dei Tier-2
4
Sistema di Produzione Distribuita ATLAS utilizza in maniera estensiva i tool di Grid per le sue produzioni di dati simulati. Attività svolta in parallelo con lanalisi distribuita.ATLAS utilizza in maniera estensiva i tool di Grid per le sue produzioni di dati simulati. Attività svolta in parallelo con lanalisi distribuita. Necessità di organizzare laccesso e lutilizzo delle risorse con un sistema di priorità.Necessità di organizzare laccesso e lutilizzo delle risorse con un sistema di priorità. ATLAS ha già svolto numerosi esercizi di produzione distribuita in larga scalaATLAS ha già svolto numerosi esercizi di produzione distribuita in larga scala: DC1 in 2002-2003, DC2 in 2004, Rome Production in 2005DC1 in 2002-2003, DC2 in 2004, Rome Production in 2005 Numerosi decine di milioni di eventi completamente simulati e ricostruiti Numerosi decine di milioni di eventi completamente simulati e ricostruiti CSC (Computing System Commissioning) nel 2006 e 2007 CSC (Computing System Commissioning) nel 2006 e 2007 DC2 e Rome production sono stati interamente eseguiti sulla GridDC2 e Rome production sono stati interamente eseguiti sulla Grid Uso di 3 Grid MondialiUso di 3 Grid Mondiali LCG (= EGEE): Europa OSG/Grid3 (US): America NorduGrid: Nord Europa I file di input e output devono essere accessibili da tutte le Griglie.I file di input e output devono essere accessibili da tutte le Griglie. É stato sviluppato un sistema di produzione distribuita (Prodsys), interfacciato a tutte le Grid, in grado di individuare le risorse ottimali e di gestire i fallimenti.É stato sviluppato un sistema di produzione distribuita (Prodsys), interfacciato a tutte le Grid, in grado di individuare le risorse ottimali e di gestire i fallimenti.
5
Number of sites; resources are evolving quickly ATLAS DC2 Autumn 2004 Il Sistema a 3 Griglie
6
Distributed Data Management Model Il sistema di Distributed Management (DDM) di ATLAS, Don Quijote, permette limplementazione delle funzionalita previste dal Computing Model: Distribuzione di dati raw e ricostruiti, reali e simulati, tra i vari Tier Catalogazione dei dataset (aggregazione di file e relativi metadata) Catalogazione dei dataset (aggregazione di file e relativi metadata) Il sistema, ridisegnato nel 2005 e in alcune sue parti ancora in fase prototipale, ha infatti unorganizzazione basata sui datasets Il sistema, ridisegnato nel 2005 e in alcune sue parti ancora in fase prototipale, ha infatti unorganizzazione basata sui datasets: Cataloghi di dataset centrali, suddivisi in vari DB per facilitare laccesso Dataset Repository, Dataset Content Catalog, Dataset Location Catalog, Dataset Subscription Catalog Cataloghi di file distribuiti nei Tier1 Non ci sono cataloghi globali di file: il mapping nome logico nome fisico è fatto localmente sui cataloghi localizzati nei Tier-1 che contengono soli i file salvati nella cloud. LFC (LCG File Catalog) è il Local Replica Catalog Sistema di sottoscrizione Sistema per il trasferimento automatico dei dati. Ogni sito si sottoscrive a un dataset e le nuove versioni del dataset vengono automaticamente rese disponibili ad ogni variazione
7
Uso delle risorse per lanalisi Uso delle risorse per lanalisi I Tier-2 ospitano job di analisi sia individuale che di gruppo I Tier-2 ospitano job di analisi sia individuale che di gruppo Il Computing Model prevede che il 50% delle risorse di CPU siano dedicate allanalsi I Tier-1 possono accogliere job di analisi di gruppo I Tier-1 possono accogliere job di analisi di gruppo Modello di analisi per ottimizzare lefficienza del processamento dei dati: Modello di analisi per ottimizzare lefficienza del processamento dei dati: 1.Selezione degli eventi da TAG e analisi sugli AOD degli eventi selezionati 2.Determinazione dei siti dove i dati sono memorizzati 3.Invio in questi siti (tramite Grid tools) dei jobs ed estrazione delle informazioni più rilevanti: nella forma di ntuple da usare localmente in modo interattivo nella forma di ntuple da usare localmente in modo interattivo Analisi Distribuita
8
Il principale scopo del Computing System Commissioning (CSC) è di testare e validare le infrastrutture del software e del computing che saranno utilizzate dal 2007 per lanalisi fisicaIl principale scopo del Computing System Commissioning (CSC) è di testare e validare le infrastrutture del software e del computing che saranno utilizzate dal 2007 per lanalisi fisica Procedure di Calibrazione e Allineamento Procedure di Calibrazione e Allineamento Messa a punto della catena completa di Produzione, Simulazione, Ricostruzione degli eventi e Distribuzione dei Dati Messa a punto della catena completa di Produzione, Simulazione, Ricostruzione degli eventi e Distribuzione dei Dati Accesso distribuito ai dati per lanalisi Accesso distribuito ai dati per lanalisi Lavoro finalizzato nella prima metà del 2007 in una serie di note (CSC notes) Lo scopo non è quello di scrivere delle note ma di rendere lintero sistema funzionante e operativo per il data taking Lo scopo non è quello di scrivere delle note ma di rendere lintero sistema funzionante e operativo per il data taking Sinergia tra attività di software/computing, studio di performances & analisi per evitare duplicazioni e creare integrazioni tra i gruppi Sinergia tra attività di software/computing, studio di performances & analisi per evitare duplicazioni e creare integrazioni tra i gruppi Sono stati definiti circa 100 argomenti fra performances e studi di fisica Sono stati definiti circa 100 argomenti fra performances e studi di fisica 13 note con editore italiano (Michela Biglietti editor della nota sulla Trigger Muon Slice) 13 note con editore italiano (Michela Biglietti editor della nota sulla Trigger Muon Slice) Il Computing System Commissioning
9
Produzioni nel 2006 Il CSC durante il 2006 è stata più che altro un operazione di produzione continuaIl CSC durante il 2006 è stata più che altro un operazione di produzione continua 50 M eventi di fisica e particelle singole prodotti in 6 mesi; 50 M eventi di fisica e particelle singole prodotti in 6 mesi; Il CSC nel 2007 è basato sulla produzione di eventi corrispondenti ai primi 100 pb -1 di dati: Il CSC nel 2007 è basato sulla produzione di eventi corrispondenti ai primi 100 pb -1 di dati: 40 M eventi nel primo trimestre 2007 40 M eventi nel primo trimestre 2007
10
I Tier-2 italiani Nellultimo anno vi è stata unaccurata attività di referaggio da parte dellINFN sui siti candidati ad assolvere alla funzioni di Tier-2. Criteri di valutazione: infrastrutture (già disponibili o richieste) e sinergie con altri progetti gruppi: dimensioni del gruppo, manpaower (tecnici/tecnologi e fisici), esperienza pregressa in GRID e dimensioni della comunità di riferimento gruppi: dimensioni del gruppo, manpaower (tecnici/tecnologi e fisici), esperienza pregressa in GRID e dimensioni della comunità di riferimento Lattività di refereggio ha portato in Marzo 2006 alle seguenti conclusioni: Tier-2 approvati Tier-2 approvati Napoli e Roma1 Napoli e Roma1 Tier-2 sub-judice: Tier-2 sub-judice: Milano Milano Proto Tier-2 Proto Tier-2 Frascati Frascati Lupgrading dei siti non ancora approvati è legata al superamento delle eventuali carenze di tipo infrastrutturale o di manpower e soprattutto alla capacità da parte dei Tier-2 di costituire una organizzazione, a livello di federazione, in grado di sfruttare le risorse disponibili nel Tier-1 e nei Tier-2 esistenti.
11
La Federazione italiana dei Tier-2 La Federazione include tutti i flavour di Tier-2 italiani Compiti della Federazione: Rappresentare univocamente linsieme dei Tier-2 Facilitare linterfaccia con LCG, ATLAS Grid, INFN Grid Facilitare linterfaccia con LCG, ATLAS Grid, INFN Grid Facilitare laccesso alle risorse comuni dei Tier-2 agli utenti (in media 30-40 per sito di cui 30-60% remoti) Facilitare laccesso alle risorse comuni dei Tier-2 agli utenti (in media 30-40 per sito di cui 30-60% remoti) tutorial dei tool di grid tutorial dei tool di grid definizioni dei datasets da replicare nei siti di interesse per le analisi che verranno eseguite in italia definizioni dei datasets da replicare nei siti di interesse per le analisi che verranno eseguite in italia Individuare e sviluppare soluzioni e strategie comuni Individuare e sviluppare soluzioni e strategie comuni scegliere come implementare il modello danalisi in italia oppure il tipo di storage system o di monitoring locale da usare scegliere come implementare il modello danalisi in italia oppure il tipo di storage system o di monitoring locale da usare Organizzare le attività di Computing Operation di ATLAS quando i Tier-2 sono coinvolti (in aiuto al Grid Area Coordinator) Organizzare le attività di Computing Operation di ATLAS quando i Tier-2 sono coinvolti (in aiuto al Grid Area Coordinator) attività di produzione con ProdSys attività di produzione con ProdSys organizzazione dei trasferimenti di dati in Italia organizzazione dei trasferimenti di dati in Italia organizzazione dei Service Challange e Functional Tests organizzazione dei Service Challange e Functional Tests
12
I Service Challenge (Tier-2 view) I Tier-2 italiani hanno preso parte ai challenge del Computing Operation di ATLAS: il Service Challenge (SC4) di Giugno 2006 e il Functional Test di Ottobre 2006: trasferimento dati Tier-0 Tier-1 Tier-2 test di sistema usando il sistema di produzione per generare i dati e il sistema di distribuzione per trasmettere, controllare e monitorare il data flow. I Tier-2 coinvolti hanno ricevuto dal Tier-1 della propria cloud un set completo di (fake) AOD corrispondente a un rate di 20 MB/s. Test del meccanismo di sottoscrizione dai Tier-2 al Tier-1 e viceversa I Tier-2 coinvolti hanno ricevuto dal Tier-1 della propria cloud un set completo di (fake) AOD corrispondente a un rate di 20 MB/s. Test del meccanismo di sottoscrizione dai Tier-2 al Tier-1 e viceversa I Tier-2 e la cloud italiana in complesso hanno risposto positivamente al challenge (non è stata necessaria la partecipazione ai testi di Novembre) I Tier-2 e la cloud italiana in complesso hanno risposto positivamente al challenge (non è stata necessaria la partecipazione ai testi di Novembre)
13
Il Tier-2 di Napoli - Attività Simulazione dati Montecarlo Partecipazione al team produzione (shift di controllo, circa 1 settimana al mese) Monitoraggio del funzionamento dei Tier2 Italiani Trigger Muon Slice: Produzione di Muoni Singoli (10 M di eventi già prodotti da noi nel 2006 con la rel 11, 10M da produrre a gennaio con la nuove release nel sistema centrale Prodsys) Studio delle performance per le note CSC Attività di analisi: Ricerca della Supersimmetria usando i tool di analisi distribuita (GANGA) che sono ancora in fase prototipale. Feedback agli sviluppatori Calibrazione degli RPC e del Trigger LVL1 uso della stream di calibrazione dei muoni
14
La produzione in Italia nel 2006
15
Esempio di uso del Tier-2 di Napoli in termini di CPU time e Wall Time
16
Prototipo SCoPE e Tier-2 ATLAS PC1 Monitoraggio ambientale (T, HV, UPS) PC3 HW Monitoring (Operating Systems) PC2 SW Monitoring (servers, storage) PC4 GRID Monitoring (infrastruttura, servizi) High level GUI DataBase Backup system UPS 60 kVA 8 biproc. dual core Rack Rittal + CMC Unit 7 biproc. dual core 21 TB LOCALE TIER-2 ATLAS Rack Rittal + CMC Unit CHILLER Locali o spazi esterni Rack TIER-2 ATLAS SIST.ANTINCENDIOSIST.ANTINCENDIO PRESENTER 42 Campus Grid Network Unità di raffreddamento switch Unità di raffreddamento Rack UNIV. FED II Last update: 21-12-06 (corsivo = in corso di istallazione) CISCO 3750 1 Gb/s NAS SERVER + altri 2 Rack aggiuntivi GRUPPO ELETTRO GENO UniNA LOCALI S.C.R. Locali PON SCoPE
17
Risorse del Tier2 di Napoli. Già installate, da spostare nei nuovi rack: 7 biprocessori Xeon 2.4 GHz; 11 biprocessori Dual Opteron 252 (10 nodi di calcolo + 1 CE); sistema di storage SATA, costituito da un server con 8 TB raw di disco interno (5.5 TB netti, pieni al 96 %) 1 server per laccounting delluso delle risorse 1 server SRM (Storage Resource Manager) come front end per laccesso alle risorse di storage del sito Nuovi acquisti, da installare a Gennaio: 1 cestello con 7 biprocessori Xeon 5110, dual-core di tipo blade. sistema di storage IBM con tecnologia Fibre Channel costituito da 2 server che gestiscono 21 TB di storage raw,
18
Le Connessioni di Rete LAN INFN 1 Gbps 2 x1Gbps 100/200 Mbps 10 Gbps 1 Gbps 10 Gbps 1 Gbps N x1 Gbps 2.5 Gbps Campus Grid GARR MAN UNINA Siti Campus Grid Tier 2 Pon Unina da 11/06
19
Il sistema di condizionamento Abbiamo seguito le linee guida dellINFN per la realizzazione di sistemi di condizionamento e valutato le soluzioni proposte da varie ditte. Convergenza verso una tipologia mista per entrambe le sedi del Tier2: Raffreddamento delle materiale informatico : Sistema basato sulluso di rack autocondizionati (con impatto termico sullambiente circostante nullo) con interscambio aria-acqua. Permette di semplificare il sistema di condizionamento ambientale per la sala calcolo, richiedendo solo la realizzazione di apposite canalizzazioni per il trasporto dell'acqua fredda in ingresso ai rack e di acqua calda in uscita. Trattamento dellaria nella sala : Sistema basato su Unità Trattamento Aria ad acqua per garantire i corretti valori di temperatura (~22°) e UR (~50%). Carichi termici per i Tier2 : Potenza massima dissipata per rack: 15 KW per 40U di biprocessori e 20 KW per sistemi blade Potenza dissipata per rack di unità disco: 6 kW per 40U occupate
20
La soluzione RITTAL LCP Sistema di raffreddamento ad alte prestazioni ad acqua per lasportazione di elevati carichi di calore indipendente dalla temperatura dellambiente circostante e utilizzabile quindi anche in ambienti ristretti (sala Tier2) e non climatizzati da impianti di raffreddamento esterni. Il calore dai rack è infatti rimosso con lacqua e non è rigettato nellambiente circostante Ad ogni rack (di dimensioni 2×1 m) viene affiancato un enclosure per il raffreddamento, il Liquid Cooling Package, (di dimensioni 2 ×1 × 0.3 m e peso totale di circa 200 kg) dotato di max 3 moduli scambiatori di calore acqua/aria indipendenti (modularità).
21
Impegni principali per il 2007 Computing System Commissioning Oltre alle attività già esposte relative al Computing System Commissioning ed agli studi di Supersimmetria, molti altri impegni sono previsti per il 2007: Garantire il funzionamento locale: Implementare un sistema che permetta il monitoraggio on-line del funzionamento delle farm, sia come hw che come servizi sw. Conservare i dati relativi a questo monitoring, per poterli esaminare nel tempo. Perfezionare i meccanismi di condivisione delle risorse. Contribuire al funzionamento generale della grid di Atlas: ampliare la partecipazione agli shift di produzione, con maggiori responsabilità Iniziare un servizio di supporto agli utenti esterni del Tier2 contribuire attivamente agli scopi della federazione, in particolare per la parte relativa al monitoraggio dei servizi dei Tier italiani. TROUBLESHOOTING!
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.