19 Ottobre 2012ATLAS Milano1 Stato delle risorse locali di calcolo L. Carminati, L. Perini, D. Rebatto, L. Vaccarossa.

Slides:



Advertisements
Presentazioni simili
E835 & Hera-B Concezio Pisa, 21/12/2004. E835 (aka Jet-FNAL) timeline dell'esperimento –Presa dati conclusa nel Alcune analisi tuttora in corso.
Advertisements

Unità D1 Architetture di rete.
Ogni PC, per iniziare a lavorare, ha bisogno di un sistema operativo. Infatti questo è il primo programma che viene eseguito e che permette all'utente.
Il Sistema Operativo.
Orario definitivo Martedì Aula 2 Polo Mercoledì Aula 1 Fondi Palazzina delle Scienze Giovedì 9-11 Aula 1 Fondi Palazzina delle Scienze Nota:
Computing: Attività 2010 Reprocessing e ri-simulazione dati Run7 Extra-production di dati MC alla Y(4S) 10 x cross section bb e cc, 2 x cross section u.
IDUL 2010 RETI E PROTOCOLLI. INTERNET.. IDEE PRINCIPALI IN QUESTA LEZIONE Reti: Aspetto logico della rete e tipologie: peer-to-peer, a hub, a bus Trasmissione.
IDUL 2009 RETI E PROTOCOLLI. INTERNET. IDEE PRINCIPALI IN QUESTA LEZIONE Reti: Aspetto logico della rete e tipologie: peer-to-peer, a hub, a bus Trasmissione.
2) Sistemi operativi Lab. Calc. AA2004/05 - cap.2.
La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.
Reti di Calcolatori L-S Un Sistema Decentrato di Allocazione del Carico per Applicazioni di Calcolo Distribuito Mauro Bampo.
Tier1 - cpu KSI2k days ATLAS KSI2k days CMS. Tier1 - storage CASTOR disk space CMS requires: T1D0, T0D1 ATLAS requires: T1D0, T0D1 and T1D1.
LNL M.Biasotto, Bologna, 18 ottobre La farm CMS di Padova - Legnaro Proposta di acquisto hardware 2° semestre 2001.
5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.
Benvenuti a Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
Situazione iniziale di un’ azienda tipica: - Uno o più server
L'ambiente informatico: Hardware e Software
Il desktop di Windows Il mouse. Il puntatore del mouse. Il cestino non selezionato. Il cestino selezionato.
Modulo 1 - Concetti di base della Tecnologia dell'Informazione
1. Per cominciare Le operazioni di base per utilizzare il computer sono: laccensione e lo spegnimento. Mentre laccensione del PC si ottiene premendo il.
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
Alessia Tricomi Università & INFN Catania
Con il computer si impara meglio!
Sistema Operativo (Software di base)
Introduzione a Windows Lezione 2 Riccardo Sama' Copyright  Riccardo Sama'
INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.
Works in progress.  Semplificazione e maggiore efficienza della gestione  Risparmio (nel medio periodo)  Riallocazione delle risorse (hardware e timesheet)
Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
Gestione del processore (Scheduler)
CSN Maggio 2005 P. Capiluppi Il Computing Model (LHC) nella realta’ italiana u I Computing models degli esperimenti LHC gia’ presentati a Gennaio.
1 Alcuni esempi di dispositivi (2) Disco rigido, RAID, video.
1 Input/Output. 2 Livelli del sottosistema di I/O Hardware Gestori delle interruzioni Driver dei dispositivi Software di sistema indipendente dal dispositivo.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
Hardware Struttura fisica (architettura) del calcolatore formata da parti meccaniche, elettriche, elettroniche.
Tier-2 ATLAS Tier-2 Lamberto Luminari CSN1 – Roma, 10 Ottobre 2005.
Giovanni Volpini, CSN 1, Roma, 18 maggio 2004 ISTITUTO NAZIONALE DI FISICA NUCLEARE SEZIONE DI MILANO LABORATORIO ACCELERATORI E SUPERCONDUTTIVITA’ APPLICATA.
1 Calcolo e software G. Bagliesi 23/3/01 Riassunto riunione calcolo Bologna 19/3/01 B/tau : futuri miniworkshop.
CDF Calcolo Another brick in the wall Paolo Morettini CSN1 Lecce Valerio Vercesi Settembre 2003.
Backup e Immagine del Sistema.
ATLAS PRIN Alessandro De Salvo A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D.
26 Giugno 2007CSN1 - Frascati1 Temi di attualità nella CCR Accanto alla tradizionale attività di controllo dei finanziamenti per le infrastrutture di calcolo.
Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
Centralizzazione del servizio di posta elettronica per l’INFN ─ INTEGRAZIONE ─ Ombretta Pinazza Per il Gruppo Mailing CCR, Marzo 2008.
Parma, 22 Settembre 2010 G. Carlino – ATLAS, Attività di 7 TeV 1 ATLAS Attività di TeV Attività di computing Attività di computing.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
6/1/2016ATLAS Milano1 Agenda :. 6/1/2016ATLAS Milano2 Agenda : A)AGGIORNAMENTO SITUAZIONE RELIABILITY SITO -potrebbe essere utile discutere le nostre.
Utilizzo della VO di theophys per il calcolo lattice QCD G. Andronico M. Serra L. Giusti S. Petrarca B. Taglienti.
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
Attilio Andreazza 1 Milano 27/07/2009 Attività sul tracking Software pixel Attilio: responsabilità generale del software offline pixel –simulazione, ricostruzione,
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
Progetto iSCSI Report alla CCR 12-13/12/2006 Alessandro Tirel – Sezione di Trieste.
1 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Relezione Riunioni Referaggio Calcolo ATLAS Computing Model News Computing.
ANALISI DISTRIBUITA IN ATLAS L’esperienza degli utenti Attilio Picazio Università di Napoli “Federico II” – INFN Napoli 18/05/11Attilio Picazio - Workshop.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
19/4/2013 D. Menasce, M. Serra - Referaggio Progetti INFRA e WLCG 1.
Referaggio TIER2 di Pisa 30 giugno 2006 Silvia Arezzini (Servizio Calcolo e Reti)
Referaggio Calcolo ATLAS II Gianpaolo Carlino INFN Napoli Catania, 12 Settembre 2012 Risorse e Richieste 2013 nei preventivi Aggiornamento in seguito all’allungamento.
G. Maggi 24/1/2006 Il Progetto del TIER2 di Bari Giorgio Maggi.
KLOE - Referee Paolo Checchia, Luca Lista, Ezio Menichetti, Pierluigi Paolucci con l’aiuto sostanziale di Luca dell’Agnello, Mauro Morandin CSN1.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
ATLAS Italia – Sestri Levante, 15 Giugno 2010 G. Carlino – Richieste Run Efficiency = time for physics / total time LHC Efficiency = time with colliding.
1 Bari, 21 Settembre 2011 G. Carlino – ATLAS: il calcolo ATLAS: il Calcolo Attività di Computing nel 2011 Attività di Computing nel 2011 Richieste Tier2.
Il calcolo per l’esperimento GERDA Luciano Pandola INFN, Laboratori del Gran Sasso Riunione della CSN2, LNF Frascati, 29 Novembre 2011.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste.
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
Calcolo “locale” ATLAS-Mi
Transcript della presentazione:

19 Ottobre 2012ATLAS Milano1 Stato delle risorse locali di calcolo L. Carminati, L. Perini, D. Rebatto, L. Vaccarossa

19 Ottobre 2012ATLAS Milano2 Argomenti :  Breve descrizione del Tier2 di Milano (macchine, disco etc) e summary delle performance  Discussione principali problemi osservati negli ultimi tempi  Overview delle principali modalita’ di utilizzo delle risorse di calcolo da parte dei diversi working groups di Milano  Analisi (quasi) post mortem del recente crash del disco  Contromisure e prossimi passi

19 Ottobre 2012ATLAS Milano3 Il TIER 2 di Milano in pillole  CPU : al momento stiamo ospitando circa 1100 job slots  CPU : al momento stiamo ospitando circa 1162 TB di disco (sfondata la soglia del PetaByte)  Il disco e’ organizzato in 8 ‘storage’ per un totale di ~ 50 jbod e piu’ di 500 dischi  Ogni storage ha due controller (ridondanza)  Ogni jbod e’ configurato in RAID6 ( ie si possono rompere fino a 2 dischi senza perdere dati)  Al momento abbiamo :  650TB per DATADISK  200 TB di groupdisk  120 TB di localgroupdisk (+ spippioli )

19 Ottobre 2012ATLAS Milano4 Il TIER3 di Milano in pillole  CPU : 8 macchine da 24 cores (totale 192 cores) per il cluster PROOF e 6 macchine da 8 cores ( 48 cores ) su tier3 (code batch)  Disco : 120 TB per LOCALGROUPDISK (visibile dalla grid) + 30 TB di spazio scratch (“storage4”) + le home degli utenti (separate e quotate)  Stato di occupazione attuale : 100 TB ( su 120)  Localgroupdisk e’ nello stesso filesystem storage_2

19 Ottobre 2012ATLAS Milano5 Come gli utenti milanesi utilizzano le risorse  Accesso diretto ad ntuples di gruppo (ATLAS) su GROUPDISK : Il gruppo di fisica produce centralmente ntuple di gruppo inviate automaticamente a Milano via Production system  utilizzato per analisi di fotone  si usa spazio pledged come locale  sfruttano tutte le potenzialita’ del production system  Skimming di ntuples di gruppo su altri siti via prun. Si gira un codice di skimming su ntuple di gruppo prodotte centralmente ( ma che non necessariamente stanno a Milano ) e si sottoscrive l’output a Milano  utilizzato da analisi SUSY, MissingET  ciclo tipico alcuni giorni sul tipico dataset ICHEP  Utilizzo di skims gia’ esistenti : gruppi di fisica producono streams di ntuple gia’ skimmate in modo semi-ufficiale. Gli skims vengono semplicemente sottoscritti a Milano  utilizzato dal gruppo H->tau tau  sottoscrizioni problematiche : fino a 2 o 3 settimane per il tipico dataset ICHEP

19 Ottobre 2012ATLAS Milano6 Le performance del sito  Il TIER2 di Milano e’ un T2D (in classe alpha), la categorizzazione piu’ alta tra I T2.  Possiamo ospitare groupdisk  Soffriamo un po’ il confronto con gli altri TIER2 italiani : 87% contro 91%-NA, 95-RM e 96%-FR ( finestra degli ultimi 6 mesi, a noi particolarmente sfavorevoli )  Il nostro comportamento e’ mediamente in linea con gli altri : alcuni grossi incidenti  Stacco di corrente  Sostituzione di un disco in un jbod E4  Sostituzione di un controller

19 Ottobre 2012ATLAS Milano7 Analisi degli incidenti con lo storage  Allo stato attuale abbiamo circa 500 dischi, la probabilita’ di avere crash di un singolo disco non e’ trascurabile  Gli storage systems sono disegnati in modo da sopportare in modo trasparente la rottura di un disco o di un controller  l’informazione e’ ridondata. Il disco viene sfilato e sostiuito senza spegnimenti e l’informazione di nuovo ottimizzata  Ai primi di giugno abbiamo avuto un problema di questo tipo con un disco in uno storage system di E4  la sostituzione ha generato il primo crash  Lungo lavoro di diagnosi con E4 e IBM : ipotesi di un controller difettoso  Sostituzione del controller sotto la guida diretta dei tecnici E4 ( e chiamata aperta con IBM ) : secondo incidente.

19 Ottobre 2012ATLAS Milano8 Gestione situazione post-incidente  Immediatamente attivato il sistema centralizzato di recovery : il sistema controlla se esiste una replica dei files danneggiati e ripristina il file  Sistema di recovery particolarmente lento : messa a disposizione un’area temporanea scratch ( rubata al disco pledged ! )  Nel frattempo per alcuni gruppi i datasets su localgroupdisk erano diventati obsoleti  risottoscritti nuovi datasets su localgroupdisk ( lento ! )  dq2-get diretto sull’area temporanea  Gli utenti si sono salvati tramite il dq2 diretto sull’area temporanea con un ritardo medio di 2-3 giorni  il gruppo tau ha avuto particolari problemi presumibilmente legati alla lentezza del trasferimento dei loro datasets  migliaia di sottoscrizioni accodate principalmente sui datasets tau  stiamo cercando di capire la ragione della lentezza di questo tipo di sottoscrizioni

19 Ottobre 2012ATLAS Milano9 Datasets tau  Abbiamo fatto dei test dettagliati comparando le caratteristiche di datasets ‘lenti’ rispetto a datasets ‘veloci’ : caso considerato : dati 2012 periodi A+B  Datasets ‘veloci’ :  size totale : 400 GB  numero di dataset ~ 200  numero di files totale ~ 400  Datasets ‘Lenti’  size totale : 400 GB  numero di datasets ~ 100  numero di files totale 8000  Non abbiamo ancora una misura definitiva ma il numero totale di files e’ un indiziato forte:  ritentare il trasferimento dopo un merging per misurare la velocita’ (ongoing)

19 Ottobre 2012ATLAS Milano10 Prossimi passi Molte discussioni per capire come procedere al meglio per ottimizzare l’uso delle risorse (aggiungere spazio!) e minimizzare i rischi per gli utenti  Ristrutturare il filesystem in disk pools : failures in DATADISK per esempio non si ripercuotono su LOCALGROUPDISK  Separate fisicamente LOCALGROUPDISK dal resto :  Cambiare completamente il tipo di hardware : muovere a sistemi NAS, 10K euro per 70 TB : sempre in RAID6 ma controller NON ridondati  Con avanzi di gara potremmo comprare 2 sistemi (140TB lordi) e muoverci sopra LOCALGROUPDISK  Eventualmente potremmo aggiungere altri 70 TB con fondi ‘locali’