KLOE - Referee Paolo Checchia, Luca Lista, Ezio Menichetti, Pierluigi Paolucci con l’aiuto sostanziale di Luca dell’Agnello, Mauro Morandin CSN1.

Slides:



Advertisements
Presentazioni simili
Gestione della Memoria
Advertisements

E835 & Hera-B Concezio Pisa, 21/12/2004. E835 (aka Jet-FNAL) timeline dell'esperimento –Presa dati conclusa nel Alcune analisi tuttora in corso.
Run I Distribuzione inclusive di Min Bias (Mult. Carica, Pt). Correlazioni dello stato finale ( -Mult) + mini-jet (soft hard physics). Campioni utilizzati:
1 CONVEGNO SOCI ANSSAIF settembre 2004 Golg Hotel Acaya (Lecce) Paolo Giudice (CLUSIT, ANSSAIF, CLUSIS, CISCA) Lassicurazione come trasferimento.
CSN1 2 Aprile 2003 P. Morettini 1 Relazione sulla CCR La riunione di Commissione Calcolo e Reti del 6 Marzo è stata in parte dedicata alla discussione.
Gestione dei dischi RAID
Aspetti critici rete LAN e WAN per i Tier-2
Struttura dei sistemi operativi (panoramica)
Verso una gestione totalmente digitale dei documenti contabili
Proxy-based infrastructure for LBS availability Reti di Calcolatori L-S Andrea Licastro
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
INTRODUZIONE l sistema operativo è il primo software che lutente utilizza quando accende il computer; 1)Viene caricato nella memoria RAM con loperazione.
Modulo 1 - Concetti di base della Tecnologia dell'Informazione
EGEE is a project funded by the European Union under contract IST Using SRM: DPM and dCache G.Donvito,V.Spinoso INFN Bari
Alessia Tricomi Università & INFN Catania
Installazione Come tecnico, si potrebbe aver necessità di effettuare una installazione pulita di un sistema operativo. L'esecuzione di una installazione.
P.L. Fabbri Gli Hard Disks sono oggetti molto affidabili. Strategie di Backup dei dati … fino a che non si guastano !!!
Come preparare una chiavetta USB per essere avviabile in DOS ed effettuare il flash del tuo VBIOS Avviso: Il Vbios di esempio è per la scheda VAPOR-X R9.
Registrazione alle istanze on-line
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
6 Febbraio 2006CSN1 - Roma1 MEG : relazione dei referees P. Cenci R. Contri P. Morettini M. Sozzi.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)
CSN Maggio 2005 P. Capiluppi Il Computing Model (LHC) nella realta’ italiana u I Computing models degli esperimenti LHC gia’ presentati a Gennaio.
CSN1-Assisi L.Perini1 BaBar Calcolo L. Perini per i referees: L.Perini,A.Staiano…
1 Gestione della Memoria Capitolo Introduzione alla gestione della memoria 4.2 Swapping 4.3 Memoria virtuale 4.4 Implementazione 4.5 Algoritmi di.
Master MATITCiclo di vita del Sistema Informativo1 CICLO DI VITA DEL SISTEMA INFORMATIVO.
Tier-2 Tier-2 ATLAS (Osservazioni sulla proposta dei referee del calcolo LHC) Lamberto Luminari CSN1 – Roma, 3 Aprile 2006.
15/05/2007CSN1 Roma Presidenza1 KLOE: referee* KLOE Calcolo (referee calcolo) KLOE2 Tabelle con proposte di assegnazione * M. Livan, P. Paolucci, P.C.
22 Settembre 2003Referee Kloe – CSN1 Lecce Kloe – Relazione dei referee Riccardo FANTECHI Pasquale LUBRANO Stefano ZUCCHELLI Commissione I – Lecce, 22.
6/4/2004 S. Patricelli - CSN1 - Roma 1 Preparazione RRB di Aprile Addendum al MoU per HLT/DAQ (CERN-RRB )* Consuntivi 2003 M&O (CERN-RRB
BABAR: relazione dei referee M.De Palma, C.Luci, A.Staiano B.Gobbo, M.Sozzi (calcolo) Trieste,
CSN1 17 Maggio MEG : relazione dei referees G. Carugno, P. Cenci, R. Contri, P. Morettini.
Relazione Referee ATLAS F.Bedeschi, R. Carlin, S. Dalla Torre, N.Pastrone 4 Luglio 2006 Richieste aggiuntive Chiusura gare Missioni.
Gruppo 1 - Catania 16/09/2002 – R. Fantechi, P. Lubrano, S. Zucchelli (R. Fantechi, P.Lubrano, L. Perini per il calcolo) KLOE - Richieste aggiuntive 2002.
STATO DEI PROGETTI TIER2 F. Bossi CCR, Roma, 20 Ottobre 2005 ( per il gruppo di referaggio)
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
CSN1 - 13/14 maggio 2002 M. Morandin - INFN Padova Proposte referee CMS-RPC R. Calabrese, P. Campana, M. Morandin.
CDF I referee Roma, 16 Maggio Tevatron OK Fisica Stanno pubblicando –Bene Nostre principali preoccupazioni su B s -mixing –Sulla base dei loro.
CDF Calcolo Another brick in the wall Paolo Morettini CSN1 Lecce Valerio Vercesi Settembre 2003.
M. Sozzi Referaggio calcolo “non-LHC” Referaggio calcolo CSN1 “non-LHC” M. Sozzi.
I sistemi operativi Funzioni principali e caratteristiche.
Padova, 17 novembre
Storage (ieri, oggi e domani) Luca dell’Agnello INFN-CNAF.
Chiara Meroni Eugenio Nappi Pigi Paolucci Umberto Marconi INFN CERN Associate.
26 Giugno 2007CSN1 - Frascati1 Temi di attualità nella CCR Accanto alla tradizionale attività di controllo dei finanziamenti per le infrastrutture di calcolo.
D. Martello Dip. Fisica - Lecce Sintesi piani esperimenti CSN2 CNAF 7-marzo-2007.
Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Lecce 30 Settembre 2015.
Referaggio sigla CALCOLO Gianpaolo Carlino Antonio Budano Michele Michelotto* Ruggero Ricci CCR – Roma Settembre 2015.
1 referee-BaBar CSN I, LNF giugno 2007 RELAZIONE DEI REFEREE DI BaBar M.De Palma, C.Luci, C.Troncon, B.Gobbo(calcolo) 26 giugno 2007.
6/1/2016ATLAS Milano1 Agenda :. 6/1/2016ATLAS Milano2 Agenda : A)AGGIORNAMENTO SITUAZIONE RELIABILITY SITO -potrebbe essere utile discutere le nostre.
ATLAS e CMS Relazione dei referees A. Cardini, M. Grassi, G. Passaleva, A. Passeri, V.Vagnoni.
Attilio Andreazza 1 Milano 27/07/2009 Attività sul tracking Software pixel Attilio: responsabilità generale del software offline pixel –simulazione, ricostruzione,
ARCHIVIAZIONE DOCUMENTI IN MASTERMESSENGER  Programmazioni  Relazioni  Verbali  Eventuali altri documenti Regole di nomenclatura.
19 Ottobre 2012ATLAS Milano1 Stato delle risorse locali di calcolo L. Carminati, L. Perini, D. Rebatto, L. Vaccarossa.
Server & Storage Urgenze e anticipazioni seconde priorità CCR Marzo 2009 AG MM LC.
1 referee-BaBar CSN I, Roma Gennaio 2008 RELAZIONE DEI REFEREE DI BaBar e SuperB M.De Palma, C.Luci, C.Troncon, B.Gobbo(calcolo),D. Pedrini
Uso della rete geografica e richieste di upgrade CCR 31/3/2015 (Roma) S.Zani.
Uno sguardo al prossimo futuro 1 Workshop Atlas RPC Roma1 26/3/2015 R. Santonico.
Referaggio Calcolo ATLAS II Gianpaolo Carlino INFN Napoli Catania, 12 Settembre 2012 Risorse e Richieste 2013 nei preventivi Aggiornamento in seguito all’allungamento.
Disaster Recovery Resoconto delle attività del Gruppo di Lavoro DR CCR CNAF 5-7/2/2013 S.Zani.
Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Catania 1 Ottobre 2014.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
Relazione referees di ATLAS, Ferrara Giugno Relazione referee di ATLAS  Raccomandazioni su sblocchi SJ e finanziamenti aggiuntivi 2008 Riunione.
ATLAS Italia – Sestri Levante, 15 Giugno 2010 G. Carlino – Richieste Run Efficiency = time for physics / total time LHC Efficiency = time with colliding.
P. Morettini 19/5/ Paolo Morettini - ATLAS Italia - Napoli.
Il calcolo per l’esperimento GERDA Luciano Pandola INFN, Laboratori del Gran Sasso Riunione della CSN2, LNF Frascati, 29 Novembre 2011.
CSN1 Apr Relazione Referee KLOE Paolo Checchia Riccardo Fantechi Pierluigi Paolucci Luca Lista Ezio Menichetti.
Aggiornamento AFS R.Gomezel Commissione Calcolo e Reti Presidenza 5/10/2010-7/10/2010.
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
Transcript della presentazione:

KLOE - Referee Paolo Checchia, Luca Lista, Ezio Menichetti, Pierluigi Paolucci con l’aiuto sostanziale di Luca dell’Agnello, Mauro Morandin CSN1

L’incidente La più nuova delle due tape library di KLOE ha mostrato una serie di errori di lettura e la rottura di due drive (sostituiti) a partire dal 16/06/2010 L’analisi dei danni si è conclusa il 24/02/2011, presso gli "IBM Media Development Laboratory", Tucson, AZ Rilevata contaminazione da insetti –6 cartucce hanno mostrato residui di insetti schiacciati Un analogo incidente è stato riportato anche a Fermilab [ * ] [ * ] CSN1Luca Lista2

Entità del danno Le cartucce potenzialmente contaminate sono 640 su 2800 (non si sa esattamente quante) –640 potenzialmente contaminate: 139 contengono dati RAW (non riproducibili!) 501: dati ricostruiti, DST, MC (riproducibili) – = 2160 incontaminate 316 con dati 1844 vuote –Tape size: 1TB/620 GB Il materiale (i drive!) contaminato non è considerato in manutenzione dall’IBM CSN1Luca Lista3

Proposta iniziale di KLOE La library più vecchia, incontaminata, potrebbe ospitare nuovi drive, le 2160 cassette incontaminate e nuove cassette da acquistare –Necessario acquistare: 12 drive nuovi 500 cassette nuove 64 TB di disco da usare come buffer per il riversamento –Costo stimato: ~ k€ (trattativa da avviare con IBM) –Valore di riferimento: gara fine 2009 Vanno comunque recuperati i RAW data ora registrati sui 139 nastri contaminati –Il costo per il “cleaning” dell’IBM: 5k€/nastro = 700k€ !!! –Necessario inviare i nastri in USA… CSN1Luca Lista4

Due problemi da affrontare Due problemi vanno affrontati separatamente e con priorità diverse: 1.Garantire a KLOE capacità di storage per la presa dati –Il sistema deve essere efficiente per il processamento (RAW  RECO  DST) e per la successiva analisi (DST) 2.Avviare il recupero dei dati e possibilmente del materiale contaminato (principalmente i drive) –Probabilmente un’attività penosa, ma visti i prezzi proibitivi è necessario fare un tentativo in casa –Se l’intervento funziona si potrebbero recuperare i drive e i nastri, almeno in parte –La library va comunque spostata dal luogo attuale CSN1Luca Lista5

Alternativa: la library del CNAF CSN1Luca Lista6 20 drives T10Kb IBM (1 TB, 1GB/s,  5TB; KLOE ne ha 12) Usata principalmente da esperimenti LHC, ma risorse sufficienti per lo storage di KLOE 4  10 PB nel 2011 (  upgrade a 20 PB nel 2012) + ~100TB di buffer disco –Al mese, assumendo ½ fb -1, KLOE ha bisogno di ~0.28 PB: 120 TB di RAW, 80 TB di RECO, TB di DST-dati, 50 TB di DST-MC Sistema già usato da KLOE (con protocollo TSM) Accesso a files su tape automatico quando si accede al file system GPFS, come se fosse un’area disco normale KLOE non usa un vero HSM e neanche SRM (gestisce “a mano” il pre-staging dei files)

Throughput library Esigenze di KLOE: ~200 MByte/s –50 MByte/s DAQ –50 MByte/s processing –50 MByte/s concurrent processing –50 MByte/s analisi La library ha mostrato performances sufficienti (×2.5) Necessario un upgrade di rete (300Mbit/s  1÷2Gbit/s), che dovrebbe essere fattibile senza troppi problemi Upgrade utile anche per il T2 di ATLAS CSN1Luca Lista7 Test fatti al CNAF con la library in questione

Uso dei nastri al CNAF Al momento, KLOE usa massicciamente i nastri, anche per l’analisi, per mancanza di spazio disco sufficiente come buffer Un uso “tal-quale” della library al CNAF è forse fattibile, con un upgrade di rete, ma sarebbe sub-ottimale L’uso dei tape principalmente come archivio dei RAW data per i (ri-)processamenti consentirebbe di ridurre il numero di stage dei nastri, quindi lo stress meccanico Necessario un buffer disco più ampio, solo per i DST, per garantire un accesso veloce per l’analisi Sembrerebbe un uso ragionevole, e migliorerebbe anche il workflow dell’analisi attuale CSN1Luca Lista8

Soluzioni analizzate (A) Copia o backup dei RAW data al CNAF Necessario comunque upgrade della library incontaminata Soluzione completamente da testare Copia  necessario rivedere il software per l’archiviazione, traserimento al CNAF e popolazione del DB con i dati relativi Backup  uso di TSM a basso livello, device FC-over-IP (disponibile al CNAF, da comprare a LNF, mai testato!) Espressi dubbi sulla sicurezza per il trasferimento dei dati in questo modo (B) Storage dei RAW al CNAF, processamento RECO a LNF e buffer disco con DST a LNF Il buffer disco evita la necessità di una library locale 135 TB di dati di KLOE TB per ogni fb -1 di KLOE-2 Upgrade di banda:1÷2GB/s Da definire il modo in cui effettuare le copie remote (GRID-FTP, …) Revisione del software di archiviazione e trasferimento comunque necessaria CSN1Luca Lista9

Soluzione estrema (C) Spostare l’intero sistema di calcolo di KLOE al CNAF Limitati gli interventi sul software Dopo una iniziale considerazione è apparsa troppo rischiosa e probabilmente troppo onerosa per il CNAF Si potrebbe riconsiderare dal 2012 in poi, con l’installazione dei nuovi detector CSN1Luca Lista10

Proposta su come procedere La proposta (B) appare la soluzione più solida sia sul breve che sul lungo termine. Proponiamo di: Avviare quanto prima la connessione con la library al CNAF per archiviare i nuovi dati Definire il piano degli interventi da fare per l’integrazione –es.: upgrade del software Aumentare lo spazio disco come buffer per l’analisi Avviare in parallelo la procedura di recovery, cercando di salvare il salvabile Valutare l’esito della strategia tra qualche mese (pochi…) –alla luce dei benchmark misurati col nuovo sistema, e di quanto si sarà potuto recuperare CSN1Luca Lista11

Altre richieste Bari, ME: + 4k€OK LNF, CON: +17k€OK –impegno per gara He Entrambe le richieste sono coperte dai s.j. assegnati a settembre su ME e CON a LNF CSN1Luca Lista12

Conclusioni La soluzione che richiede meno sforzo (acquisto di nuovi drive e nastri) è anche la più costosa La library al CNAF sembra adeguata, vanno dettagliati gli interventi da fare Il ripensamento dell’uso dei nastri limitato al ri- processamento e del disco per l’analisi potrebbe anche portare un miglioramento rispetto al modello attuale CSN1Luca Lista13