Problemi aperti Luciano Gaido (INFN - Torino) Workshop CCR – Laboratori Nazionali del Gran Sasso 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sommario Introduzione Rete Sicurezza Release e compatibilità del software Supporto Altri punti di vista Availability/reliability Conclusioni Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sommario Introduzione Rete Sicurezza Release e compatibilità del software Supporto Altri punti di vista Availability/reliability Conclusioni Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Introduzione Grid di produzione operativa da parecchi anni (DataGrid, EGEE, EGEE-II ed ora EGEE-III). La componente wLCG (worldwide LHC Computing Grid) è stata ed è molto importante (in termini di risorse, applicazioni e commitment): Inizio presa dati! La gestione di una grossa infrastruttura di produzione è una attività complessa, anche per i vincoli esterni (locali e sovranazionali) L’nfrastruttura evolverà ancora: Prospettiva delle Nation Grid Infrastructures (NGI) con “interconnessione” di European Grid Initiative (EGI) Evoluzione del modello delle Operations in EGEE-III Aumento di risorse, servizi, applicazioni ed utilizzatori Qualità di servizio elemento sempre più importante: Garantire un livello di servizio soddisfacente (possibilmente) a tutti gli utilizzatori Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sommario Introduzione Rete Sicurezza Release e compatibilità del software Supporto Altri punti di vista Availability/reliability Conclusioni Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Rete Firewall Non ci sono purtroppo documenti esaustivi sulle porte da aprire sul firewall per tutti i servizi grid. Sono disponibili alcuni documenti su wiki: Configurazione iptables: https://twiki.cern.ch/twiki/bin/view/LCG/LCGfw Elenco porte utilizzate dai servizi: https://twiki.cern.ch/twiki/bin/view/LCG/LCGPortTable Prossimamente verrà creata una sezione specifica sul portale del ROC italiano. Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Rete (cont.) Reti locali e geografiche necessità di valutare l’evoluzione, in particolare: 10 Gb/s per i Tier-2 Link dedicati Tier-1 Tier-2 (1 Gb/s?) Valutazione da effettuare in collaborazione tra CCR (WG NetArch, ROC, GARR) Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sommario Introduzione Rete Sicurezza Release e compatibilità del software Supporto Altri punti di vista Availability/reliability Conclusioni Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sicurezza Il gruppo OSCT (Operations Security Coordination Team): coordina le attività dei vari ROC sulla security raccoglie raccomandazioni, best practices e documenti vari su un sito web (c’è il link dal portale italiano del supporto) http://rss-grid-security.cern.ch/rss.php Effettua i cosiddetti “security challenge” Un team, il Duty Contact (OSCT-DC), segue i problemi di sicurezza che si presentano attivando le procedure opportune con turni di una settimana Organizza tutorial sulla sicurezza Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sicurezza (cont.) Il ROC italiano sta riorganizzando le proprie attività: riviste le procedure di incident response (con GARR-CERT) in costituzione gruppo di lavoro per Studio delle problematiche di security sulla grid italiana valutazione di strumenti vari (log centralizzato, intrusion detection, etc.) Sinergia con gruppo security INFN (non si deve riscoprire l’acqua calda) riorganizzazione della documentazione (a volte troppo dispersiva e dispersa) definizione degli use case da sottoporre all’OTS GARR per interventi su un sito verifica periodicamente dei “Security Contact”, attraverso appositi security challenge ‘regionali’ formazione Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sommario Introduzione Rete Sicurezza Release e compatibilità del software Supporto Altri punti di vista Availability/reliability Conclusiono Workshop CCR - LNGS - 11 giugno 2008
Release e compatibilità dei sw Release INFN-GRID: Insufficienza procedure validazione (EGEE) Test più approfonditi a livello del ROC italiano prima di rilasciare una componente per il deployment Compatibilità dei sw con il middleware grid: Problema serio Particolarmente sentito in ambienti “misti” (accesso grid e locale alle farm) Non esiste una soluzione definitiva Varie esperienze, anche da progetti italiani Virtualizzazione? Integrazione di nuove componenti nella release Scuole (es. Martinafranca) Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sommario Introduzione Rete Sicurezza Release e compatibilità del software Supporto Altri punti di vista Availability/reliability Conclusioni Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Supporto Riorganizzazione turni: Individuazione del modello più efficiente: Tutti fanno i turni a rotazione come ora Team dedicato al controllo/supporto Tool Evoluzione ‘naturale’ dei tool, miglioramento funzioni esistenti ed inserimento di nuove funzionalità Inserimento risorse di altri partner (INAF e PON): Interoperabilità tool di supporto Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sommario Introduzione Rete Sicurezza Release e compatibilità del software Supporto Altri punti di vista Availability/reliability Conclusioni Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Altri punti di vista Diversi attori coinvolti, con differenti punti di vista Utilizzatori/amministratori: Necessità di tool semplici, affidabili e possibilmente comuni: monitoring accounting Supporto distribuzione informazioni Utilizzatori/esperimenti: Necessità di UI SL4/x86_64 Non presente in gLite, ma inserita in INFN-GRID: Guida disponibile: http://igrelease.forge.cnaf.infn.it/doku.php?id=doc:guides:install-3_1_64bit Workshop CCR - LNGS - 11 giugno 2008
Altri punti di vista (cont.) Utilizzatori/esperimenti: frequenza elevata degli upgrade, possono interferire con attività esperimenti quali fare? Già ora sono classificati in 2 categorie (High Priority, Normal) Miglioramento documentazione associata in futuro (sintesi di release notes?) Possibilità di effettuare l’upgrade di specifiche componenti: metapackage possibile già ora per profili “generali” (CE, SE, UI, etc.) in fase di studio profili a grana più fine qualche test già effettuato a padova Workshop CCR - LNGS - 11 giugno 2008
Altri punti di vista (cont.) Utilizzatori/esperimenti (cont.): documentazione poco utilizzabile (carente, dispersa) Due ‘repository’: EGEE ed INFN-GRID Riorganizzazione in vista, ma quella gLite non dipende dal ROC italiano per YAIM (INFN-GRID): http://igrelease.forge.cnaf.infn.it/doku.php?id=doc:guides:site-info-variables Repository middleware: presenza di file obsoleti e ‘upgrade’ totali Vari repository disponibili (gLite, INFN-GRID, altri) Problema aperto Workshop CCR - LNGS - 11 giugno 2008
Altri punti di vista (cont.) Utilizzatori/esperimenti (cont.): Alcuni problemi con DGAS (roma1 in particolare): Configurazioni complesse! Necessità di controllo regolare dello stato: https://dgas.cnaf.infn.it/HLRmon In fase di implementazione l’automatizzazione di alcuni controlli Affidabilità dei servizi ‘core’ (es. VOMS): Ridondanza già presente Non sempre è sufficiente, necessarie opportune ‘configurazioni’ da parte degli esperimenti (vedi problemi di CDF) Workshop CCR - LNGS - 11 giugno 2008
Altri punti di vista (cont.) Problemi segnalati in passato: meccanismo con cui vengono prese le decisioni operative non ottimale, necessita' di un coordinamento snello ma efficace fra GRID ed esperimenti: phone conference periodiche INFN-GRID (il venerdì, ogni 15 gg.) Phone conf operations (ogni lunedì) Problemi specifici o particolamente importanti : cabina di regìa Riunioni “ad hoc” difficoltà ad avere un monitoring dell'uso delle risorse uniforme e coerente fra le sedi: Dati di accounting accessibili attraverso il portale HLRmon Per segnalare problemi specifici aprire un ticket opportuno, in modo tale da consentirne la tracciabilità Per problemi più generali mail a it-roc-managers@infn.it Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sommario Introduzione Rete Sicurezza Release e compatibilità del software Supporto Altri punti di vista Availability/reliability Conclusioni Workshop CCR - LNGS - 11 giugno 2008
Availability/reliability Metriche EGEE/LCG: controllo basato su test periodici (SAM test) gestiti centralmente evoluzione verso Nagios nei mesi scorsi risultati per la grid italiana insoddisfacenti Non significa necessariamente che non c’è stata attività Sintomo di problemi (e.g. BDII poco responsivo) Supporto del ROC per la risoluzione dei problemi nei siti Miglioramento nell’ultimo mese... ma il lavoro non è concluso Gestione “regionale” dei test prossimamente Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Sommario Introduzione Rete Sicurezza Release e compatibilità del software Supporto Altri punti di vista Availability/reliability Conclusioni Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Conclusioni Sinteticamente: Il modello utilizzato per le operations è in fase di revisione L’evoluzione verso IGI/EGI impone di affrontare nuovi problemi ma anche di semplificare le procedure per gestione/controllo/supporto della Grid Dobbiamo garantire una opportuna qualità di servizio Workshop CCR - LNGS - 11 giugno 2008
Workshop CCR - LNGS - 11 giugno 2008 Conclusioni (cont.) Discussione! Workshop CCR - LNGS - 11 giugno 2008