Linux e la ricerca scientifica Roberto Ferrari Parma LUG Linux Day 2010 23 ottobre 2010.

Slides:



Advertisements
Presentazioni simili
Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.
Advertisements

Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.
Linux e la ricerca scientifica Roberto Ferrari Parma LUG Linux Day ottobre 2009.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Martedi 8 novembre 2005 Consorzio COMETA “Progetto PI2S2” UNIONE EUROPEA Accesso all’infrastruttura Grid del Consorzio COMETA Grid Open Day alla Facoltà.
Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
Aggiornamento attività gruppo Windows Gian Piero Siroli, Dip. di Fisica, Univ. di Bologna e INFN CCR, Giugno 2009.
CCR, LNF ott 2011 Proposte assegnazioni server & storage L. Carbone, A. Gianoli, M. Serra.
Progetto CyberSAR Prof. Giuseppe Mazzarella Cons. COSMOLAB & Univ. Cagliari Catania 13/12/05 Cagliari 20/07/05.
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
FESR Catania, Trigrid Open Day, Trinacria Grid Virtual Laboratory PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno.
ATLAS computing Roberto Carlin Commissione I Roma 1/7/08 F. Bossi, C.Bozzi, R. Carlin, R. Ferrari, D. Lucchesi, D. Martello, M. Morandin, M. Taiuti.
D. Talia - UNICAL 1. 1 Sistemi Operativi Domenico Talia Facoltà di Ingegneria Università della Calabria.
GNU/Linux (e il software libero) nella fisica delle particelle elementari Roberto Ferrari Parma GLUG GNU/Linux Day ottobre 2011.
1 14 marzo 2006 sommaruga andrea Fondazione Ordine Ingegneri di Milano VPN: Reti Private Virtuali VPN: RETI PRIVATE VIRTUALI LE POSSIBILITA' DI ACCESSO.
POLITECNICO DI MILANO FACOLTA’ DI INGEGNERIA SEDE DI CREMONA TESI DI DIPLOMA IN INGEGNERIA INFORMATICA RELATOREAUTORI Prof. Vittorio TrecordiDemicheli.
Attività PRIN STOA a Cagliari Alessandro De Falco Università/INFN Cagliari.
Il calcolo per l’esperimento GERDA: prospettive per la Fase II Luciano Pandola INFN, Laboratori del Gran Sasso e Laboratori del Sud Workshop della CCR,
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Facile da usare Un'interfaccia amministrativa completamente rinnovata, iniziare con Drupal è più facile!
Infrastruttura cloud servizi realizzata nella Sezione di Napoli
SCoPE - Stato dei Lavori
Riccardo Veraldi - Massimo Donatelli CCR 3-4 Marzo 2008
Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido
Summary di (quasi) tutti gli utenti non presentati…
Monitoring e loadbalancing dei servizi Grid
Comput-ER l'infrastruttura di calcolo distribuito in Emilia Romagna
Metodologie Quantitative per il Calcolo Scientifico
Richieste di upgrade dei link di accesso alla rete Geografica
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
Sistema di Analisi e di Acquisizione
PNSD - Modulo M5 e M11 Ravenna
Microcontrollori e microprocessori
Università di Messina - C.E.C.U.M.
Attivita’ e compiti del Servizio Impianti Calcolo e Reti
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Introduzione alla sessione sull’analisi per gli esperimenti LHC
PNSD - Modulo M6 Faenza 6 settembre 2017
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Analisi dei dati dell’Esperimento ALICE
Attvità Computing – Inverno 08/09
Care and Feeding of the ALICE Grid
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
MC-INFN.
Report Calcolo Commisione III
Luciano Gaido (INFN - Torino) Workshop CCR/INFNGRID – Palau
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
PNSD - 24 ottobre 2017 Piattaforma e risorse educative aperte (OER) per la costruzione di contenuti digitali - G Suite For Education - Storage e repository.
Sviluppo web con stumenti Open
* Il Sistema Operativo GNU/Linux * Sistema Operativo e Applicazioni
Risultati del questionario sui servizi middleware aggiuntivi
Stato Computing ATLAS Gianpaolo Carlino INFN Napoli
PNSD - Modulo M6 Lugo 4 settembre 2017
Gianpaolo Carlino (coord)
PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno
La richiesta si basa sulle seguenti considerazioni:
analizzatore di protocollo
Sistemi ERP (Enterprise Resource Planning)
RES PowerFuse® e RES WISDOM®
MODULO 1 – Computer essentials
Organizzazione di una rete Windows 2000
Marcello Iacono-Manno Catania, 6 maggio 2010
Il protocollo elettronico (e altri servizi informatici)
Roberto Delle Donne La CRUI e l’Open Access
© 2007 SEI-Società Editrice Internazionale, Apogeo
ATLAS LHC (Large Hadron Collider)
Job Management Systems ovvero
INFN-Grid DI PRODUZIONE grid-use-model grid.infn.it
PNSD novembre 2017 Piattaforma e risorse educative aperte (OER) per la costruzione di contenuti digitali - G Suite For Education - Storage e repository.
Report dei referee di Kloe
Transcript della presentazione:

Linux e la ricerca scientifica Roberto Ferrari Parma LUG Linux Day ottobre 2010

Linux Day 2010 – Parma, 23 ottobre 2 DISCLAIMER a) non ho fatto progressi rispetto allo scorso anno … :-( b) mi limiterò all'ambiente della fisica delle particelle (INFN, CERN) c) non prendetemi troppo sul serio !

Linux Day 2010 – Parma, 23 ottobre 3 I.N.F.N.: Istituto Nazionale di Fisica Nucleare CERN: European Organization for Nuclear Research

Linux Day 2010 – Parma, 23 ottobre 4 Coordina e finanzia la ricerca in fisica nucleare e sub-nucleare in Italia sezione gruppo laboratorio L'INFN

Linux Day 2010 – Parma, 23 ottobre 5 CERN Nasce come laboratorio di ricerca europeo → ora è il più grande del mondo nel settore: luogo di confronto e collaborazione per ricercatori di ogni dove... Italia: stato membro fin dalla fondazione Esperimenti: collaborazioni internazionali (Italia -> gruppi INFN) ‏

Linux Day 2010 – Parma, 23 ottobre 6

7 Dove è nato il Web ? ha compiuto 20 anni -

Linux Day 2010 – Parma, 23 ottobre 8 Il Calcolo Problematiche diverse: A) ONLINE (acquisizione dati: DAQ) ‏ → efficienza, velocità, robustezza, stabilità, enormi flussi di dati, controllo strumentazione INTERATTIVO B) OFFLINE (simulazione, ricostruzione e analisi dati) ‏ → precisione, ripetibilità, enormi quantità di dati ~ NON INTERATTIVO (code batch) rete, storage, database, fogli elettronici, … versioning, documentazione … “event display”

Linux Day 2010 – Parma, 23 ottobre 9 … collaborazioni internazionali Tanti istituti e gruppi di ricerca diversi Scelte interne poco coordinate con altri: → guidate dalla competenze e dalle esperienze disponibili nelle rispettive sedi → a volte poco esportabili (es. sviluppate in casa) C'è chi ha scritto linguaggi, chi sistemi operativi, chi ha violato i primi MAC (1984), segando il case per interfacciarli a schede esterne...

Linux Day 2010 – Parma, 23 ottobre 10 Negli ultimi 30 anni... Si passa da scelte abbastanza (o molto) impegnative (acquisto → supporto nel tempo) a soluzioni scalabili: '80: minicomputer, mainframe, supercomputer VAX, IBM, CDC, CRAY (s.o. proprietari) '90: workstation e single-board-computer specializzati (unix proprietari): scalabilità... 2k: pc desktop, pc rack mounted, single board computer “off the shelf” (linux) Programmazione: fortran 77 (+ vari assembler) → C → C++

Linux Day 2010 – Parma, 23 ottobre 11 CRAY X-MP 48 con UNICOS (1988) ‏ - calcolo vettoriale - UNIX con code batch (sviluppate in casa) ‏ - clock ~ 118 MHz, RAM 128 MB - potenza di calcolo <~ ½ Xbox - costo ~10 M$

Linux Day 2010 – Parma, 23 ottobre 12 Architettura CPU Vivace polemica durante tutti gli anni '90: CISC.vs. RISC CISC: chiusura del “semantic gap” fra istruzioni di alto livello e microcodice (molti registri, molte istruzioni complesse, molti modi di accedere la memoria) RISC: il contrario → complessità nel software (unix & C), semplicità nell'hardware (migliori compilatori, memorie meno costose)

Linux Day 2010 – Parma, 23 ottobre 13 Acquisizione Dati (DAQ) ‏ * REAL TIME O.S. : ritardo massimo di risposta definito * Il kernel UNIX “standard” non è real time: una chiamata di sistema può richiedere un tempo indefinito Dalla ~ metà degli anni 80 (LEP): da VAX/VMS → Single Board Computer (SBC) VME - processori 680x0 - sistema operativo real time OS-9

Linux Day 2010 – Parma, 23 ottobre 14 UNIX Real-Time Low-latency patch (Ubuntu Studio): linux kernel interrompibile RTAI: il kernel linux gira come una applicazione a priorità maggiore

Linux Day 2010 – Parma, 23 ottobre 15 LHC (ATLAS)... Anni 90: parole chiave: VME + RISC + UNIX real time + SCALABILITA' Es: MIPS R3000/R4000, PowerPC con LynxOs la richiesta di “real time” cala rapidamente... rimangono dubbi rispetto a soluzioni “open source” Ultimi 10 anni, graduale convergenza verso: Red Hat Linux → S.L.C. front-end (SBC): 80x86 + linux back-end: rack di macchine linux

Linux Day 2010 – Parma, 23 ottobre 16 S.L.C. (& x86) Scientific Linux: release creata e mantenuta da FermiLab e Cern (più altre università e laboratori nel mondo) Nata nel 2004 a Fermilab “Red Hat Enterprise Linux” ricompilata e integrata con pacchetti specifici: Scientific Linux Cern: sottovariante CERN

Linux Day 2010 – Parma, 23 ottobre 17 ATLAS ~ 40 M eventi / sec ~ 1 evento / 10 9 ***INTERESSANTE*** ~ 100 M di segnali → 1.5 MB/evento Selezione eventi “on-line” - Elettronica e computer dedicati - migliaia di processori in parallelo (hardware) ‏ - decine di migliaia di processi da controllare (software) ‏

Linux Day 2010 – Parma, 23 ottobre 18 Inventario ~ 100 rack x 30 macchine = ~ 3000 macchine “rack mounted” ~ dual cpu / quad core / GB inoltre ~ 160 SBC (VME) ROS (readout system) ‏ Performance: 1 macchina (8 core) : 200 eventi/s al livello 2 (40 ms/core) 2 eventi/s all'event filter (4 s/core) ‏ Storage (cache): 6 macchine x 24 dischi cad. (raid5) = 72 TB E4 Computer Engineering (Scandiano): 24 TB (24 disch x 1 TB), 2x4 core (16 “processori” ind.), 24 GB Link verso il centro di calcolo: 2 x 10 Gb/s

Linux Day 2010 – Parma, 23 ottobre 19 La Sala di Controllo I Rack

Linux Day 2010 – Parma, 23 ottobre 20 Software... Trasferimento, processamento, monitoraggio dati: C/C++ (protocolli di rete: UDP, TCP) ‏ GUI:Java / JS / Qt / Python (tk/tcl) ‏ Sistema Esperto: Common Lisp Inter Process Communication: CORBA Configurazioni/Calibrazioni/Allineamenti/Geometrie: file, OKS (xml), COOL, ORACLE, SQLITE, Python … largo uso di Proxy Documentazione, gestione problemi: WWW, Twiki, Savannah... Nagios (monitoraggio !), IPMI (controllo !)... Parole chiave: Macchine a Stati Finiti, Scalabilità, Partizionabilità, Configurabilità, Sicurezza

Linux Day 2010 – Parma, 23 ottobre 21 Run Control Macchina a Stati Finiti

Linux Day 2010 – Parma, 23 ottobre 22 Monitoraggio Online Information Service

Linux Day 2010 – Parma, 23 ottobre 23 JavaScript + Web

Linux Day 2010 – Parma, 23 ottobre 24 Offline O(1 miliardo) di eventi all'anno da ricostruire e analizzare ~ Altrettanti da simulare STORAGE ~3 PB/anno CPU ~ 7000 kSi2k*anno

Linux Day 2010 – Parma, 23 ottobre 25 Analisi Eventi Ambiente complesso … ogni livello richiede competenze specifiche: Dall'online arrivano informazioni “grezze” (numeri): → misure di tempi, cariche elettriche, tensioni Ricostruzione a più stadi (attività centralizzata): → informazioni fisiche (posizioni, velocità) ‏ → identificazione particelle, energia, quantità di moto Analisi fisica (attività caotica): → criteri di separazione fondo / segnale (selezione eventi) → analisi statistica

Linux Day 2010 – Parma, 23 ottobre 26 Simulazione, Ricostruzione e Analisi Dati Attività distribuita verticalmente e orizzontalmente:: Tier-0 (CERN) → Tier-1 (grossi centri nazionali) → Tier-2 (centri regionali) → Tier-3 (istituti) Ampio uso della virtualizzazione Dati distribuiti con ridondanza (almeno due copie di ogni dataset) ‏ Cataloghi (database) per tenerne traccia Esecuzione delocalizzata: nuovo strato software (middleware) che indirizza gli eseguibili dove si trovano i dati, raccoglie e assembla i risultati LA GRID ! (N.B.: il paradigma della Grid è ancora più forte) ‏

Linux Day 2010 – Parma, 23 ottobre 27 La Griglia (GRID) ‏ WWW: accesso a informazione archiviata in diverse località geografiche GRID: accesso a risorse di calcolo e di archiviazione dati distribuite su tutto il pianeta Dati LHC equivalenti a ~20 milioni di CD (una pila alta 20 km) all’anno Per l'analisi necessari ~100mila dei più veloci processori odierni

Linux Day 2010 – Parma, 23 ottobre 28 Il Middleware Organizzazione Virtuale (ATLAS) ‏ user → GANGA (frontend) → GLITE-WMS (backend) ‏ → Risorse fisiche (GRID) ** L'implementazione può variare da sito a sito ** “Ganga allows for the specification, submission, bookkeeping and post-processing of computational tasks on a wide set of distributed resource” Workload Management System (WMS): responsabili della distribuzione e gestione di processi sulle risorse fisiche Grid Al livello hardware: Allocazione ~ dinamica delle risorse di calcolo (CPU) ‏ Allocazione ~ statica dello storage

Linux Day 2010 – Parma, 23 ottobre 29 In Italia Tier-1: CNAF (Bologna) unico per tutti gli esperimenti LHC (e non solo) ‏ Tier-2: ~10 (Roma, Legnaro, Torino, Napoli, Catania, CNAF, Pisa, Milano) ‏ Investimento (ad oggi) ~ 30 M Euro (incluse infrastrutture CNAF) ‏ + molti anni uomo di sviluppo sw (anche grazie a finanziamenti europei) ‏

Linux Day 2010 – Parma, 23 ottobre 30 Il Portale di Monitoring

Linux Day 2010 – Parma, 23 ottobre 31 Numero totale di successful job (Analisi + Produzione): Aprile – Settembre 2010 (ATLAS dashboard) Uso delle CPU nella Grid per “Country” nei Tier1 e Tier2 (EGEE portal) VO ATLAS only Uso risorse

Linux Day 2010 – Parma, 23 ottobre 32 dalla Fisica Teorica al Super-Computing ovvero il progetto APE N. Cabibbo Progetto INFN, ora collaborazione con DESY Zeuthen e Université Paris-Sud 11 Calcolo Parallelo...

Linux Day 2010 – Parma, 23 ottobre 33 Conclusioni - tutta la nostra attività di ricerca si fermerebbe in questo momento senza Linux + mondo open source (GNU !) - non mette limiti alla possibilità di sviluppo di soluzioni ad hoc (… di cui ogni tendiamo ad abusare) - formidabile piattaforma “educativa” - è un problema diverso, ma anche nella pubblicazione dei risultati (articoli) la politica “proprietaria” sta per essere abbandonata (circolazione riviste a pagamento limitata al primo mondo!) → “Open Access”

Linux Day 2010 – Parma, 23 ottobre 34 Presa Dati 2010 (1 evt = 1.5 MB) ‏