Attività Big Data/Data Science in HEP (CERN e US)

Slides:



Advertisements
Presentazioni simili
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
Advertisements

Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
Multimedia Rapporto di attività Stefano Zani (INFN CNAF) Frascati 5-7 Ottobre 2011.
Piano finanziario 2010 e incontro con i referee 6/17/20091L. Rossi – Bologna – ATLAS Italia.
+ Call di Big Data (EINFRA- 1). + La call … + + Cosa abbiamo in mano (come INFN) 1. L’infrastruttura 1 Tier Tier2 O(25000) cores O(20) PB di Disco.
Riunione CSN1, Roma, Maggio 2012F. Bedeschi, INFN-Pisa 1 Riunione CSN1  Comunicazioni  Presentazione agenda F. Bedeschi Presidenza INFN Aprile 2012 Sommario.
Tutorial su b e tau tagging Andrea Bocci Scuola Normale Superiore e INFN, Pisa CMS Italia 2007 – 12 Febbraio.
KLOE - Referee Luca Lista, Andrea Perrotta, Vincenzo Vagnoni.
E. P..   Storage Dell (ME, AF)  Test in corso  Cambio ruoli storage  Cluster  Backup con snapshot  Dismissione vecchio cluster  Verifica assegnazione.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
RD_FA kick-off workshop
Esperienze di Advanced Analytics nella statistica ufficiale: strumenti e progetti Antonino Virgillito Direzione Centrale per le tecnologie informatiche.
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Corso avanzato di Office 365
Summary di (quasi) tutti gli utenti non presentati…
Marco Zanetti, Coordinatore comitato ordinatore
Working Group Tool Analisi Dati
I costi del Calcolo LHC un update –
Monitoring e loadbalancing dei servizi Grid
EU-IndiaGrid Project Joining European and Indian grids for escience
Uso di Unity per la Creazione di Giochi Educativi
MEG Relazione dei referee
OR 7 - STUDIO DI METODOLOGIE E STRUMENTI PER LA TRASFORMAZIONE DEI SERVIZI APPLICATIVI, BASATI SULLE COMPONENTI FORNITE DALLA PAAS Stato avanzamento /
l’organizzazione di IGI
Risultati ultimi mesi Piano di lavoro prossimi mesi Reclutamento
Uso di Unity per la Creazione di Giochi Educativi
Matteo Panella PCM !CHAOS 7 Luglio 2015
Analysis framework of distributed thread and malware data-sources
Real-time 3D reconstruction using multiple depth cameras
Marco Zanetti, Coordinatore comitato ordinatore
Stato e prospettive del lavoro sulle memorie associative.
Alberto Masoni EU-IndiaGrid Project Manager INFN Sezione di Cagliari
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Attivita’ gruppo GE sul top
Pisa.
OR 7 - STUDIO DI METODOLOGIE E STRUMENTI PER LA TRASFORMAZIONE DEI SERVIZI APPLICATIVI, BASATI SULLE COMPONENTI FORNITE DALLA PAAS Stato avanzamento /
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Muon systems E. Pasqualucci.
Analisi dei dati dell’Esperimento ALICE
Paradigma MVC Ing. Buttolo Marco.
CNAF e Nuvole Comitato Tecnico del CNAF
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Belle II Computing: Accesso alle risorse di storage via http/webdav
TAVOLA ROTONDA introduzione
Luciano Gaido (INFN - Torino) Workshop CCR/INFNGRID – Palau
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
ONEDATA - distributed data caching -
Vuoto della linea sperimentale
Uso di Unity per la Creazione di Giochi Educativi
le Attivita' Computing Analisi Muoni: Detector(s) e Trigger
Ingegneria del Software 2
Il progetto Centri di Ricerca Sistema Integrato ModULAre PMI
* Il Sistema Operativo GNU/Linux * Sistema Operativo e Applicazioni
La richiesta si basa sulle seguenti considerazioni:
Fedora 21 – presente e futuro
HEPMARK2 Michele Michelotto.
Smart City.
Management and Computer Science
“Titolo della tesi” “Autore” “Relatore ed eventuale correlatore”
Il trigger per muoni dell’esperimento CMS
Allievi: ____________________
Dr. Pierluigi Paolucci - INFN di Napoli
Dr. Pierluigi Paolucci - INFN di Napoli
NA62: Possibile nuovo esperimento
“Partecipazione progetto IDEAS Starting Grant 2008 ”
ATLAS PRIN Roma1 - status Alessandro De Salvo
componenti del Gruppo:
Toward Smart Cites from data: Transportation and Smart Mobility
2 tag: add category tight-loose
Storage and Data management Vladimir Sapunenko
Transcript della presentazione:

Attività Big Data/Data Science in HEP (CERN e US) Marco Zanetti

Introduzione Generale interesse nella comunità ad integrare tool commerciali di big data nell’ambito degli esperimenti HEP: Principali use-case: Monitor e diagnostica per il computing (vedi Bonacorsi et al.) DQM per gli esperimenti Workflow di analisi Disclaimer: riporto mia comprensione delle attività sulla base di conversazioni con diretti interessati (Luca Canali e Alexey Svyatkovskiy) e spulciando presentazioni sull’argomento

Generalità Grosso progetto in US (NSF): Diana-HEP Peter Elmer Lead PI, Kyle Cranmer (ATLAS) PI per la parte algoritmica, Jim Pivarski main developer Obbiettivo: applicare tool big data in HEP Al CERN sono partite iniziative lato infrastruttura: Gruppo IT (Canali et al.) OpenLab, CMS Data Reduction Facility e lato algoritmi: Pierini et. al per gli esperimenti Piparo, Moneta et al. supporto/ROOT (gruppo EP-SFT)

Infrastuttura per analysis workflow Spark HDFS Processing diretto di root file Conversione “on the fly” Conversione to .avro EOS

Infrastuttura per analysis workflow Input sono file root (e.g. storati in EOS o anche HDFS), problema di come esporre ROOT a Spark Convertire da ROOT ad Avro cio’ che e’ stato fatto finora, non conveniente Altre soluzioni in fase di sviluppo Una volta in DataFrame, va sviluppato un framework di analisi PySpark/PyRoot, jupiter nb Histogrammar

Esempi

Esempi

Use-case / Applicazioni Insfrastruttura e applicazioni data science non ancora completamente integrate Molta attività dal lato di sviluppo degli algoritmi: Tracking, jet clustering, b-tagging, pattern-recognition in immagini (Gargamelle), anomaly detection (trigger/analisi) Utilizzo di software commerciali (e.g. keras) che mettono a disposizione librerie avanzate di ML e DP Test su cluster (in fase di ampliamento) di GPU

Possibili prossimi passi Test possono essere fattorizzati: Installazione di Spark su cluster cloud Test di analisi di ntuple con spark (anche localmente con pyspark) Sia lato Diana-HEP (almeno componente CMS) che CERN molto disponibili a dare supporto tecnico Collaborazione diretta possibile e da sfruttare