La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Attività Big Data/Data Science in HEP (CERN e US)

Presentazioni simili


Presentazione sul tema: "Attività Big Data/Data Science in HEP (CERN e US)"— Transcript della presentazione:

1 Attività Big Data/Data Science in HEP (CERN e US)
Marco Zanetti

2 Introduzione Generale interesse nella comunità ad integrare tool commerciali di big data nell’ambito degli esperimenti HEP: Principali use-case: Monitor e diagnostica per il computing (vedi Bonacorsi et al.) DQM per gli esperimenti Workflow di analisi Disclaimer: riporto mia comprensione delle attività sulla base di conversazioni con diretti interessati (Luca Canali e Alexey Svyatkovskiy) e spulciando presentazioni sull’argomento

3 Generalità Grosso progetto in US (NSF): Diana-HEP
Peter Elmer Lead PI, Kyle Cranmer (ATLAS) PI per la parte algoritmica, Jim Pivarski main developer Obbiettivo: applicare tool big data in HEP Al CERN sono partite iniziative lato infrastruttura: Gruppo IT (Canali et al.) OpenLab, CMS Data Reduction Facility e lato algoritmi: Pierini et. al per gli esperimenti Piparo, Moneta et al. supporto/ROOT (gruppo EP-SFT)

4 Infrastuttura per analysis workflow
Spark HDFS Processing diretto di root file Conversione “on the fly” Conversione to .avro EOS

5 Infrastuttura per analysis workflow
Input sono file root (e.g. storati in EOS o anche HDFS), problema di come esporre ROOT a Spark Convertire da ROOT ad Avro cio’ che e’ stato fatto finora, non conveniente Altre soluzioni in fase di sviluppo Una volta in DataFrame, va sviluppato un framework di analisi PySpark/PyRoot, jupiter nb Histogrammar

6 Esempi

7 Esempi

8 Use-case / Applicazioni
Insfrastruttura e applicazioni data science non ancora completamente integrate Molta attività dal lato di sviluppo degli algoritmi: Tracking, jet clustering, b-tagging, pattern-recognition in immagini (Gargamelle), anomaly detection (trigger/analisi) Utilizzo di software commerciali (e.g. keras) che mettono a disposizione librerie avanzate di ML e DP Test su cluster (in fase di ampliamento) di GPU

9 Possibili prossimi passi
Test possono essere fattorizzati: Installazione di Spark su cluster cloud Test di analisi di ntuple con spark (anche localmente con pyspark) Sia lato Diana-HEP (almeno componente CMS) che CERN molto disponibili a dare supporto tecnico Collaborazione diretta possibile e da sfruttare


Scaricare ppt "Attività Big Data/Data Science in HEP (CERN e US)"

Presentazioni simili


Annunci Google