Working Group Tool Analisi Dati

Slides:



Advertisements
Presentazioni simili
Alcuni approcci allanalisi dati (tra CMSSW e ROOT) Riunione mensile di software e analisi, 15/12/2008 Massimo Nespolo 1.
Advertisements

Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.
Algoritmo di Level-2 muon trigger Seminari Atlas Napoli 15/7/2011.
Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
Script bash I file di comandi in Linux. BASH  Bourne Again Shell  Modalità interattiva o batch (file di comandi)  Ambiente di programmazione “completo”
Giuseppe Andronico CCR-WS10 Santa Tecla, 18 Maggio 2010 Introduzione MPI & GPU.
Tutorial su b e tau tagging Andrea Bocci Scuola Normale Superiore e INFN, Pisa CMS Italia 2007 – 12 Febbraio.
Corso gratuito di Linux. Linux User Group Mantova
Studio della risposta del rivelatore al passaggio di particelle di carica frazionaria. – Efficienza di ricostruzione e di trigger per il segnale da analisi.
Orientamento. Il Kernel Il Kernel è un programma scritto in linguaggio vicino all'hardware che ha il compito di fornire ai processi in esecuzione sul.
Porting RGCAD - Gianfranco Gargano II Corso di formazione INFN su aspetti pratici dell'integrazione di applicazioni in GRID Porting RGCAD.
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
PGDay 2009 FSGateway Ing. Torello Querci Resp. Architetture SW - Negens S.r.l. 4 Dicembre 2009, Pisa.
VO-Neural Project e GRID Giovanni d’Angelo Dipartimento di Scienze Fisiche Università degli Studi di Napoli Federico II Martina Franca 12 – 23 Novembre.
LAVORARE CON I DISPOSITIVI DESTINATI ALLA FRUIZIONE COLLETTIVA
Francesca Dei Cas/Federica Pelucchi/ Gioele Besio
Attività Big Data/Data Science in HEP (CERN e US)
Corso per Webmaster base
Ambienti di Programmazione per il Software di Base
Abstract relazione attività
CORSIKA COsmic Ray SImulation for KAscade:
Summary di (quasi) tutti gli utenti non presentati…
Presentazione widescreen
GeoGebra QuizFaber Formazione tra pari
Lezione CG01 Il Sistema di Controllo di Gestione e il ciclo del controllo Economia ed Organizzazione aziendale AA Prof. Cristina Ponsiglione.
EasyGraph Dynamic web-based dashboard
Dal problema al processo risolutivo
Studio del decadimento ZZ
Terza Lezione → Navigare nel file System → parte 2
Presentazione dei nuovi sviluppi software
Analysis framework of distributed thread and malware data-sources
Collaborazione ICARUS – A.Menegolli, Univ. di Pavia e INFN Pavia
Attivita’ gruppo GE sul top
I2c.
Dal problema al processo risolutivo
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.
I comandi.
ATLAS-Italia Tier-3 Dario Barberis Università e INFN Genova
Masterclass Internazionale 2017
Introduzione L0.
Lezione CG01 Il Sistema di Controllo di Gestione e il ciclo del controllo Corso di Gestione Aziendale AA Prof. Cristina Ponsiglione
Introduzione alle griglie computazionali
Laboratorio II, modulo LabView.
Job Application Monitoring (JAM)
I FILES AD ACCESSO SEQUENZIALE
* Il Sistema Operativo GNU/Linux * Sistema Operativo e Applicazioni
Risultati del questionario sui servizi middleware aggiuntivi
Tipo di dato: array Un array è un tipo di dato usato per memorizzare una collezione di variabili dello stesso tipo. Per memorizzare una collezione di 7.
SAS® OnDemand for Academics SAS Studio
analizzatore di protocollo
Ardis e il sistema qualità
istalliamo l’ambiente di sviluppo - ide
Consultare un corpus con AntConc
Excel - Corso Avanzato DOCENTE Massimo Ferro
Gli schemi concettuali
Introduzione L’8254 è un interval timer event/counter, progettato per risolvere i problemi del controllo del timing, comuni ad ogni microcomputer. E’ costituito.
Statistica Scienza che studia i fenomeni collettivi.
Nuove Tecnologie e Disabilità
Programmare.
ABAP Objects ALV Grid Mantova, 30 dicembre 2018.
BootCaT: Bootstrapping Corpora and Terminology
Laboratorio II, modulo LabView.
ADO Per gestire i database con tecnologia ASP si utilizzano strumenti ADO (ActiveX Data Objects): un'architettura che fornisce oggetti.
INTERNATIONAL COSMIC DAY Become a Scientistic for a Day
Presentazione Tennis3M Contabilità
Sistemi informativi statistici
© 2007 SEI-Società Editrice Internazionale, Apogeo
Unità 1 Programmi base.
Edmodo una piattaforma social learning nel cloud.
Transcript della presentazione:

Working Group Tool Analisi Dati M. Spalla, F. Bertolucci, G. Volpi 4/2/2014

Introduzione Gruppo motivato dalla ricerca di sinergie nello strutturare i codici di analisi per: Semplificare la fase di inizio di un’analisi per un nuovi arrivati Semplificare lo scambio di informazioni tecniche e codice Creare un set di casi per guidare all’uso ottimale dell’infrastruttura locale e di ATLAS per vari tipi di analisi Contribuire alla preparazione di una documentazione per compiti generici di analisi Cercare di valutare «pro» e «contro» di strumenti diffusi in ATLAS Confrontare l’uso di strumenti sviluppati dai sottogruppi rispetto a procedure standard E.g. D3PDReader vs TSelector o altri strumenti nativi di ROOT A parità di complessità preferiti gli strumenti nativi di ROOT Qualche considerazione sulla performance nella prossima presentazione 4/2/2014

Reminder dei termini di ATLAS L’analisi in ATLAS può utilizzare formati dati custom o ntuple «generiche» RAW/RDO contengono la risposta del detector e del trigger, come da acquisizione/simulazione ESD contengono la ricostruzione degli oggetti primari (tracce, cluster calorimetrici, …) e la risposta del detector AOD contengono oggetti di alto livello, direttamente utilizzabili in un analisi Limitata possibilità di riprocessamento in caso di update, AODAODFix DPD/NTUP ntuple ROOT «plain» Formato e contenuto delle ntuple deciso a livello di gruppi di analisi Nessuna possibilità di riprocessamento da NTUPNTUP xAOD futuro formato AOD con leggibilità da ROOT a-la DPD ATLAS ufficialmente supporta analisi solo su GRID Largamente utilizzato lxbatch Supporto informale per PROOF Software disponibile tramite AFS o CVMFS (preferito) export ATLAS_LOCAL_ROOT_BASE=/cvmfs/atlas.cern.ch/repo/ATLASLocalRootBase alias setupATLAS='source ${ATLAS_LOCAL_ROOT_BASE}/user/atlasLocalSetup.sh' setupATLAS 4/2/2014

Linguaggi e librerie Nell’analisi tipica non è necessario scrivere algoritmi per Athena Diventa necessario solo se si deve interagire in maniera avanzata con le primitive dell’analisi: tutti gli scenari studiati non prevedo questo caso Il Python assume un ruolo centrale in ATLAS Gli algoritmi più complicati si controllano tramite la loro interfaccia come oggetti Python (algo.key = value) in speciali scripts (joboptions) Facile da interfacciare a ROOT tramite pyROOT E.g. «import ROOT», «from ROOT import …» C++ come linguaggio principali per compiti «complicati» Loop sugli eventi, riempimento istogrammi o creazione ntuple personali Compiti possibili anche in python Performance intermedie tra CINT e compilazione Bash limitato a setup e controllo dell’esecuzione del codice di analisi locale o su GRID 4/2/2014

Cosa è per noi un analisi Necessità di leggere dati esistenti (reali o Monte Carlo) e produrre una selezione I campioni possono essere su GRID o localmente I dati sono accessibili sotto forma di ntuple leggibili da ROOT Si vogliono leggere tutti gli eventi e: Selezionare solo quelli interessanti (cutflow) Produrre plot di controllo e distribuzioni interessanti Produrre un ntuple ridotta con variabili custom 4/2/2014

Strumeti presi in considerazione D3PDReader Strumento mantenuto dalla comunità di ATLAS Mantenuto da esperti all’interno dell’esperimento Si aspetta segua l’evoluzione futura del EDM Adatto all’uso su GRID Costruzione di un codice di analisi molto personale TSelector Strumento generico di ROOT Ampia storia e documentazione Scheletro rigido ma integrato con tutte le modalità di analisi supportate da ROOT Elemento base per PROOF, uso lineare in GRID Possibilità di passare parametri e di integrare strumenti esterni Qualche rigidità imposta dalla costruzione di questa classe speciale Proxy Supportato da ROOT e considerato l’eveoluzione del TSelector Qualche rigidità aggiuntiva rispetto al TSelector ma maggiori performance e minore tempo di creazione del codice Tutti questi strumenti sono integrabili con RootCore Altri strumenti non considerati: MakeClass o altri strumenti ATLAS derivate da analisi specifiche 4/2/2014

Mini esempio (caso speciale) #!/usr/bin/env python import sys from array import array inputfiles = sys.argv[1].split(",") # prun concatenates the input in a comma separated list import ROOT ROOT.gSystem.Load("libTrigFTKSim.so") chain = ROOT.TChain("ftkdata") nfiles = 0 for f in inputfiles : nfiles += chain.Add(f) print "N files:", nfiles outfile = ROOT.TFile.Open("somedistr.root","recreate") treentrkthr = ROOT.TTree("tree_ntracks","Track over threshold, "+",".join([str(v) for v in thrs])) noverthrs = array('i',len(thrs)*[0]) treentrkthr.Branch("NTracksOverThr",noverthrs,"NTracksOverThr[%d]/I" % len(thrs)) NEntries = chain.GetEntries() print "N entries:", NEntries # loop over the events for ievt in xrange(NEntries) : if ievt%1000 == 0 : print ievt, "/", NEntries chain.GetEntry(ievt) # loop over the FTK tracks ntracks = chain.FTKMergedTracksStream.getNTracks() for i in xrange(len(thrs)) : noverthrs[i] = 0 for itrk in xrange(ntracks) : ftktrack = chain.FTKMergedTracksStream.getTrack(itrk) pt = ftktrack.getPt()*1e-3 # GeV for i, v in enumerate(thrs) : if pt>v : noverthrs[i] += 1 else : break # threshold can only increas # end loop over the FTK tracks if ievt<10 : print ievt, noverthrs treentrkthr.Fill() # end loop over the events print "Write and close the file" outfile.Write() outfile.Close() 4/2/2014

Lezione «mini esempio» Può essere usato localmente o in grid ./esempio.py ntup1,ntup2 Con un piccola modifica la list di file può essere divisa da spazi prun --exec "./ntrackptgethr.py %IN" --inDS «input» --athenaTag 17.3.10.1.17,slc5,IBLProd --noBuild --outDS «output» --outputs somedistr.root –mergeOutput Produce un set di job che lavorano su 50 files ognuno Ogni job produce un singolo file di output Un file finale di merge è creato automaticamente L’utente può scaricare un singolo file e produrre plot, fare fit, etc. etc. Per esempi più complessi vedere la prossima presentazione 4/2/2014

Discuss…. 4/2/2014