Applicazioni Bioinformatiche in Ambiente Grid

Slides:



Advertisements
Presentazioni simili
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Advertisements

Introduzione alle griglie computazionali - a.a LEZIONE LEZIONE N. 9 WMS (Workload Management Service) JDL (Job Description Language) Matchmaking.
Palermo, may 2010 F.Doumaz, S.Vinci (INGV-CNT- Gruppo di telerilevamento)
FESR Consorzio COMETA Pier Paolo CORSO Giuseppe CASTGLIA Marco CIPOLLA Industry Day Catania, 30 Giugno 2011 Commercial applications.
CNAF 18/11/2004 Federica Fanzago INFN Padova a/grape... BAT... BATMAN...o? M.Corvo, F.Fanzago, N.Smirnov (INFN Padova) + tutte le persone che fanno i test.
FESR Consorzio COMETA - Progetto PI2S2 CORSIKA Domenico Torresi Consorzio Cometa 1st First International Grid School for Industrial.
Bologna Batch System (BBS). BBS e’ un sistema batch basato su Condor. L’utente sottomette i job da una macchina e il sistema li distribuisce sulle altre.
FESR Trinacria Grid Virtual Laboratory PROGETTO “MAMMO” Sviluppo e ottimizzazione di algoritmi adattativi, specificatamente di Artificial.
Martedi 8 novembre 2005 Consorzio COMETA “Progetto PI2S2” UNIONE EUROPEA Accesso all’infrastruttura Grid del Consorzio COMETA Grid Open Day alla Facoltà.
FESR Trinacria Grid Virtual Laboratory Porting su grid di *ROSETTA*, un metodo per la predizione di strutture proteiche Giuseppe La Rocca.
JOB MONITORING Donvito Giacinto INFN-Bari. OUTLINE ● Use-case ● Informazioni utilizzate e metodologie di raccolta per il job monitoring ● Informazioni.
Workload Management System (WMS) in gLite Guido Cuscela INFN - Bari II Corso di formazione INFN su aspetti pratici.
Offline Report Finale Grid! I Corso di formazione INFN su aspetti pratici dell'integrazione di applicazioni in GRID Domenico D’Urso Roberto.
Script bash I file di comandi in Linux. BASH  Bourne Again Shell  Modalità interattiva o batch (file di comandi)  Ambiente di programmazione “completo”
FESR Catania, Trigrid Open Day, Trinacria Grid Virtual Laboratory PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno.
17th International Conference on Computing in High Energy and Nuclear Physics March 2009 Prague Esperienza di un portale “application oriented”
1 Università della Tuscia - Facoltà di Scienze Politiche. Informatica 2 - a.a Prof. Francesco Donini Active Server Pages.
Porting RGCAD - Gianfranco Gargano II Corso di formazione INFN su aspetti pratici dell'integrazione di applicazioni in GRID Porting RGCAD.
VO-Neural Project e GRID Giovanni d’Angelo Dipartimento di Scienze Fisiche Università degli Studi di Napoli Federico II Martina Franca 12 – 23 Novembre.
Algoritmi Avanzati a.a.2013/2014 Prof.ssa Rossella Petreschi Somme prefisse Lezione n°2.
Procedura di certificazione di un sito
Musolino Carmelo Borsista del progetto di formazione NEMBO.
Summary di (quasi) tutti gli utenti non presentati…
Architettura del Workload Management System e Job Description Language
SAL WP11 Bologna – CNAF – 5 Giugno 2015.
ESERCITAZIONI ANTROPOLOGIA
Guido Cuscela INFN-Bari
Terza Lezione → Navigare nel file System → parte 2
Script Marco D. Santambrogio –
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docente: Prof. Stefania Bortoluzzi.
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Algoritmi e soluzioni di problemi
IL CONCETTO DI ALGORITMO
GridFlex: gestione di software
Job Description Language (JDL)
ViralPack: Un pacchetto integrato di bioinformatica su Genius
Excel 1 - Introduzione.
Giordano Scuderi Unico SRL Catania
Giordano Scuderi Unico SRL - Messina,
Job Application Monitoring (JAM)
Grid2Win : La Grid per Microsoft Windows
Panoramica sul middleware gLite
Sviluppo di server web e sistema di caching per contenuti dinamici
Report 15/11/2007 Giovanni d’Angelo
PROGETTO “COMDO” Supporters : AnnaMaria Muoio, Marcello IaconoManno
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docente: Prof. Stefania Bortoluzzi.
Informatica per Scienze Geologiche LT a.a
PROGRAMMAZIONE BASH – ISTRUZIONE IF
Università di Pisa INFN – Sezione di Pisa
PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno
Operazioni pianificate
Servizi web per la bioinformatica strutturale
Marchelli Carlo Classe 3F anno scolastico 2016/2017 Catalogazione documenti archivio universitario Alternanza Scuola-Lavoro Università degli Studi di Genova.
Corso propedeutico base di informatica
Informatica per Scienze Geologiche LT a.a
Classe III A A.s – 2012 Programma di Informatica
Outlook al meglio 5 modi per usare Firma con stile
[Nome progetto] Relazione finale
INTRODUZIONE A EXCEL Il foglio elettronico o foglio di calcolo è una tabella che contiene parole e numeri che possono essere elaborati applicando formule.
nel processo decisionale
ABAP Objects ALV Grid Mantova, 30 dicembre 2018.
Restauro Digitale Salvatore Scifo TRIGRID
[Nome progetto] Relazione finale
Progetto 1 Input Creare una Funzione commentata che prenda come input:
Dipartimento scienze Economiche , Aziendali e statistiche
Tecniche di Animazione dello sguardo “idle”: Personaggi in Movimento
Docenti: Prof. STEFANIA BORTOLUZZI Dr. GIANLUCA OCCHI
Università degli studi di Modena e Reggio Emilia
PowerShell di Windows PowerShell è un shell che mette a disposizione un prompt interattivo e un interprete a riga di comando , per le sue caratteristiche.
Gentica e Biologia Molecolare
Transcript della presentazione:

Applicazioni Bioinformatiche in Ambiente Grid Dott. Alessandro Laganà Dipartimento di Scienze Biomediche Dipartimento di Matematica e Informatica Università di Catania

Allineamento Multiplo di Sequenze Siano date n sequenze S1, S2, …, Sn; Un allineamento multiplo A associa ad S1, S2, …, Sn le sequenze S1’, S2’, …, Sn’, che possono contenere simboli di spazio “-”, in modo che: |S1’|=|S2’|=…=|Sn’| Rimuovendo gli spazi da S1’, S2’, …, Sn’ si ottengano S1, S2, …, Sn.

Allineamento multiplo: un esempio

AntiClustAl++ AntiClustAl++ è un tool per l’allineamento multiplo di sequenze, sviluppato dal Gruppo di Bioinformatica dell’Università di Catania. Basato sul tool T-Coffee e sull’Antipole Clustering.

Sperimentazione di AntiClustAl++ Benchmark Balibase Sabmark Prefab Ox-Bench Homstrad

The need for Grid! Benchmark Prefab: 1682 set di sequenze proteiche da allineare; Da 4 a 40 sequenze in ogni set; Tempo medio di esecuzione di AntiClustAl++ su un file: 20 minuti Numero di esecuzioni per file (parameter tuning): 10 Totale: 16820 esecuzioni  8 mesi su un singolo PC!!!

AntiClustAl++ on Grid Dimensione ac++:  1 Mb Per ogni esecuzione: Input: 1 file di sequenze in formato Fasta (Testo) ( 20 Kb) Output: 1 file di sequenze allineate (Testo) ( 25 Kb) 1 file di log con informazioni sull’esecuzione ( 2 Kb) Tool di supporto richiesti: ClustalW (Allineamento multiplo) ( 200 Kb) LAlign (Allineamento locale) ( 70 Kb)

Job Submission Script ac++_submit (Perl): Genera lista di file di input; Genera lista di parametri per ac++ (10 per ogni file di input); Genera script sub_i_j (Jdl): Sottometti Job (edg-job-submit) Memorizza in un file l’ID del job Executable = "ac.pl“; Arguments = “inputfile outputfile parameters“; StdOutput = "stdout.txt"; StdError = "stderr.txt“ InputSandbox = {"ac.pl", "ac++", inputfile, "lalign2list","clustalw"}; OutputSandbox = {"stdout.txt", "stderr.txt", outputfile, logfile};

Job Submission (2) Script ac.pl: Assegna permessi di scrittura ed esecuzione per ac++, clustalw e lalign2list; Crea riga di comando basata sui parametri in input; Esegui ac++.

Job Retrieve Script ac++_retrieve (Perl): Lanciato automaticamente al termine di ac++_submit; Legge lista di job sottomessi creata da ac++_submit; Per ogni job nella lista (ciclicamente) controlla lo status: Se status = Done  Ritira i risultati e segna job come completo. Se status = Aborted Ritenta sottomissione job. Se status = Waiting e timeout scaduto (5 ore)  Cancella job e ritenta sottomissione.

Qualche dato Numero di job sottomessi simultaneamente: 1000 Tempo medio di completamento: 8 ore Dettagli: 80% di job completati correttamente alla prima sottomissione; 10% di job “Aborted” da sottomettere di nuovo; 10% di job “Waiting” cancellati e sottomessi di nuovo; Tempo effettivo per il completamento del benchmark: 8 giorni.

Future Work: ac++ Parallelizzazione singola esecuzione di ac++. Impiego di informazioni strutturali in ac++: Predizione di strutture 3D di proteine Tempo medio di predizione: 90 min Dimensione dati di supporto alla predizione: 12 Gb!

Future work: miRFinder tool per la predizione di interazioni tra sequenze di mRNA e sequenze di miRNA. scritto in Python. usa un database di supporto (flat file). Possibile uso su Grid: suddivisione del database in n parti esecuzione simultanea di n istanze di miRFinder raccolta ed elaborazione dei risultati ottenuti.

Future work: Data Mining distribuito Algoritmi di clustering e data mining a basso supporto: Antipole Clustering distribuito Min-Hashing e sue varianti distribuito.

Il Gruppo di Bioinformatica Professors Prof. A. Ferro – Prof. M. Purrello Assistant Professors Dott.ssa C. Di Pietro – Dott.ssa R. Giugno – Dott. A. Pulvirenti Post-doc Dott.ssa M. S. Calafato – Dott. G. Pigola Ph.D. Students Dott. D. Barbagallo – Dott. S. Forte – Dott. A. Laganà – Dott. M. Ragusa Other Collaborators Dott. D. Skripin

Grazie!