G. Paolella Napoli, 21/2/ 2008 1 Progetto S.Co.P.E. – WP4 Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, L.Cozzuto, A. Boccia, C. Cantarella,

Slides:



Advertisements
Presentazioni simili
Trieste, 26 novembre © 2005 – Renato Lukač Using OSS in Slovenian High Schools doc. dr. Renato Lukač LinuxDay Trieste.
Advertisements

Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
1 Tutto su liceoclassicojesi.it 1° Incontro sulla gestione di liceoclassicojesi.it.
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
Lezioni di Astronomia 3- Le stelle Bologna 8 aprile 2010
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
DG Ricerca Ambientale e Sviluppo FIRMS' FUNDING SCHEMES AND ENVIRONMENTAL PURPOSES IN THE EU STRUCTURAL FUNDS (Monitoring of environmental firms funding.
Frontespizio Economia Monetaria Anno Accademico
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
1 Tavolo del Patto per la crescita intelligente, sostenibile e inclusiva Il ricorso agli ammortizzatori sociali nei territori colpiti dagli eventi sismici.
Training On Line – CONA. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Annuali > Nuova Richiesta Si accede alla pagina di Richiesta.
1 Innovazione dal punto di vista strategico Francesco Berri Medical Director ASTELLAS PHARMA SpA Bologna 10 Giugno 2011.
Ordini Parziali - Reticoli
EPA 01/02 III/1 I consumi di prodotti agro-alimentari: differenziazioni nello spazio e nel tempo Cosa spiega le differenze nei consumi tra individui diversi…
HDM Information Design notation v.4. HDM Information Design.
Programmazione 1 9CFU – TANTE ore
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Il referto strutturato
Infrastruttura & Competenze ICT ENEA
2000 Prentice Hall, Inc. All rights reserved. 1 Capitolo 3 - Functions Outline 3.1Introduction 3.2Program Components in C++ 3.3Math Library Functions 3.4Functions.
6.6Ordinamento di Vettori Ordinamento di dati –Applicazione computazionale importante –Virtualmente ogni organizzazione deve ordinare dei dati Enormi quantità
Corso di base sull’uso del software di analisi meteorologica DIGITAL ATMOSPHERE Prodotti meteo A cura di Vittorio Villasmunta Corso Digital Atmosphere.
Master universitario di II livello in Ingegneria delle Infrastrutture e dei Sistemi Ferroviari Anno Accademico 2012/2013 Cultura dimpresa, valutazione.
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.
MP/RU 1 Dicembre 2011 ALLEGATO TECNICO Evoluzioni organizzative: organico a tendere - ricollocazioni - Orari TSC.
Watson et al. , BIOLOGIA MOLECOLARE DEL GENE, Zanichelli editore S. p
Introduzione Grid1 Introduzione ai Sistemi Grid. Introduzione Grid2 Generalità Un sistema Grid permette allutente di richiedere lesecuzione di un servizio.
WP 10 – Applicazioni Astrofisica – stato Leopoldo Benacchio INAF Osservatorio Astronomico di Padova Pisa maggio 03.
Lezione 6 Encoder ottici
19 Lezione 21/5/04 Composizione dell'immagine 1 COMPOSIZIONE DELLIMMAGINE.
Contatore: esempio di circuito sequenziale
LHCf Status Report Measurement of Photons and Neutral Pions in the Very Forward Region of LHC Oscar Adriani INFN Sezione di Firenze - Dipartimento di Fisica.
Settimana: 3-7 marzo Orariolunedimartedi Mercoledi 5 Giovedi 6 Venerdi lezione intro alla fis mod DR lezione intro alla fis mod DR.
2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.
Palermo, may 2010 F.Doumaz, S.Vinci (INGV-CNT- Gruppo di telerilevamento)
Melfi, 1 aprile 2011 – MediaShow 1 Social Network: possibilità di uso consapevole nella didattica Uso, consapevolezza, opportunità, proposte Caterina Policaro.
1ROL - Richieste On Line Ente pubblico 5ROL - Richieste On Line.
CORSO TECNICO R.C.A. ELABORATO PERITALE
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ISOIVA (LOCALE) TO ISOIVA (WEB) RIPARTIZIONE INFORMATICA UFFICIO APPLICATIVI AMMINISTRATIVI 13/04/2011 UNIVERSITÀ DEGLI STUDI DI FERRARA 1.
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
SINS - Seminario Istruzione Nuovi Soci - 22 Settembre Cesare Andrisano Presidente Sottocommissione Web Social Network Distretto 2070.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
TECNOLOGIE DELLINFORMAZIONE E DELLA COMUNICAZIONE PER LE AZIENDE Materiale di supporto alla didattica.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
embryo GPS dish (Rieger et al., 2007) Avvicinamento degli embrioni rispetto a micro gocce tradizionali e minore superficie.
RILEVAZIONE DEI LIVELLI DI COMPETENZA MATEMATICA ANNO SCOLASTICO 2007/2008 BY PROCIDA.
1 Questionario di soddisfazione del servizio scolastico Anno scolastico 2011/2012 Istogramma- risposte famiglie.
21 marzo 2002 (ri-)Avvisi: Giovedi 28 marzo la lezione e sospesa. Nuovo indirizzo di Spedire messaggi e esercizi solo.
G. Paolella Napoli, 18/12/ G. Paolella High performance computing per lannotazione e il mining di genomi interi.
Single knowledge project
Bando di Residenza Cap Scheda ENTE 3ROL - Richieste On Line.
DATA ANALYSIS OF 179 BRCA1 OR BRCA2 MUTATED FAMILIES. THE ITALIAN CONSORTIUM FOR HEREDITARY BREAST AND OVARIAN CANCER.
-17 Aspettative economiche – Europa Settembre 2013 Indicatore > +20 Indicatore 0 a +20 Indicatore 0 a -20 Indicatore < -20 Unione Europea Totale: +6 Indicatore.
Collection & Generics in Java
NO WASTE Progetto continuità scuola primaria scuola secondaria Salorno a.s. 2013_
La DNA Polimerasi può commettere errori Nei batteri: 1 errore ogni 10 9 basi in ogni generazione.
Mercato del lavoro e condizione giovanile: la crisi si acuisce
Castelpietra G., Bassi G., Frattura L.
1 Acceleratori e Reattori Nucleari Saverio Altieri Dipartimento di Fisica Università degli Studi - Pavia
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
G. Paolella Napoli, 28/5/ Progetto S.Co.P.E. Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, G. Busiello, L.Cozzuto, A. Boccia, C. Cantarella,
Transcript della presentazione:

G. Paolella Napoli, 21/2/ Progetto S.Co.P.E. – WP4 Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, L.Cozzuto, A. Boccia, C. Cantarella, L.Sepe

G. Paolella Napoli, 21/2/ Our role within SCOPE Nodes NsNodes GRID software High level middleware SCOPE web site Astronomy Chemistry PhysicsBioinformatics Hardware Middleware Application

G. Paolella Napoli, 21/2/ Tasks Provide a large number of users with general purpose bioinformatic service, which take advantage of high performance hardware, allowing: –Web access for quick operations, performed by the vast majority of users –Unix level access in the form of an integrated problem solving environment Set up an automatic annotation system to be used in specific computational or experimental projects, based on the available services two specific applications: –CST analysis by comparative genomics –Mining for regulatory RNA within completely sequenced genomes

G. Paolella Napoli, 21/2/ Bioinfo portal

G. Paolella Napoli, 21/2/ Available services

G. Paolella Napoli, 21/2/ Programs

G. Paolella Napoli, 21/2/ Graphic interface to programs

G. Paolella Napoli, 21/2/ Various operations in a row: Complement ->Translation -> Isoelectric point of the resulting protein. DNA Complement Translation Isoelectric point CAPRI workflow

G. Paolella Napoli, 21/2/ SRS: the database tool

G. Paolella Napoli, 21/2/ SRS

G. Paolella Napoli, 21/2/ WEB SERVER CAPRI SRS PISE Other Emboss Fasta Blast User Data DB Primary remote databases ENSEMBL Services organization

G. Paolella Napoli, 21/2/ Sito periferico medicina HD attached to the system: 112 processor cluster Two 8-processor servers, several 2-processor servers Storage center (SCOPE) Campus GRID and beyond (SCOPE)

G. Paolella Napoli, 21/2/ Broker virtual node virtual node DB Grid node Low latency scheduler High level scheduler 500 tasks/sec ms delay

G. Paolella Napoli, 21/2/ Joining the GRID HD attached to the system: 1 Cluster Element (CE) 5 Worker nodes (WN) biproc (expandable up to 40) 1 Storage Element (SE) with 50 Gb 1 User Interface (UI)

G. Paolella Napoli, 21/2/ Available at: lfn:/grid/scope/bioinfo/ programs/(executables) dbs/(datasets) Currently installed tools Blast Randfold Infernal package Support databases RFAM Blast (human, rat, dog, chicken and macaca genomes) GRID bioinformatic tools

G. Paolella Napoli, 21/2/ Blastz Clustalw Dialignt Emboss package FASTA package Genscan Hmmer package MCL package Pcma Primer3 RNAz Vienna package Multiz-tba Ready to be installed tools

G. Paolella Napoli, 21/2/ Tasks Provide a large number of users with general purpose bioinformatic service, which take advantage of high performance hardware, allowing: –Web access for quick operations, performed by the vast majority of users –Unix level access in the form of an integrated problem solving environment Set up an automatic annotation system to be used in specific computational or experimental projects, based on the available services two specific applications: –CST analysis by comparative genomics –Mining for regulatory RNA within completely sequenced genomes

G. Paolella Napoli, 21/2/ Due esempi Due esempi di sistemi di annotazione automatica, utilizzati per la identificazione e caratterizzazione di sequenze di DNA con possibile ruolo funzionale: – sequenze di piccole dimensioni, conservate tra uomo ed altre specie CST; – sequenze in grado di codificare per RNA strutturati.

G. Paolella Napoli, 21/2/ Obiettivo: Sistema di annotazione automatica di sequenze Motivazioni: Analisi computazionale di sequenze non codificanti permette lidentificazione di nuovi elementi funzionali Descrizione del problema e sua risoluzione. Diversi tipi di test predittivi applicati su larga scala ad un gran numero di dati sperimentali, estratti da banche dati pubblicamente disponibili o provenienti da dati sperimentali. Esigenza per luso dellHPC: dato lelevato numero di test, in genere si utilizzano cluster multiprocessore. Luso di GRID permette di estendere lanalisi a set di dati di dimensioni ancora maggiori. Descrizione della soluzione del problema nellambiente HPC Obiettivi e modalita

G. Paolella Napoli, 21/2/ Identificazione e caratterizzazione di sequenze nucleotidiche conservate tra uomo e topo (CSTs) in altre specie. H. Sapiens M. Musculus CSTs CST identificate in geni associati a malattie: Analisi da effettuare mediante BLAST contro altri genomi (ratto, cane, scimmia, pollo, etc). Identificazione di CST

G. Paolella Napoli, 21/2/ CST annotation

G. Paolella Napoli, 21/2/ DG-CST 1022 genes related to genetically transmitted disease

G. Paolella Napoli, 21/2/ KinWeb 500 genes coding for human protein kinases

G. Paolella Napoli, 21/2/ (a) (b) (c) (d) (e) KinWeb DB

G. Paolella Napoli, 21/2/ BLAST Eseguibile submitted da un repository locale di programmi Librerie di dati genomici conservate su SE locale e registrate sull'SE centrale scopelfc01.dsf.unina.it:/grid/scope/bioinfo Esempio Blast delle CST contro genomi di cane, gallo, scimmia e ratto. Numero jobs sottomessi 67 Gruppo di sequenze di input: 1000 sequenze Tempo totale di esecuzione dei 67 jobs: 4 ore Tempo medio per job: 18 minuti (2 spesi per scaricare il dataset). Tempo CPU Ricerca di 1 sequenza nel genoma di topo => 5 sec sequenze => 3,75 giorni 10 genomi => 37,5 giorni MPIBLAST (soltanto installato)

G. Paolella Napoli, 21/2/ Bacterial SLSs Pae-1 (Pseudomonas aeuruginosa)Eric (Escherichia coli)

G. Paolella Napoli, 21/2/ Identificazione e caratterizzazione in genomi batterici di famiglie di sequenze ripetute che condividono una struttura secondaria conservata. Analisi da effettuare mediante INFERNAL su oltre 300 genomi batterici Esempio Ricerca di una famiglia in un genoma =====> 6 ore. Ricerca di 50 famiglie in un genoma =====> 12,5 giorni Ricerca di 50 famiglie in 300 genomi =====> 10 anni Ricerca Strutture secondarie

G. Paolella Napoli, 21/2/ DNA Aim: find potential regulatory sequences acting as structured RNAs. Pilot project: Analyses carried on chromosome 21. Protein Structured RNA mRNA Folding of the human genome

G. Paolella Napoli, 21/2/ Chromosome length46,944,323 bp Transcriptome length14,609,025 bp Sequences potentially transcribed has been split in overlapping fragments of 150 bp length. Fragments290,904 sequences Total length43,726,912 bp Genome plan

G. Paolella Napoli, 21/2/ Length46,944,323 bps Total genes392 > miRNA Genes10 > rRNA Genes3 > snRNA Genes7 > snoRNA Genes8 > miscRNA8 Found known RNAs9 Transcriptome length14,609,025 Sequences potentially transcribed has been split in overlapping fragments of 150 bp length. 290,904 sequences Results

G. Paolella Napoli, 21/2/ Valutazione dei risultati ottenuti RANDFOLD Programma randfold Eseguibile submitted da un repository locale di programmi di bioinformatica Gruppo di sequenze di input: 2500 sequenze di regioni trascritte del chr 21 Numero jobs sottomessi 117 Tempo CPU richiesto Sequenze derivate dai geni del cromosoma 21: Predizione su 1 sequenza => 45 sec sequenze => 152 giorni.

G. Paolella Napoli, 21/2/ Node number n_sequencesseconds Day(s) ,58913,121, ,500112,5001,3 About 3 days How long ?

G. Paolella Napoli, 21/2/ Performance

G. Paolella Napoli, 21/2/ Some extra applications

G. Paolella Napoli, 21/2/ Assemble … Contigs Scaffolds … geneA tRNA promoprAoprB geneCluster A Annotation High throughput sequencing

G. Paolella Napoli, 21/2/ Identification of genes and other genetic elements. Protein functional annotation. Cellular process annotation. Identification of ORFs, tRNAs, rRNAs Scanning for signals, such as promoters and microRNAs Identification of operons and gene clusters Comparison with known genomes/proteins Identification of orthologs and paralogs Characterization of protein domains Reconstruction of complete metabolic pathways … Annotation Steps

G. Paolella Napoli, 21/2/ Annotation

G. Paolella Napoli, 21/2/ IPROC The image processing system: IPROC

G. Paolella Napoli, 21/2/ image in iProcStep ImageMagick iProcStep PHP iProcStep Perl commandLine program Image Magick Package PHP Package PERL Package Command Line Packages adapter image out adapter Image processing modules

G. Paolella Napoli, 21/2/ HPC on Cluster nodes GatewayGateway iPage image area data + images page iPane proc- steps IPROC architecture

G. Paolella Napoli, 21/2/ Cluster Nodes Access Server Access Server Access Server CLUSTER IPROC Parallel processing

G. Paolella Napoli, 21/2/ The group Angelo Boccia Gianluca Busiello Mauro Petrillo Concita Cantarella* Luca Cozzuto Leandra Sepe* Vittorio Lucignano Marisa Passaro

G. Paolella Napoli, 21/2/

G. Paolella Napoli, 21/2/ middle front far NIHRas, NIH3T3, NIHSrc wound healing Three cell subpopulations: front, middle, and far from the wound

G. Paolella Napoli, 21/2/ Version number 1 features tab-delimited Name filename Depth size 16bit wdim size 4 where files cdim size 3 where files pdim size n where files tdim size n unit min scale 10 where files ldim size n unit µm scale 0.4 where layers Time 1Time 2Time n well1well2 well3 well4 Channel1 Channel 2 Channel 3 Position 1 Position n l1 ln File format Data input: text description

G. Paolella Napoli, 21/2/ Acquisition parameters Buttons to slide the acquisition Image processing menus Info panel for each frame hide/show control command IPROC Image processing

G. Paolella Napoli, 21/2/ Broker virtual node virtual node DB Grid node Hierarchical node organization