Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoVanna Scotti Modificato 11 anni fa
1
G. Paolella Napoli, 21/2/ 2008 1 Progetto S.Co.P.E. – WP4 Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, L.Cozzuto, A. Boccia, C. Cantarella, L.Sepe
2
G. Paolella Napoli, 21/2/ 2008 2 Our role within SCOPE Nodes NsNodes GRID software High level middleware SCOPE web site Astronomy Chemistry PhysicsBioinformatics Hardware Middleware Application
3
G. Paolella Napoli, 21/2/ 2008 3 Tasks Provide a large number of users with general purpose bioinformatic service, which take advantage of high performance hardware, allowing: –Web access for quick operations, performed by the vast majority of users –Unix level access in the form of an integrated problem solving environment Set up an automatic annotation system to be used in specific computational or experimental projects, based on the available services two specific applications: –CST analysis by comparative genomics –Mining for regulatory RNA within completely sequenced genomes
4
G. Paolella Napoli, 21/2/ 2008 4 Bioinfo portal
5
G. Paolella Napoli, 21/2/ 2008 5 Available services
6
G. Paolella Napoli, 21/2/ 2008 6 Programs
7
G. Paolella Napoli, 21/2/ 2008 7 Graphic interface to programs
8
G. Paolella Napoli, 21/2/ 2008 8 Various operations in a row: Complement ->Translation -> Isoelectric point of the resulting protein. DNA Complement Translation Isoelectric point CAPRI workflow
9
G. Paolella Napoli, 21/2/ 2008 9 SRS: the database tool
10
G. Paolella Napoli, 21/2/ 2008 10 SRS
11
G. Paolella Napoli, 21/2/ 2008 11 WEB SERVER CAPRI SRS PISE Other Emboss Fasta Blast User Data DB Primary remote databases ENSEMBL Services organization
12
G. Paolella Napoli, 21/2/ 2008 12 Sito periferico medicina HD attached to the system: 112 processor cluster Two 8-processor servers, several 2-processor servers Storage center (SCOPE) Campus GRID and beyond (SCOPE)
13
G. Paolella Napoli, 21/2/ 2008 13 Broker virtual node virtual node DB Grid node Low latency scheduler High level scheduler 500 tasks/sec 20-50 ms delay
14
G. Paolella Napoli, 21/2/ 2008 14 Joining the GRID HD attached to the system: 1 Cluster Element (CE) 5 Worker nodes (WN) biproc (expandable up to 40) 1 Storage Element (SE) with 50 Gb 1 User Interface (UI)
15
G. Paolella Napoli, 21/2/ 2008 15 Available at: lfn:/grid/scope/bioinfo/ programs/(executables) dbs/(datasets) Currently installed tools Blast Randfold Infernal package Support databases RFAM Blast (human, rat, dog, chicken and macaca genomes) GRID bioinformatic tools
16
G. Paolella Napoli, 21/2/ 2008 16 Blastz Clustalw Dialignt Emboss package FASTA package Genscan Hmmer package MCL package Pcma Primer3 RNAz Vienna package Multiz-tba Ready to be installed tools
17
G. Paolella Napoli, 21/2/ 2008 17 Tasks Provide a large number of users with general purpose bioinformatic service, which take advantage of high performance hardware, allowing: –Web access for quick operations, performed by the vast majority of users –Unix level access in the form of an integrated problem solving environment Set up an automatic annotation system to be used in specific computational or experimental projects, based on the available services two specific applications: –CST analysis by comparative genomics –Mining for regulatory RNA within completely sequenced genomes
18
G. Paolella Napoli, 21/2/ 2008 18 Due esempi Due esempi di sistemi di annotazione automatica, utilizzati per la identificazione e caratterizzazione di sequenze di DNA con possibile ruolo funzionale: – sequenze di piccole dimensioni, conservate tra uomo ed altre specie CST; – sequenze in grado di codificare per RNA strutturati.
19
G. Paolella Napoli, 21/2/ 2008 19 Obiettivo: Sistema di annotazione automatica di sequenze Motivazioni: Analisi computazionale di sequenze non codificanti permette lidentificazione di nuovi elementi funzionali Descrizione del problema e sua risoluzione. Diversi tipi di test predittivi applicati su larga scala ad un gran numero di dati sperimentali, estratti da banche dati pubblicamente disponibili o provenienti da dati sperimentali. Esigenza per luso dellHPC: dato lelevato numero di test, in genere si utilizzano cluster multiprocessore. Luso di GRID permette di estendere lanalisi a set di dati di dimensioni ancora maggiori. Descrizione della soluzione del problema nellambiente HPC Obiettivi e modalita
20
G. Paolella Napoli, 21/2/ 2008 20 Identificazione e caratterizzazione di sequenze nucleotidiche conservate tra uomo e topo (CSTs) in altre specie. H. Sapiens M. Musculus CSTs CST identificate in geni associati a malattie: 64.495. Analisi da effettuare mediante BLAST contro altri genomi (ratto, cane, scimmia, pollo, etc). Identificazione di CST
21
G. Paolella Napoli, 21/2/ 2008 21 CST annotation
22
G. Paolella Napoli, 21/2/ 2008 22 DG-CST 1022 genes related to genetically transmitted disease
23
G. Paolella Napoli, 21/2/ 2008 23 KinWeb 500 genes coding for human protein kinases
24
G. Paolella Napoli, 21/2/ 2008 24 (a) (b) (c) (d) (e) KinWeb DB
25
G. Paolella Napoli, 21/2/ 2008 25 BLAST Eseguibile submitted da un repository locale di programmi Librerie di dati genomici conservate su SE locale e registrate sull'SE centrale scopelfc01.dsf.unina.it:/grid/scope/bioinfo Esempio Blast delle 65597 CST contro genomi di cane, gallo, scimmia e ratto. Numero jobs sottomessi 67 Gruppo di sequenze di input: 1000 sequenze Tempo totale di esecuzione dei 67 jobs: 4 ore Tempo medio per job: 18 minuti (2 spesi per scaricare il dataset). Tempo CPU Ricerca di 1 sequenza nel genoma di topo => 5 sec. 64.495 sequenze => 3,75 giorni 10 genomi => 37,5 giorni MPIBLAST (soltanto installato)
26
G. Paolella Napoli, 21/2/ 2008 26 Bacterial SLSs Pae-1 (Pseudomonas aeuruginosa)Eric (Escherichia coli)
27
G. Paolella Napoli, 21/2/ 2008 27 Identificazione e caratterizzazione in genomi batterici di famiglie di sequenze ripetute che condividono una struttura secondaria conservata. Analisi da effettuare mediante INFERNAL su oltre 300 genomi batterici Esempio Ricerca di una famiglia in un genoma =====> 6 ore. Ricerca di 50 famiglie in un genoma =====> 12,5 giorni Ricerca di 50 famiglie in 300 genomi =====> 10 anni Ricerca Strutture secondarie
28
G. Paolella Napoli, 21/2/ 2008 28 DNA Aim: find potential regulatory sequences acting as structured RNAs. Pilot project: Analyses carried on chromosome 21. Protein Structured RNA mRNA Folding of the human genome
29
G. Paolella Napoli, 21/2/ 2008 29 Chromosome length46,944,323 bp Transcriptome length14,609,025 bp Sequences potentially transcribed has been split in overlapping fragments of 150 bp length. Fragments290,904 sequences Total length43,726,912 bp Genome plan
30
G. Paolella Napoli, 21/2/ 2008 30 Length46,944,323 bps Total genes392 > miRNA Genes10 > rRNA Genes3 > snRNA Genes7 > snoRNA Genes8 > miscRNA8 Found known RNAs9 Transcriptome length14,609,025 Sequences potentially transcribed has been split in overlapping fragments of 150 bp length. 290,904 sequences Results
31
G. Paolella Napoli, 21/2/ 2008 31 Valutazione dei risultati ottenuti RANDFOLD Programma randfold Eseguibile submitted da un repository locale di programmi di bioinformatica Gruppo di sequenze di input: 2500 sequenze di regioni trascritte del chr 21 Numero jobs sottomessi 117 Tempo CPU richiesto Sequenze derivate dai geni del cromosoma 21: 291.589 Predizione su 1 sequenza => 45 sec. 291.589 sequenze => 152 giorni.
32
G. Paolella Napoli, 21/2/ 2008 32 Node number n_sequencesseconds Day(s) 11450 1291,58913,121,505152 1172,500112,5001,3 About 3 days How long ?
33
G. Paolella Napoli, 21/2/ 2008 33 Performance
34
G. Paolella Napoli, 21/2/ 2008 34 Some extra applications
35
G. Paolella Napoli, 21/2/ 2008 35 Assemble … Contigs Scaffolds … geneA tRNA promoprAoprB geneCluster A Annotation High throughput sequencing
36
G. Paolella Napoli, 21/2/ 2008 36 Identification of genes and other genetic elements. Protein functional annotation. Cellular process annotation. Identification of ORFs, tRNAs, rRNAs Scanning for signals, such as promoters and microRNAs Identification of operons and gene clusters Comparison with known genomes/proteins Identification of orthologs and paralogs Characterization of protein domains Reconstruction of complete metabolic pathways … Annotation Steps
37
G. Paolella Napoli, 21/2/ 2008 37 Annotation
38
G. Paolella Napoli, 21/2/ 2008 38 IPROC The image processing system: IPROC
39
G. Paolella Napoli, 21/2/ 2008 39 image in iProcStep ImageMagick iProcStep PHP iProcStep Perl commandLine program Image Magick Package PHP Package PERL Package Command Line Packages adapter image out adapter Image processing modules
40
G. Paolella Napoli, 21/2/ 2008 40 HPC on Cluster nodes GatewayGateway iPage image area data + images page iPane proc- steps IPROC architecture
41
G. Paolella Napoli, 21/2/ 2008 41 Cluster Nodes Access Server Access Server Access Server CLUSTER IPROC Parallel processing
42
G. Paolella Napoli, 21/2/ 2008 42 The group Angelo Boccia Gianluca Busiello Mauro Petrillo Concita Cantarella* Luca Cozzuto Leandra Sepe* Vittorio Lucignano Marisa Passaro
43
G. Paolella Napoli, 21/2/ 2008 43
44
G. Paolella Napoli, 21/2/ 2008 44 middle front far NIHRas, NIH3T3, NIHSrc wound healing Three cell subpopulations: front, middle, and far from the wound
45
G. Paolella Napoli, 21/2/ 2008 45 Version number 1 features tab-delimited Name filename Depth size 16bit wdim size 4 where files cdim size 3 where files pdim size n where files tdim size n unit min scale 10 where files ldim size n unit µm scale 0.4 where layers Time 1Time 2Time n well1well2 well3 well4 Channel1 Channel 2 Channel 3 Position 1 Position n l1 ln File format Data input: text description
46
G. Paolella Napoli, 21/2/ 2008 46 Acquisition parameters Buttons to slide the acquisition Image processing menus Info panel for each frame hide/show control command IPROC Image processing
47
G. Paolella Napoli, 21/2/ 2008 47 Broker virtual node virtual node DB Grid node Hierarchical node organization
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.