La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

G. Paolella Napoli, 28/5/ 2008 1 Progetto S.Co.P.E. Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, G. Busiello, L.Cozzuto, A. Boccia, C. Cantarella,

Presentazioni simili


Presentazione sul tema: "G. Paolella Napoli, 28/5/ 2008 1 Progetto S.Co.P.E. Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, G. Busiello, L.Cozzuto, A. Boccia, C. Cantarella,"— Transcript della presentazione:

1 G. Paolella Napoli, 28/5/ 2008 1 Progetto S.Co.P.E. Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, G. Busiello, L.Cozzuto, A. Boccia, C. Cantarella, L.Sepe

2 G. Paolella Napoli, 28/5/ 2008 2 Our role within SCOPE Nodes NsNodes GRID software High level middleware SCOPE web site Astronomy Chemistry PhysicsBioinformatics Hardware Middleware Application

3 G. Paolella Napoli, 28/5/ 2008 3 Tasks Provide a large number of users with general purpose bioinformatic service, which take advantage of high performance hardware, allowing: –Web access for quick operations, performed by the vast majority of users –Unix level access in the form of an integrated problem solving environment Set up an automatic annotation system to be used in specific computational or experimental projects, based on the available services two specific applications: –CST analysis by comparative genomics –Mining for regulatory RNA within completely sequenced genomes

4 G. Paolella Napoli, 28/5/ 2008 4 Polo Medicina (CEBSMA/CEINGE) Servizi Collective Cluster SCOPE GRID connection Monte S.Angelo

5 G. Paolella Napoli, 28/5/ 2008 5 Accesso ai dati … astrofisica fisica matematica elettromagnetismo ambiente statistica bioinfo /grid/scope/ fasta blast fasta clustalw genscan … programs embl uniprot genomes … embl uniprot genomes … blast

6 G. Paolella Napoli, 28/5/ 2008 6 Applicazioni … Sul catalogo dei files della voms SCOPE sono attualmente installate e disponibili le seguenti applicazioni: - Programmi di allineamento per la ricerca di similarità: - pacchetto BLAST - pacchetto FASTA - pacchetto HMMER - ClustalW - Programmi di analisi di struttura secondaria di RNA: - pacchetto RNAz - pacchetto VIENNA - pacchetto INFERNAL - RANDFOLD - Programmi per specifiche analisi su sequenze: - GENSCAN per la predizione genica - Primer3 per la ricerca di primer per esperimenti di PCR

7 G. Paolella Napoli, 28/5/ 2008 7 Banche dati … Sul catalogo dei files della voms SCOPE sono attualmente disponibili le seguenti banche biologiche, sia in formato fastA che indicizzate in formato BLAST: -DB di acidi nucleici: - EMBL completa, incluse tutte le EST - sequenze genomiche di oltre 200 batteri completamente sequenziati; - sequenze genomiche dei principali vertebrati quali uomo, topo, ratto, scimmia, scimpanzé, cane, mucca, rana, gallo, pesce palla, pesce zebra; - sequenze genomiche di piante, come riso e arabidopsis - trascrittoma ENSEMBL umano - trascrittoma FANTOM murino - DB di sequenze proteiche: - UNIPROT, che comprende SWISSPROT, TREMBL e PIR - proteoma ENSEMBL umano - proteoma FANTOM murino Sono in preparazione REFSEQ e GenBank, nonché banche dati secondarie quali INTERPRO, PFAM e la banca dati di strutture 3D PDB, oltre a numerose altre.

8 G. Paolella Napoli, 28/5/ 2008 8 Bioinfo portal

9 G. Paolella Napoli, 28/5/ 2008 9 Available services

10 G. Paolella Napoli, 28/5/ 2008 10 Programs

11 G. Paolella Napoli, 28/5/ 2008 11 Graphic interface to programs

12 G. Paolella Napoli, 28/5/ 2008 12 Various operations in a row: Complement ->Translation -> Isoelectric point of the resulting protein. DNA Complement Translation Isoelectric point CAPRI workflow

13 G. Paolella Napoli, 28/5/ 2008 13 SRS: the database tool

14 G. Paolella Napoli, 28/5/ 2008 14 SRS

15 G. Paolella Napoli, 28/5/ 2008 15 Acquisition parameters Buttons to slide the acquisition Image processing menus Info panel for each frame hide/show control command IPROC Image processing

16 G. Paolella Napoli, 28/5/ 2008 16 Cluster Nodes Access Server Access Server Access Server CLUSTER IPROC Parallel processing

17 G. Paolella Napoli, 28/5/ 2008 17 HPC on Cluster nodes GatewayGateway iPage image area data + images page iPane proc- steps IPROC architecture

18 G. Paolella Napoli, 28/5/ 2008 18 image in iProcStep ImageMagick iProcStep PHP iProcStep Perl commandLine program Image Magick Package PHP Package PERL Package Command Line Packages adapter image out adapter Image processing modules

19 G. Paolella Napoli, 28/5/ 2008 19 middle front far NIHRas, NIH3T3, NIHSrc wound healing Three cell subpopulations: front, middle, and far from the wound

20 G. Paolella Napoli, 28/5/ 2008 20 Tasks Provide a large number of users with general purpose bioinformatic service, which take advantage of high performance hardware, allowing: –Web access for quick operations, performed by the vast majority of users –Unix level access in the form of an integrated problem solving environment Set up an automatic annotation system to be used in specific computational or experimental projects, based on the available services two specific applications: –CST analysis by comparative genomics –Mining for regulatory RNA within completely sequenced genomes

21 G. Paolella Napoli, 28/5/ 2008 21 Due esempi Due esempi di sistemi di annotazione automatica, utilizzati per la identificazione e caratterizzazione di sequenze di DNA con possibile ruolo funzionale: – sequenze di piccole dimensioni, conservate tra uomo ed altre specie CST; – sequenze in grado di codificare per RNA strutturati.

22 G. Paolella Napoli, 28/5/ 2008 22 Obiettivo: Sistema di annotazione automatica di sequenze Motivazioni: Analisi computazionale di sequenze non codificanti permette l’identificazione di nuovi elementi funzionali Descrizione del problema e sua risoluzione. Diversi tipi di test predittivi applicati su larga scala ad un gran numero di dati sperimentali, estratti da banche dati pubblicamente disponibili o provenienti da dati sperimentali. Esigenza per l’uso dell’HPC: dato l’elevato numero di test, in genere si utilizzano cluster multiprocessore. L’uso di GRID permette di estendere l’analisi a set di dati di dimensioni ancora maggiori. Descrizione della soluzione del problema nell’ambiente HPC Obiettivi e modalita’

23 G. Paolella Napoli, 28/5/ 2008 23 Identificazione e caratterizzazione di sequenze nucleotidiche conservate tra uomo e topo (CSTs) in altre specie. H. Sapiens M. Musculus CSTs CST identificate in geni associati a malattie: 64.495. Analisi da effettuare mediante BLAST contro altri genomi (ratto, cane, scimmia, pollo, etc). Identificazione di CST

24 G. Paolella Napoli, 28/5/ 2008 24 CST annotation

25 G. Paolella Napoli, 28/5/ 2008 25 DG-CST 1022 genes related to genetically transmitted disease

26 G. Paolella Napoli, 28/5/ 2008 26 KinWeb 500 genes coding for human protein kinases

27 G. Paolella Napoli, 28/5/ 2008 27 (a) (b) (c) (d) (e) KinWeb DB

28 G. Paolella Napoli, 28/5/ 2008 28 BLAST Eseguibile submitted da un repository locale di programmi Librerie di dati genomici conservate su SE locale e registrate sull'SE centrale scopelfc01.dsf.unina.it:/grid/scope/bioinfo Esempio Blast delle 65597 CST contro genomi di cane, gallo, scimmia e ratto. Numero jobs sottomessi 67 Gruppo di sequenze di input: 1000 sequenze Tempo totale di esecuzione dei 67 jobs: 4 ore Tempo medio per job: 18 minuti (2 spesi per scaricare il dataset). Tempo CPU Ricerca di 1 sequenza nel genoma di topo => 5 sec. 64.495 sequenze => 3,75 giorni 10 genomi => 37,5 giorni MPIBLAST (soltanto installato)

29 G. Paolella Napoli, 28/5/ 2008 29 Gene mining DNA Proteina RNA Strutturato mRNA Funzione biologica

30 G. Paolella Napoli, 28/5/ 2008 30 Bacterial SLSs Pae-1 (Pseudomonas aeuruginosa)Eric (Escherichia coli)

31 G. Paolella Napoli, 28/5/ 2008 31 Identificazione e caratterizzazione in genomi batterici di famiglie di sequenze ripetute che condividono una struttura secondaria conservata. Analisi da effettuare mediante INFERNAL su oltre 300 genomi batterici Esempio Ricerca di una famiglia in un genoma =====> 6 ore. Ricerca di 50 famiglie in un genoma =====> 12,5 giorni Ricerca di 50 famiglie in 300 genomi =====> 10 anni Ricerca Strutture secondarie

32 G. Paolella Napoli, 28/5/ 2008 32 Assemble … Contigs Scaffolds … geneA tRNA promoprAoprB geneCluster A Annotation High throughput sequencing

33 G. Paolella Napoli, 28/5/ 2008 33 Annotation

34 G. Paolella Napoli, 28/5/ 2008 34 Gene mining DNA Proteina RNA Strutturato mRNA Funzione biologica

35 G. Paolella Napoli, 28/5/ 2008 35 Gene mining DNA Proteina RNA Strutturato mRNA Funzione biologica

36 G. Paolella Napoli, 28/5/ 2008 36 Gene mining Tempi di esecuzione su grid 1 WN Grid

37 G. Paolella Napoli, 28/5/ 2008 37 Length46,944,323 bps Total genes392 > miRNA Genes10 > rRNA Genes3 > snRNA Genes7 > snoRNA Genes8 > miscRNA8 Found known RNAs9 Transcriptome length14,609,025 Sequences potentially transcribed has been split in overlapping fragments of 150 bp length. 290,904 sequences Results

38 G. Paolella Napoli, 28/5/ 2008 38 Gene mining RANDFOLD test sul trascrittoma del cromosoma 21 Lunghezza delle sequenze: 150 Window size: 50 8%

39 G. Paolella Napoli, 28/5/ 2008 39 The group Angelo Boccia Gianluca Busiello Mauro Petrillo Concita Cantarella* Luca Cozzuto Leandra Sepe* Vittorio Lucignano Marisa Passaro

40 G. Paolella Napoli, 28/5/ 2008 40 Performance


Scaricare ppt "G. Paolella Napoli, 28/5/ 2008 1 Progetto S.Co.P.E. Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, G. Busiello, L.Cozzuto, A. Boccia, C. Cantarella,"

Presentazioni simili


Annunci Google