G. Paolella Napoli, 28/5/ 2008 1 Progetto S.Co.P.E. Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, G. Busiello, L.Cozzuto, A. Boccia, C. Cantarella,

Slides:



Advertisements
Presentazioni simili
G. Paolella Napoli, 21/2/ Progetto S.Co.P.E. – WP4 Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, L.Cozzuto, A. Boccia, C. Cantarella,
Advertisements

Corso di genetica agraria Eredità extranucleare
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Corso di Laurea Specialistica in Informatica Bioinformatica A. A
Bioinformatica Prof. Mauro Fasano
BASI DI DATI BIOLOGICHE - 3
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Proposta di integrazione e consolidamento delle risorse presenti nellinfrastruttura Grid dellItalia Meridionale (L. Merola, )
Future Astronomical Software Environment
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Metodi basati sulle similitudini per dedurre la funzione di un gene
Micro RNA (miRNA) Piccole molecole di RNA (20-22 nt)
Bioinformatica Andrea G. B. Tettamanzi.
WP12 Gruppi impegnati Univ. Padova, A. Apostolico,
Opinione studenti II anno A-K Per la stragrande maggioranza degli studenti, il bilancio per il II anno A-K, è nettamente positivo. Infatti se vogliamo.
Software per la Bioinformatica
Criniti Brunino Misale Claudia OBIETTIVO APPLICAZIONE: Integrazione di risorse ampiamente utilizzate nel campo della ricerca biomedica:
Introduzione a XI Conferenza nazionale di Statistica febbraio 2013 Pillole formative di statistica.
G. Paolella Napoli, 18/12/ G. Paolella High performance computing per lannotazione e il mining di genomi interi.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
In questa lezione ci occuperemo
Il progetto genoma umano
Alcuni esempi di domande di esame
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Sequenze e Banche Dati Biologiche
Distributed System ( )7 TCP/IP four-layer model.
Giulio Pavesi Dipartimento di BioScienze Università di Milano
UML: Activity diagram Corso IS I /03 Gianna Reggio Versione 0.1.
Metodi post-genomici in biochimica cellulare. Metodi post-genomici.
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Extreme Cluster Administration Toolkit Alberto Crescente, INFN Sez. Padova.
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Divisione in gruppi di tre persone
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
Distribuzione controllata del software con Systems Management Server 2003 Fabrizio Grossi.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
STRUTTURA  FUNZIONE  EVOLUZIONE STRUTTURA  (FUNZIONE)  EVOLUZIONE Organi, tessuti ecc. Geni o segmenti genomici.
Pseudogeni = geni non funzionali
CORSO DI BIOLOGIA - Programma
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
La parola “Bioinformatica”
Allineamento di sequenze
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
POSTGENOMICA O GENOMICA FUNZIONALE
Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Annotazione strutturale dei genomi
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
Geni “cliccabili”. SRS : Ensembl : NCBI : Sanger centre :
FESR Trinacria Grid Virtual Laboratory PROGETTO “MAMMO” Sviluppo e ottimizzazione di algoritmi adattativi, specificatamente di Artificial.
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
#sqlsatTorino #sqlsat400 May 23, 2015 AzureML - Creating and Using Machine Learning Solutions Davide
INFN—Catania Giuseppe Andronico Bologna, 23 Gennaio 2014.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Proff.
FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’  Sviluppo programmi di analisi  Sviluppo.
Il principio della ChIP: arricchimento selettivo della frazione di cromatina contenente una specifica proteina La ChIP può anche esser considerata.
Riunione INFN – Bologna, 17 January 2013
ViralPack: Un pacchetto integrato di bioinformatica su Genius
Geni o segmenti genomici
Transcript della presentazione:

G. Paolella Napoli, 28/5/ Progetto S.Co.P.E. Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, G. Busiello, L.Cozzuto, A. Boccia, C. Cantarella, L.Sepe

G. Paolella Napoli, 28/5/ Our role within SCOPE Nodes NsNodes GRID software High level middleware SCOPE web site Astronomy Chemistry PhysicsBioinformatics Hardware Middleware Application

G. Paolella Napoli, 28/5/ Tasks Provide a large number of users with general purpose bioinformatic service, which take advantage of high performance hardware, allowing: –Web access for quick operations, performed by the vast majority of users –Unix level access in the form of an integrated problem solving environment Set up an automatic annotation system to be used in specific computational or experimental projects, based on the available services two specific applications: –CST analysis by comparative genomics –Mining for regulatory RNA within completely sequenced genomes

G. Paolella Napoli, 28/5/ Polo Medicina (CEBSMA/CEINGE) Servizi Collective Cluster SCOPE GRID connection Monte S.Angelo

G. Paolella Napoli, 28/5/ Accesso ai dati … astrofisica fisica matematica elettromagnetismo ambiente statistica bioinfo /grid/scope/ fasta blast fasta clustalw genscan … programs embl uniprot genomes … embl uniprot genomes … blast

G. Paolella Napoli, 28/5/ Applicazioni … Sul catalogo dei files della voms SCOPE sono attualmente installate e disponibili le seguenti applicazioni: - Programmi di allineamento per la ricerca di similarità: - pacchetto BLAST - pacchetto FASTA - pacchetto HMMER - ClustalW - Programmi di analisi di struttura secondaria di RNA: - pacchetto RNAz - pacchetto VIENNA - pacchetto INFERNAL - RANDFOLD - Programmi per specifiche analisi su sequenze: - GENSCAN per la predizione genica - Primer3 per la ricerca di primer per esperimenti di PCR

G. Paolella Napoli, 28/5/ Banche dati … Sul catalogo dei files della voms SCOPE sono attualmente disponibili le seguenti banche biologiche, sia in formato fastA che indicizzate in formato BLAST: -DB di acidi nucleici: - EMBL completa, incluse tutte le EST - sequenze genomiche di oltre 200 batteri completamente sequenziati; - sequenze genomiche dei principali vertebrati quali uomo, topo, ratto, scimmia, scimpanzé, cane, mucca, rana, gallo, pesce palla, pesce zebra; - sequenze genomiche di piante, come riso e arabidopsis - trascrittoma ENSEMBL umano - trascrittoma FANTOM murino - DB di sequenze proteiche: - UNIPROT, che comprende SWISSPROT, TREMBL e PIR - proteoma ENSEMBL umano - proteoma FANTOM murino Sono in preparazione REFSEQ e GenBank, nonché banche dati secondarie quali INTERPRO, PFAM e la banca dati di strutture 3D PDB, oltre a numerose altre.

G. Paolella Napoli, 28/5/ Bioinfo portal

G. Paolella Napoli, 28/5/ Available services

G. Paolella Napoli, 28/5/ Programs

G. Paolella Napoli, 28/5/ Graphic interface to programs

G. Paolella Napoli, 28/5/ Various operations in a row: Complement ->Translation -> Isoelectric point of the resulting protein. DNA Complement Translation Isoelectric point CAPRI workflow

G. Paolella Napoli, 28/5/ SRS: the database tool

G. Paolella Napoli, 28/5/ SRS

G. Paolella Napoli, 28/5/ Acquisition parameters Buttons to slide the acquisition Image processing menus Info panel for each frame hide/show control command IPROC Image processing

G. Paolella Napoli, 28/5/ Cluster Nodes Access Server Access Server Access Server CLUSTER IPROC Parallel processing

G. Paolella Napoli, 28/5/ HPC on Cluster nodes GatewayGateway iPage image area data + images page iPane proc- steps IPROC architecture

G. Paolella Napoli, 28/5/ image in iProcStep ImageMagick iProcStep PHP iProcStep Perl commandLine program Image Magick Package PHP Package PERL Package Command Line Packages adapter image out adapter Image processing modules

G. Paolella Napoli, 28/5/ middle front far NIHRas, NIH3T3, NIHSrc wound healing Three cell subpopulations: front, middle, and far from the wound

G. Paolella Napoli, 28/5/ Tasks Provide a large number of users with general purpose bioinformatic service, which take advantage of high performance hardware, allowing: –Web access for quick operations, performed by the vast majority of users –Unix level access in the form of an integrated problem solving environment Set up an automatic annotation system to be used in specific computational or experimental projects, based on the available services two specific applications: –CST analysis by comparative genomics –Mining for regulatory RNA within completely sequenced genomes

G. Paolella Napoli, 28/5/ Due esempi Due esempi di sistemi di annotazione automatica, utilizzati per la identificazione e caratterizzazione di sequenze di DNA con possibile ruolo funzionale: – sequenze di piccole dimensioni, conservate tra uomo ed altre specie CST; – sequenze in grado di codificare per RNA strutturati.

G. Paolella Napoli, 28/5/ Obiettivo: Sistema di annotazione automatica di sequenze Motivazioni: Analisi computazionale di sequenze non codificanti permette l’identificazione di nuovi elementi funzionali Descrizione del problema e sua risoluzione. Diversi tipi di test predittivi applicati su larga scala ad un gran numero di dati sperimentali, estratti da banche dati pubblicamente disponibili o provenienti da dati sperimentali. Esigenza per l’uso dell’HPC: dato l’elevato numero di test, in genere si utilizzano cluster multiprocessore. L’uso di GRID permette di estendere l’analisi a set di dati di dimensioni ancora maggiori. Descrizione della soluzione del problema nell’ambiente HPC Obiettivi e modalita’

G. Paolella Napoli, 28/5/ Identificazione e caratterizzazione di sequenze nucleotidiche conservate tra uomo e topo (CSTs) in altre specie. H. Sapiens M. Musculus CSTs CST identificate in geni associati a malattie: Analisi da effettuare mediante BLAST contro altri genomi (ratto, cane, scimmia, pollo, etc). Identificazione di CST

G. Paolella Napoli, 28/5/ CST annotation

G. Paolella Napoli, 28/5/ DG-CST 1022 genes related to genetically transmitted disease

G. Paolella Napoli, 28/5/ KinWeb 500 genes coding for human protein kinases

G. Paolella Napoli, 28/5/ (a) (b) (c) (d) (e) KinWeb DB

G. Paolella Napoli, 28/5/ BLAST Eseguibile submitted da un repository locale di programmi Librerie di dati genomici conservate su SE locale e registrate sull'SE centrale scopelfc01.dsf.unina.it:/grid/scope/bioinfo Esempio Blast delle CST contro genomi di cane, gallo, scimmia e ratto. Numero jobs sottomessi 67 Gruppo di sequenze di input: 1000 sequenze Tempo totale di esecuzione dei 67 jobs: 4 ore Tempo medio per job: 18 minuti (2 spesi per scaricare il dataset). Tempo CPU Ricerca di 1 sequenza nel genoma di topo => 5 sec sequenze => 3,75 giorni 10 genomi => 37,5 giorni MPIBLAST (soltanto installato)

G. Paolella Napoli, 28/5/ Gene mining DNA Proteina RNA Strutturato mRNA Funzione biologica

G. Paolella Napoli, 28/5/ Bacterial SLSs Pae-1 (Pseudomonas aeuruginosa)Eric (Escherichia coli)

G. Paolella Napoli, 28/5/ Identificazione e caratterizzazione in genomi batterici di famiglie di sequenze ripetute che condividono una struttura secondaria conservata. Analisi da effettuare mediante INFERNAL su oltre 300 genomi batterici Esempio Ricerca di una famiglia in un genoma =====> 6 ore. Ricerca di 50 famiglie in un genoma =====> 12,5 giorni Ricerca di 50 famiglie in 300 genomi =====> 10 anni Ricerca Strutture secondarie

G. Paolella Napoli, 28/5/ Assemble … Contigs Scaffolds … geneA tRNA promoprAoprB geneCluster A Annotation High throughput sequencing

G. Paolella Napoli, 28/5/ Annotation

G. Paolella Napoli, 28/5/ Gene mining DNA Proteina RNA Strutturato mRNA Funzione biologica

G. Paolella Napoli, 28/5/ Gene mining DNA Proteina RNA Strutturato mRNA Funzione biologica

G. Paolella Napoli, 28/5/ Gene mining Tempi di esecuzione su grid 1 WN Grid

G. Paolella Napoli, 28/5/ Length46,944,323 bps Total genes392 > miRNA Genes10 > rRNA Genes3 > snRNA Genes7 > snoRNA Genes8 > miscRNA8 Found known RNAs9 Transcriptome length14,609,025 Sequences potentially transcribed has been split in overlapping fragments of 150 bp length. 290,904 sequences Results

G. Paolella Napoli, 28/5/ Gene mining RANDFOLD test sul trascrittoma del cromosoma 21 Lunghezza delle sequenze: 150 Window size: 50 8%

G. Paolella Napoli, 28/5/ The group Angelo Boccia Gianluca Busiello Mauro Petrillo Concita Cantarella* Luca Cozzuto Leandra Sepe* Vittorio Lucignano Marisa Passaro

G. Paolella Napoli, 28/5/ Performance