G. Paolella Napoli, 18/12/ 2007 1 G. Paolella High performance computing per lannotazione e il mining di genomi interi.

Slides:



Advertisements
Presentazioni simili
Trieste, 26 novembre © 2005 – Renato Lukač Using OSS in Slovenian High Schools doc. dr. Renato Lukač LinuxDay Trieste.
Advertisements

Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Centro Internazionale per gli Antiparassitari e la Prevenzione Sanitaria Azienda Ospedaliera Luigi Sacco - Milano WP4: Cumulative Assessment Group refinement.
Cache Memory Prof. G. Nicosia University of Catania
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
G. Paolella Napoli, 21/2/ Progetto S.Co.P.E. – WP4 Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, L.Cozzuto, A. Boccia, C. Cantarella,
Teoria e Tecniche del Riconoscimento
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
II° Circolo Orta Nova (FG)
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
DG Ricerca Ambientale e Sviluppo FIRMS' FUNDING SCHEMES AND ENVIRONMENTAL PURPOSES IN THE EU STRUCTURAL FUNDS (Monitoring of environmental firms funding.
Centro Nazionale Trapianti Attivitàdonazione al 30 aprile 2004* al 30 aprile 2004* FONTE DATI: Dati Report CIR.
Frontespizio Economia Monetaria Anno Accademico
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
1 Tavolo del Patto per la crescita intelligente, sostenibile e inclusiva Il ricorso agli ammortizzatori sociali nei territori colpiti dagli eventi sismici.
DISEGNO TECNICO INDUSTRIALE
Training On Line – CONA. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Annuali > Nuova Richiesta Si accede alla pagina di Richiesta.
Numerazione in base tre Prof. Lariccia Giovanni Gruppo: Roberta Spicciariello, Roberta Accaria e Maria Elisa Graziano.
1.E un algoritmo ricorsivo: Tutti le istanze di oggetti raggiungibili da un oggetto persistente diventano anchessi persistenti.
1 Innovazione dal punto di vista strategico Francesco Berri Medical Director ASTELLAS PHARMA SpA Bologna 10 Giugno 2011.
HDM Information Design notation v.4. HDM Information Design.
Programmazione 1 9CFU – TANTE ore
Biometry to enhance smart card security (MOC using TOC protocol)
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Il referto strutturato
Infrastruttura & Competenze ICT ENEA
Avis Contact Centres Review
2000 Prentice Hall, Inc. All rights reserved. 1 Capitolo 3 - Functions Outline 3.1Introduction 3.2Program Components in C++ 3.3Math Library Functions 3.4Functions.
1 Astroparticle Physics in Space Claudia Cecchi Dipartimento di Fisica e Sezione INFN, Perugia Workshop Nazionale La Scienza e la Tecnologia sulla Stazione.
Corso di base sull’uso del software di analisi meteorologica DIGITAL ATMOSPHERE Prodotti meteo A cura di Vittorio Villasmunta Corso Digital Atmosphere.
Queuing or Waiting Line Models
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.
MP/RU 1 Dicembre 2011 ALLEGATO TECNICO Evoluzioni organizzative: organico a tendere - ricollocazioni - Orari TSC.
Watson et al. , BIOLOGIA MOLECOLARE DEL GENE, Zanichelli editore S. p
ATE / 31 Lezione 3 i sistemi automatici di misurazione - gli ATE.
Analisi di Immagini e Dati Biologici
19 Lezione 21/5/04 Composizione dell'immagine 1 COMPOSIZIONE DELLIMMAGINE.
LHCf Status Report Measurement of Photons and Neutral Pions in the Very Forward Region of LHC Oscar Adriani INFN Sezione di Firenze - Dipartimento di Fisica.
2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.
Palermo, may 2010 F.Doumaz, S.Vinci (INGV-CNT- Gruppo di telerilevamento)
Melfi, 1 aprile 2011 – MediaShow 1 Social Network: possibilità di uso consapevole nella didattica Uso, consapevolezza, opportunità, proposte Caterina Policaro.
1ROL - Richieste On Line Ente pubblico 5ROL - Richieste On Line.
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
LE SAI LE TABELLINE? Mettiti alla prova!.
Un trucchetto di Moltiplicazione per il calcolo mentale
21 marzo 2002 (ri-)Avvisi: Giovedi 28 marzo la lezione e sospesa. Nuovo indirizzo di Spedire messaggi e esercizi solo.
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
Bando di Residenza Cap Scheda ENTE 3ROL - Richieste On Line.
Centro Nazionale Trapianti Attivitàdonazione al 30 aprile 2004* al 30 aprile 2004* FONTE DATI: Dati Report CIR.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
-17 Aspettative economiche – Europa Settembre 2013 Indicatore > +20 Indicatore 0 a +20 Indicatore 0 a -20 Indicatore < -20 Unione Europea Totale: +6 Indicatore.
Collection & Generics in Java
Economia delle Aziende, Pubbliche e Non Profit Sistema di misurazione e valutazione e Programma triennale per la trasparenza e l’integrità: alcuni esempi.
Disclosure Information Relationships Relevant to this Session
Bando Pittori e Scultori in Piemonte alla metà del ‘700
La DNA Polimerasi può commettere errori Nei batteri: 1 errore ogni 10 9 basi in ogni generazione.
Mercato del lavoro e condizione giovanile: la crisi si acuisce
lun mar mer gio ven SAB DOM FEBBRAIO.
1 Acceleratori e Reattori Nucleari Saverio Altieri Dipartimento di Fisica Università degli Studi - Pavia
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
G. Paolella Napoli, 28/5/ Progetto S.Co.P.E. Bioinformatica nel progetto SCOPE G. Paolella, M. Petrillo, G. Busiello, L.Cozzuto, A. Boccia, C. Cantarella,
Transcript della presentazione:

G. Paolella Napoli, 18/12/ G. Paolella High performance computing per lannotazione e il mining di genomi interi

G. Paolella Napoli, 18/12/ DG-CST 1022 genes related to genetically transmitted disease

G. Paolella Napoli, 18/12/ CST Identificazione e caratterizzazione di sequenze nucleotidiche conservate tra uomo e topo (CSTs) in altre specie. H. Sapiens M. Musculus CSTs CST identificate in geni associati a malattie: Analisi da effettuare mediante BLAST contro altri genomi (ratto, cane, scimmia, pollo, etc).

G. Paolella Napoli, 18/12/ KinWeb 500 genes coding for human protein kinases

G. Paolella Napoli, 18/12/ (a) (b) (c) (d) (e) KinWeb DB

G. Paolella Napoli, 18/12/ Pipeline units

G. Paolella Napoli, 18/12/ Assemble … Contigs Scaffolds … geneA tRNA promoprAoprB geneCluster A Annotation High throughput sequencing

G. Paolella Napoli, 18/12/ Sequencing At CEINGE, Nonomuraea sequencing genome project by 454 FLX is in progress

G. Paolella Napoli, 18/12/ Annotation

G. Paolella Napoli, 18/12/ Identification of genes and other genetic elements. Protein functional annotation. Cellular process annotation. Identification of ORFs, tRNAs, rRNAs Scanning for signals, such as promoters and microRNAs Identification of operons and gene clusters Comparison with known genomes/proteins Identification of orthologs and paralogs Characterization of protein domains Reconstruction of complete metabolic pathways … Annotation Steps

G. Paolella Napoli, 18/12/ Stem Loop Structure (SLS) Protein and coding genes Forward strand Reverse strand E. coli k12 ERIC Rib (BIME family) SLS in Bacteria

G. Paolella Napoli, 18/12/ Identification of SLSs in bacterial genomes real shuffled

G. Paolella Napoli, 18/12/ Blast e-value Markov clustering (MCL) X SLSs BLAST all vs all Clustering by sequence similarity

G. Paolella Napoli, 18/12/ RESULTS Folding probability Clustered SLSsSLSsRandom sequences p = probability that the Minimum Free Energy (MFE) of a given sequence is equal to a distribution of MFE computed with random sequences. (RANDFOLD)

G. Paolella Napoli, 18/12/ RESULTS Grouping clusters = 98 clusters manual refinement 92 families

G. Paolella Napoli, 18/12/ Genome search Identification of all family members by HMM Sequence alignment matches HMM New alignment Final elements HMM build Align & extend

G. Paolella Napoli, 18/12/ An example of elongation process: Myg-1 M. genitalium

G. Paolella Napoli, 18/12/ Pae-1 (P. aeuruginosa) Examples Complex structures Efa-1 (E. faecalis)

G. Paolella Napoli, 18/12/ Bacterial SLSs Pae-1 (Pseudomonas aeuruginosa)Eric (Escherichia coli)

G. Paolella Napoli, 18/12/ Known (5) Known (20) % of genic families Novel (37) Novel (30) RNAz test Contain known motifs (14) Predict to be structured (57) Predict to be not structured (35) Contain known motifs (12) Secondary structure prediction analysis of families

G. Paolella Napoli, 18/12/ x14x2=112 procs 2.8 GHz 4x14x2=112 GB RAM 2 GB/s per scheda - 4 GB/s aggregata Cluster 2.8GHz biproc. node, 2GB RAM 160 GB HD

G. Paolella Napoli, 18/12/ Processing time

G. Paolella Napoli, 18/12/ The procedure requires high performance computing Blast + MCL Pcma HMMbuild HMMcalibrate HMMsearch Pcma n Identification Characterization Randfold RNAz Infernal SCoPE GRID computing

G. Paolella Napoli, 18/12/ Sito medicina HD attached to the system: 1 Cluster Element (CE) 5 Worker nodes (WN) biproc (expandable up to 40) 1 Storage Element (SE) with 50 Gb 1 User Interface (UI)

G. Paolella Napoli, 18/12/ BLAST Eseguibile submitted da un repository locale di programmi Librerie di dati genomici conservate su SE Esempio Blast delle CST contro genomi di cane, gallo, scimmia e ratto. Numero jobs sottomessi 67 Gruppo di sequenze di input: 1000 sequenze Tempo totale di esecuzione dei 67 jobs: 4 ore Tempo medio per job: 18 minuti (2 spesi per scaricare il dataset). Tempo CPU Ricerca di 1 sequenza nel genoma di topo => 5 sec sequenze => 3,75 giorni 10 genomi => 37,5 giorni

G. Paolella Napoli, 18/12/ Ricerca strutture secondarie Identificazione e caratterizzazione in genomi batterici di famiglie di sequenze ripetute che condividono una struttura secondaria conservata. Analisi da effettuare su oltre 300 genomi batterici Esempio Ricerca di una famiglia in un genoma =====> 6 ore. Ricerca di 50 famiglie in un genoma =====> 12,5 giorni Ricerca di 50 famiglie in 300 genomi =====> 10 anni

G. Paolella Napoli, 18/12/ RandFold Identificazione di sequenze potenzialmente strutturate nel trascrittoma umano. Analisi da effettuare mediante RANDFOLD sui geni frammentati a finestre di 50 basi in sequenze di 150 basi. Esempio Geni : 408 pari a circa 14 mln di basi Sequenze di 150 basi generate: Analisi di 1 sequenza =====> 45 sec. Analisi di sequenze =====> 152 giorni.

G. Paolella Napoli, 18/12/ What about more interactive uses ?

G. Paolella Napoli, 18/12/ CAPRI

DBs Private network Cluster Broker getNode Access server schedule r Access server schedule r Access server schedule r web requests http request for an available node rsh launch on the node web display of results Requests distribution on the cluster Cluster Status Cluster Status StatusDB sql Updates from node agents Cluster Manager Cluster Manager Display server sql... Cluster activity

G. Paolella Napoli, 18/12/ Broker virtual node virtual node DB Grid node Hierarchical node organization

G. Paolella Napoli, 18/12/ PROJECT *Cell line *Colture conditions *Fixation and inclusion methods, stainings, ecc *Objective *Focus Position *Stage position x/y *Project title *Experiment name, *Author, group, group leader, ecc. *Exposure time *Resolution, ecc. Digital images are produced by a variety of microscope devices. The management of large number of images requires the use of databases (DB), Processing of the acquired images is often necessary to enhance the visibility of cell features, that would otherwise be hidden Integrated image storage and processing environment

G. Paolella Napoli, 18/12/ IPROC The image processing system: IPROC

G. Paolella Napoli, 18/12/ Version number 1 features tab-delimited Name filename Depth size 16bit wdim size 4 where files cdim size 3 where files pdim size n where files tdim size n unit min scale 10 where files ldim size n unit µm scale 0.4 where layers Time 1Time 2Time n well1well2 well3 well4 Channel1 Channel 2 Channel 3 Position 1 Position n l1 ln File format Data input: text description

G. Paolella Napoli, 18/12/ Acquisition parameters Buttons to slide the acquisition Image processing menus Info panel for each frame hide/show control command IPROC Image processing

G. Paolella Napoli, 18/12/ image in iProcStep ImageMagick iProcStep PHP iProcStep Perl commandLine program Image Magick Package PHP Package PERL Package Command Line Packages adapter image out adapter Image processing modules

G. Paolella Napoli, 18/12/ HPC on Cluster nodes GatewayGateway iPage image area data + images page iPane proc- steps IPROC architecture

G. Paolella Napoli, 18/12/ Cluster Nodes Access Server Access Server Access Server CLUSTER IPROC Parallel processing

G. Paolella Napoli, 18/12/ The group Angelo Boccia Gianluca Busiello Mauro Petrillo Concita Cantarella Luca Cozzuto Leandra Sepe Vittorio Lucignano Marisa Passaro