FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’ Sviluppo programmi di analisi Sviluppo e mantenimento banche dati Infrastruttura Tecnologica-Bioinformatica CNR - ITB, Bari section (Italy) – BioInformatics and Genomics
Programma UTRScan per l’identificazione di elementi regolatori Progettazione e sviluppo del programma DNAfan (DNA Feature Analyzer) (DNA Feature Analyzer) Collaborazione: Università degli Studi Milano Ricerca di prodotti genici analoghi funzionali Collaborazione: INFN Sviluppo di metodi statistici per la costruzione di un modello computazionale per l’apprendimento automatico computazionale per l’apprendimento automatico Collaborazioni: ISSIA-CNR Università degli Studi Milano Università degli Studi Milano ATTIVITA’ SVILUPPO PROGRAMMI DI ANALISI
CNR - ITB, Bari section (Italy) – BioInformatics and GenomicsATTIVITA’ SVILUPPO PROGRAMMI DI ANALISI DNAfan (DNA Feature Analyzer) Sistema che integra l’estrazione di un set omogeneo di sequenze dalle banche dati con i programmi di analisi Analisi delle banche dati da integrare nel sistema Analisi dei programmi da integrare nel sistema Progettazione e sviluppo dell’integrazione tra banche dati e programmi Integrazione del sistema nella piattaforma tecnologica Collaborazione Collaborazione: Università di Milano altre da definire
CNR - ITB, Bari section (Italy) – BioInformatics and GenomicsATTIVITA’ SVILUPPO PROGRAMMI DI ANALISI Ricerca Di Prodotti Genici Analoghi Funzionali Ricerca Di Prodotti Genici Analoghi Funzionali Angelica Tulipano
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics Ricerca di prodotti genici analoghi funzionali Attraverso un metodo statistico (test ²) trovare prodotti genici analoghi funzionali confrontando i corrispondenti GO terms ad essi associati e il loro peso semantico Problemi: Confronto di un gene con tutti gli altri contenuti nel DB (1.5 M) Gran numero di accessi ai dati del DB Gran numero di accessi ai dati del DB Si può: Parallelizzare il processo in jobs indipendenti Parallelizzare il processo in jobs indipendenti Creare un server MySQL per ogni job running Creare un server MySQL per ogni job running Obiettivo Trovare con l’aiuto di Gene Ontology prodotti genici analoghi funzionali e costruire un database con relazioni pre-calcolate Obiettivo Trovare con l’aiuto di Gene Ontology prodotti genici analoghi funzionali e costruire un database con relazioni pre-calcolate
CNR - ITB, Bari section (Italy) – BioInformatics and GenomicsATTIVITA’ SVILUPPO PROGRAMMI DI ANALISI Sviluppo di metodi statistici per la costruzione di modelli computazionali per l’apprendimento automatico Nicola Ancona
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics Sviluppo di metodi statistici per la costruzione di modelli computazionali per l’apprendimento automatico computazionali per l’apprendimento automatico Analisi di dati di microarray Tecniche di Machine Learning: SVM - Support Vector Machine RLS – Regularized Least Square Applicazioni: Caratterizzazione funzionale di sequenze o allineamenti multipli di sequenze per la loro classificazione in: multipli di sequenze per la loro classificazione in: codificanti codificanti non codificanti non codificanti etc.. etc..
CNR - ITB, Bari section (Italy) – BioInformatics and GenomicsATTIVITA’ Sviluppo e Mantenimento Banche Dati Banche Dati Mitocondriali Banche Dati: UTRdb e UTRSite Banca Dati p53/p63/p73 TAG e analisi Banca dati di microorganismi finalizzata alla gestione del rischio biologico rischio biologico
CNR - ITB, Bari section (Italy) – BioInformatics and GenomicsATTIVITA’ Sviluppo e Mantenimento Banche Dati Sviluppo, integrazione e miglioramento della qualità dei dati della banca dati UTRdb: della banca dati UTRdb: Mappatura delle regioni UTR nei genomi eucariotici Integrazione con le banche dati proteiche Inserimento di nuove collezioni UTR Sviluppo, integrazione e incremento del numero dei segnali nella collezione UTRSite: collezione UTRSite: Collaborazione: Università di Milano Individuazione di nuovi segnali mediante applicazioni di algoritmi di text e data mining Collaborazione: Università di Milano, IBM Semea Sud Sviluppo di un sistema di annotazione automatica
CNR - ITB, Bari section (Italy) – BioInformatics and GenomicsATTIVITA’ Sviluppo e Mantenimento Banche Dati Banca dati di microorganismi finalizzata alla gestione del rischio biologico Problematica La gestione del rischio biologico rappresenta un problema attuale e complesso che comporta situazioni particolari quali: Infezione di nuovi agenti (SARS, HIV..) Infezioni nosocomiali Tossinfezioni alimentari Obiettivo Realizzare un sistema integrato tra la banca dati di microrganismi e programmi di analisi per identificare specifiche sequenze Marker per la tipizzazione Collaborazioni Collaborazioni: IUSM – Roma CASPUR
CNR - ITB, Bari section (Italy) – BioInformatics and GenomicsATTIVITA’ Sviluppo e Mantenimento Banche Dati Banche Dati Mitocondriali Domenica D’Elia
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics MitoRes: colleziona dati di biosequenze relative a geni nucleari che codificano per fattori coinvolti nella biogenesi e funzionalità del mitocondrio nei metazoi MitoDrome: annota e compara geni e relativi prodotti del sistema OXPHOS nei genomi di D. melanogaster, D. pseudoobscura, A. gambiae MitoRes & MitoDrome2 Banche dati mitocondriali
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics Sviluppo di metodologie avanzate di “text mining” e “data retrieval”: associazione di dati bibliografici estrazione e annotazione di relazioni funzionali di geni e proteine e correlazione con disfunzioni patologiche associazione di dati di espressione Collaborazione: IBM Sviluppo e integrazione di workflows automatizzati ad alta performanza: annotazione di proprietà strutturali e funzionali delle biosequenze Collaborazione: IBM Sviluppo di metodologie avanzate di clustering delle biosequenze: caratteristiche di struttura primaria e secondaria pattern di espressione (tessuto-specificità, fasi dello sviluppo, ciclo cellulare, stati patologici) Collaborazione: da definire ATTIVITA’
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics Banca Dati p53/p63/p73 TAG e Analisi dei dati ATTIVITA’ Sviluppo e Mantenimento Banche Dati Elisabetta Sbisà
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics TA Pro BDTet RD p53 p73 p73 p73 p73 TA p63 p63 p63 N p63 p73 p63 p63 p73 SAM N p73 Famiglia genica di p53
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics p53, p73, p63 p53 p73 Ruolo di p53, p63, p73 nel ciclo cellulare Ruolo di p53, p63, p73 nel ciclo cellulare
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics Pathway di p53
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics p53/p63/p73 TAG database Caratterizzazione e clustering dei dati di microarray Selezione“In silico” dei geni target della famiglia di p53 Disegno sperimentale T-rex 293 isogenic Cell Lines Over-expression Microarray PuPuPuC(A/T)(A/T)GPyPyPy DNAFan in Ensembl Metodologie di analisi
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics Metodologie per l’analisi dei dati Ottimizzazione della consensus basata sui dati di espressione Identificazione di elementi regolatori condivisi da geni con lo stesso pattern di espressione Identificazione di elementi regolatori condivisi da geni con lo stesso pattern di espressione Metodi computazionali per l’identificazione di framework comuni nei promotori Metodi computazionali per l’identificazione di framework comuni nei promotori Metodi computazionali per l’identificazione di sequenze conservate nelle regioni non codificanti Metodi computazionali per l’identificazione di sequenze conservate nelle regioni non codificanti Identificazione di pattern statisticamente over-rappresentati Identificazione di pattern statisticamente over-rappresentati
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics La Piattaforma Bioinformatica: analisi e verifica Vito Flavio Licciulli
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics La Piattaforma Bioinformatica: analisi e verifica Front-end unico: un Portale per l’accesso ed utilizzo integrato delle risorse bioinformatiche Ambiente utente per la gestione di risultati e dati personali Risorse distribuite su “griglie computazionali” Esecuzione di programmi su calcolatori ad elevata efficienza computazionale ( High Performance Computing ) Esecuzione di diversi processi contemporaneamente con una elevata mole di dati da elaborare ( High Throughput Computing ) Workflow personalizzabili Ambiente collaborativo
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics EMBL, Refseq, Uniprot,... ~370 Gb Ensembl ~160 Gb Indici ~180 Gb EMBL, Refseq, Uniprot,... ~370 Gb Ensembl ~160 Gb Indici ~180 Gb x 2 Spazio Disco spazio tempo di elaborazione non omogeneo spazio tempo di elaborazione non omogeneoIndicizzazione (SRS, Emboss, BLAST) Indicizzazione File testo (flat-file, XML) Relazionale (MySQL) File testo (flat-file, XML) Relazionale (MySQL)TipologiaTipologia Banche Dati Pubbliche e Specializzate (gestione, fruibilità,...) AggiornamentoAggiornamento reperimento frequenza instabilità di struttura reperimento frequenza instabilità di struttura
CNR - ITB, Bari section (Italy) – BioInformatics and Genomics Collegamento tra i programmi di analisi e i dati biologici Collegamento tra i programmi di analisi e i dati biologici Accesso diretto file di testo Accesso diretto file di testo Indici EMBOSS, SRS, BLAST Indici EMBOSS, SRS, BLAST Accesso a DBMS mediante APIs Accesso a DBMS mediante APIs Ottimizzazione delle performance (HPC, HTC) Ottimizzazione delle performance (HPC, HTC) Differenti formati dei dati in input/output (fasta,embl,xml,…) Differenti formati dei dati in input/output (fasta,embl,xml,…) Ambiente web per la fruizione dei programmi Ambiente web per la fruizione dei programmi Job scheduling con meccanismi di autenticazione e controllo degli accessi Job scheduling con meccanismi di autenticazione e controllo degli accessi Integrazione dei Software di Analisi nella piattaforma