Metodi basati sulle similitudini per dedurre la funzione di un gene

Slides:



Advertisements
Presentazioni simili
Le trasformazioni.
Advertisements

Geni costitutivi e non costitutivi
Il ruolo sociale.
Caratteristiche dei viventi.
IL PROGETTO GENOMA UMANO (HGP)
Regolazione dell’espressione genica
GENI HOX Solo in questi ultimissimi anni le indagini filogenetiche molecolari hanno avuto come oggetto i geni Hox. Questi ultimi, presenti in tutti i Metazoi,
GENE: segmento di DNA che trasporta l’informazione per un determinato
Cinetica chimica Cinetica e termodinamica Velocità di reazione
RICERCA DI SIMILARITA’ IN BANCHE DATI
DEFINIZIONE DI LIMITE Il concetto di limite esprime, attraverso un complesso formalismo matematico, una forte relazione tra due ambienti, dominio e codominio,
DEFINIZIONE DI LIMITE Il concetto di limite esprime, attraverso un complesso formalismo matematico, una forte relazione tra due ambienti, dominio e codominio,
Le proteine: come sono fatte, come funzionano, e come si sono evolute
BASI DI DATI BIOLOGICHE - 3
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Corso di ingegneria genetica
Sistemi basati su conoscenza Conoscenza e ragionamento Prof. M.T. PAZIENZA a.a
TRASCRIZIONE del DNA.
LICEO SCIENTIFICO STATALE “LEONARDO da VINCI” di FIRENZE
Velocità media Abbiamo definito la velocità vettoriale media.
G.M. - Informatica B-Automazione 2002/03 Funzione Indica una relazione o corrispondenza tra due o più insiemi che soddisfa ad alcune proprietà. Il dominio.
Verifica della espressione dei geni predetti Al fine di verificare che i geni predetti siano effettivamente trascritti si può fare una ricerca in banca.
Ricerca della Legge di Controllo
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
Modelli simulativi per le Scienze Cognitive
Introduzione alla bioinformatica
STUDIO FUNZIONALE DI UNA PROTEINA ATTRAVERSO
Il controllo dell’espressione genica nei procarioti
Compattamento del DNA nei cromosomi
Studio funzioni Premesse Campo esistenza Derivate Limiti Definizione di funzione Considerazioni preliminari Funzioni crescenti, decrescenti Massimi,
Chomsky La grammatica/sintassi è una proprietà della mente Distinta dalla capacità di comunicare E una facoltà autonoma ed innata La comunicazione è solo.
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Il Cerca – costellazioni
È stimato che oggi sulla terra sono presenti
La Candidosi L’infezione da candida è provocata dal lievito Candida albicans che è un parassita unicellulare appartenente al regno dei funghi. Candida.
MALDI BioTyper Arintha Biotech 2010/06.
Gli organismi viventi:
Non è importante imparare a fare qualcosa
Ricerca di similarità di sequenza (FASTA e BLAST)
Alcuni esempi di domande di esame
La regolazione dell’espressione genica
La vita in codice Prof.ssa Carmela Allocca.
Sessione live Testing. Esercizio Quesito 1 Soluzione 1.
Dip. Scienze Biomolecolari e Biotecnologie
Intelligenza artificiale un assaggio. Il problema di criptoaritmentica è stato risolto Il campo del problema è stato descritto fatti regole questioni.
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
LICEO DELLE SCIENZE UMANE 4°A Anastasia Dino Francesca Roberta
La ricorsione.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Allineamento di sequenze
POSTGENOMICA O GENOMICA FUNZIONALE
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Capacità di riprodursi struttura nucleo DNA, RNA Membrana semipermeabile Parete cell organelli metabolismo Scambi energia e materia vegetale animale unicellulare.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
La riproduzione cellulare La produzione di nuove cellule avviene in continuazione ed è necessaria per generare nuovi organismi, per la crescita di un organismo,
Genetica ricombinante nei batteri
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
PARAGONE CON I RISULTATI SPERIMENTALI Dobbiamo correlare i parametri  ed s con variabili sperimentali. Per fare questo assumiamo che la costante di equilibrio.
Transcript della presentazione:

Metodi basati sulle similitudini per dedurre la funzione di un gene La conclusione del progetto ‘Genoma Umano’ ha identificato molti potenziali geni ma capire la funzione di ognuno di essi per via sperimentale è lungo e costoso. Una volta si diceva ‘un gene una carriera’ e questo indica quanto fosse ‘dispendiosa’ la caratterizzazione di un gene. Oggi sulla base delle conoscenze dei geni caratterizzati sperimentalmente e con l’aiuto dell’informatica, si vorrebbe dedurre la funzione di un gene a partire dalla sua sequenza.

metodi Caratterizzazione dalla letteratura Similarità di sequenza Vicinanza e lontananza Similarità di struttura Riconoscimento di interazioni tra moduli peptidici Profili filogenetici Conservazione della posizione nel cromosoma Sequenze caratteristiche correlate Fusione genica Annotazione funzionale transitiva Raggruppamento dei dati di microarray Imputazione per associazione

Il principio di questo metodo è: Conoscendo un gene (sequenza e funzione) posso ipotizzare che quelli con sequenza simile avranno funzione simile. Per ricercare le omologie si usano programmi di allineamento, questi possono operare in due modi: 1. cercando l’allineamento globale, cioè tra tutta la sequenza dei due geni 2. cercando il miglior allineamento locale atgacagttgctggaattcaaaacccgaactttcggaattgttaa ____atgtagcgagatccaagaaccgttctatcctttatgcagacgatttacagaactag atgacagttgctggaattcaaaacccgaactttcggaattgttaa _______________atgccgttcgaattgattcggaattgttagaacttctag Purtroppo non si sa qual è la minima soglia di similarità di sequenza per poter ipotizzare una similarità funzionale

Un altro metodo cerca similitudini nella struttura tridimensionale delle proteine prodotte dai due geni oggetto di confronto La ricerca delle similitudini avviene secondo due criteri: 1. si confrontano le distanze intermolecolari tra gli amminoacidi della proteina 2. si considerano le due proteine come corpi rigidi e si cerca di sovrapporle prima globalmente poi localmente struttura 3D della proteina Sequenza del gene funzione della proteina

RMS è il parametro da minimizzare (root mean square)

Al termine dell’allineamento abbiamo due o più parametri che descrivono la similarità strutturale delle proteine da punti di vista diversi. Noi dobbiamo attribuire un peso a ciascun parametro e decidere la soglia minima di similitudine oltre la quale ipotizzare una similarità funzionale. La struttura tridimensionale della proteina dei due geni deve essere nota (per via sperimentale e non predetta da programmi di protein folding). Le strutture predette hanno un grado di incertezza non trascurabile. Purtroppo a volte un’elevata omologia di struttura non implica un’omologia funzionale, es. la famiglia dei geni della serpina ha domini funzionali relativamente conservati ma funzioni biologiche molto diverse.

Un tipo di approccio è quello di confrontare l’intero insieme di geni di un organismo con quello di altri organismi. Il principio è che geni con funzioni correlate (ad esempio per la stessa funzione metabolica) sono comparsi nel genoma di diverse specie nello stesso periodo. Questi gruppi di geni tenderanno a evolvere in maniera simile. Si cerca di correlare la presenza o l’assenza di geni omologhi tra specie: un’alta correlazione implica che i geni sono associati nella funzione. Es. ci si aspetta di trovare proteine flagellari in quei batteri che posseggono flagelli e non in altri organismi, Con questo metodo si è visto che almeno in alcuni casi, geni con funzioni simili si trovano in posizioni relativamente vicine

Un altro approccio si rifà al funzionamento degli operoni nei procarioti, il principio è che geni di organismi diversi che si trovano nella stessa posizione del cromosoma, possano avere funzione simile. Questo metodo è valido solo per i procarioti e per gli archea.

Il metodo della fusione genica si riconduce all’osservazione che certe proteine in una specie corrispondono a più proteine singole in un’altra specie. Si presume che queste proteine singole svolgano insieme la funzione della proteina di maggior lunghezza

Il metodo del raggrupamento dei geni da dati di microarray raggruppa geni che sono co-espressi in diversi tessuti e condizioni, i geni di uno stesso gruppo potrebbero svolgere la stessa funzione. In generale questa supposizione è vera quanto più i gruppi sono composti da un minor numero di elementi.

Il metodo dell’imputazione per associazione è simile al precedente metodo (microarray) ma utilizza i dati delle sequenze EST e non tiene conto del livello di espressione ma solo della presenza o meno di un trascritto Il metodo dell’annotazione funzionale transitiva tiene conto che geni con funzione simile potrebbero non avere lo stesso profilo di espressione, ad esempio perché vengono espressi con un certo ritardo uno dall’altro o non sono sensibili a perturbazioni molto piccole. Con questo metodo si possono individuare i geni la cui espressione non è direttamente correlata ma è correlata attraverso altri geni a b a c b c

Il metodo delle sequenze caratteristiche correlate si basa sul fatto che se c’è un’interazione fisica tra una proteina conosciuta e una non conosciuta, quest’ultima potrebbe avere una funzione correlata alla prima. La predizione di queste interazioni viene fatta individuando sequenze caratteristiche delle sequenze proteiche, che compaiono nelle interazioni note. Si conoscono queste sequenze caratteristiche in numero limitato e si devono fare i conti con non pochi falsi positive e falsi negativi. Si legge per righe, ogni riga è l’interazione tra due proteine

Il metodo della vicinanza e della lontananza si basa sull’estrazione della conoscenza contenuta in letteratura. Un programma estrae dalle banche dati tutti gli articoli che descrivono due geni. Mediante un confronto intelligente tra le parole degli articoli (tecniche di processamento del linguaggio e della semantica) si può determinare la vicinanza tra essi. Il principio è che se due geni hanno funzioni comuni allora gli articoli che descrivono queste funzioni useranno una semantica simile cioè saranno vicini dal punto di vista del linguaggio.

L’approcio della caratterizzazione della letteratura è molto simile al precedente ma qui si considerano i singoli termini presenti negli articoli

Questi metodi forniscono solo una potenziale relazione tra geni ma è comunque un punto di partenza che indica tra quali elementi iniziare a cercare una funzione comune i risultati sono dipendenti dal metodo e dalla bontà dei dati di partenza manca un metodo generale da considerare come riferimento per valutare gli altri approcci spesso si usano più metodi con gli stessi dati di partenza ma i risultati non coincidono, quindi possiamo essere di fronte a falsi positivi o a falsi negativi è positivo che in questi approcci si integrino i dati provenienti dalla genomica e dalla proteomica, due settori spesso complementari della bioinformatica in questo campo la ricerca è aperta