Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.

Slides:



Advertisements
Presentazioni simili
Premessa: si assume di aver risolto (correttamente
Advertisements

Allineamento Pairwise e Multiplo di Bio-Sequenze.
STATISTICA DESCRITTIVA
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
D = coefficiente di diffusione
GENI HOX Solo in questi ultimissimi anni le indagini filogenetiche molecolari hanno avuto come oggetto i geni Hox. Questi ultimi, presenti in tutti i Metazoi,
Sequenza-struttura-funzione
gruppi di amminoacidi in base alle catene laterali
RICERCA DI SIMILARITA’ IN BANCHE DATI
Allineamento di sequenze
Pattern di sostituzione
Hash Tables Indirizzamento diretto Tabelle Hash Risoluzioni di collisioni Indirizzamento aperto.
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.
Migliore Punteggio Lunghezza della sequenza Grandezza banca dati
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Introduzione alla bioinformatica
Metodi basati sulle similitudini per dedurre la funzione di un gene
Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re p5p5 UPGMA C.d.l.
Biologia computazionale
Biologia computazionale
Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re 6 Evoluzione e filogenesi.
1) Algoritmi di allineamento 2) Algoritmi di ricerca in database
Bioinformatica Andrea G. B. Tettamanzi.
(Neighbour-Joining Method)
La diversità è un aspetto caratteristico della vita:
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Analisi della struttura primaria delle proteine
Allineamenti multipli
Software per la Bioinformatica
Filogenesi molecolare
Informatica e Bioinformatica – A. A
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
Ricerca di similarità di sequenza (FASTA e BLAST)
Tipi di allineamenti.
I programmi di ricerca in banche dati possono essere
Alcuni esempi di domande di esame
Natura della variabilità genetica
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Ricombinazione genetica
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Il residuo nella predizione
Martina Serafini Martina Prandi
A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.
Purtroppo non esiste un modo univoco per indicare un gene
Esercizi (attrito trascurabile)
Pseudogeni = geni non funzionali
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
WORKING WITH BIOSEQUENCES Alignments and similarity search.
Allineamento di sequenze
ALLINEAMENTO DI SEQUENZE
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Annotazione strutturale dei genomi
FINCH TV visualizzare cromatogrammi esportare sequenze in formato FASTA.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Concetti di base. Per biodiversità si intende l'insieme di tutte le forme viventi geneticamente diverse e degli ecosistemi ad esse correlati Il termine.
Ottimizzazione dei terreni di coltura Metodi statistici.
4. Controllo Giulio Vidotto Raffaele Cioffi. Indice: 4.1 Strategie generali 4.2 Strategie specifiche 4.3 Ripetizione 4.4 Metodi per aumentare la validità.
Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:
Clonaggio funzionale Clonaggio posizionale Conoscenza proteina Malattia genetica Determinazione sequenza amminoac.Mappatura genetica con marcatori polimorfici.
Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Transcript della presentazione:

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo si chiama CLUSTALW. Da un allineamento multiplo posso derivare molte informazioni. In particolare mi può aiutare a fare una predizione di struttura secondaria, a dire quali sono gli aminoacidi essenziali per tutta la famiglia, a dire quali sono gli aminoacidi che conferiscono particolari caratteristiche, a identificare particolari domini funzionali.

CLUSTALW

Allineamento multiplo generato dal programma CLUSTALW ATA --------SSGGYRKGVTEAKLKVAINGFGRIGRNFLRCWHGRKDSPLDIIAIND-TGGV 99 ATB AQIIPKAVTTSTPVRGETVAKLKVAINGFGRIGRNFLRCWHGRKDSPLEVVVLND-SGGV 119 HS ----------------MG--KVKVGVNGFGRIGRLVTRAAF--NSGKVDIVAINDPFIDL 40 MM --------------------MVKVGVNGFGRIGRLVTRAAI--CSGKVEIVAINDPFIDL 38 XL --------------------MVKVGINGFGCIGRLVTRAAF--DSGKVQVVAINDPFIDL 38 DM --------------------MSKIGINGFGRIGRLVLRAAI--DKG-ANVVAVNDPFIDV 37 CE ----------------MS--KANVGINGFGRIGRLVLRAAV--EKDTVQVVAVNDPFITI 40 SP ----------------MA--IPKVGINGFGRIGRIVLRNAI--LTGKIQVVAVNDPFIDL 40 ATC ----------------MADKKIRIGINGFGRIGRLVARVVL--QRDDVELVAVNDPFITT 42 OS ----------------MG--KIKIGINGFGRIGRLVARVAL--QSEDVELVAVNDPFITT 40 SC --------------------MVRVAINGFGRIGRLVMRIAL--SRPNVEVVALNDPFITN 38 ECA -------------------MTIKVGINGFGRIGRIVFRAAQ--KRSDIEIVAIND-LLDA 38 HI -------------------MAIKIGINGFGRIGRIVFRAAQ--HRDDIEVVGIND-LIDV 38 ECC --------------------MSKVGINGFGRIGRLVLRRLL-EVKSNIDVVAIND-LTSP 38 .:.:**** *** . * ::: :**.   ATA KQASHLLKYDSTLGIFDADVKPSGETAISVD-----GKIIQVVSNRNPSLLPWKELGIDI 154 ATB KNASHLLKYDSMLGTFKAEVKIVDNETISVD-----GKLIKVVSNRDPLKLPWAELGIDI 174 HS NYMVYMFQYDSTHGKFHG-TVKAENGKLVIN-----GNPITIFQERDPSKIKWGDAGAEY 94 MM NYMVYMFQYDSTHGKFNG-TVKAENGKLVIN-----GKPITIFQERDPTNIKWGEAGAEY 92 XL DYMVYMFKYDSTHGRFKG-TVKAENGKLIIN-----DQVITVFQERDPSSIKWGDAGAVY 92 DM NYMVYLFKFDSTHGRFKG-TVAAEGGFLVVN-----GQKITVFSERDPANINWASAGAEY 91 CE DYMVYLFKYDSTHGQFKG-TVTYDGDFLIVQKDGKSSHKIKVFNSKDPAAIAWGSVKADF 99 SP DYMAYMFKYDSTHGRFEG-SVETKGGKLVID-----GHSIDVHNERDPANIKWSASGAEY 94 ATC EYMTYMFKYDSVHGQWKHNELKIKDEKTLLFG----EKPVTVFGIRNPEDIPWAEAGADY 98 OS DYMTYMFKYDTVHGQWKHSDIKIKDSKTLLLG----EKPVTVFGIRNPDEIPWAEAGAEY 96 SC DYAAYMFKYDSTHGRYAG-EVSHDDKHIIVD-----GKKIATYQERDPANLPWGSSNVDI 92 ECA DYMAYMLKYDSTHGRFDG-TVEVKDGHLIVN-----GKKIRVTAERDPANLKWDEVGVDV 92 HI EYMAYMLKYDSTHGRFDG-TVEVKDGNLVVN-----GKTIRVTAERDPANLNWGAIGVDI 92 ECC KILAYLLKHDSNYGPFPW-SVDFTEDSLIVD-----GKSIAVYAEKEAKNIPWKAKGAEI 92 . ::::.*: * : : : : ::. : *

Esercizio 1 Utilizzando il programma CLUSTALW, generare un allineamento multiplo delle sequenze contenute nel file GAPDH.TXT ftp://ftp.ebi.ac.uk/pub/software/dos/clustalw/ http://www.ebi.ac.uk/clustalw/ Esercizio 2 Visualizzare i risultati con il programma Jalview: http://www.ebi.ac.uk/~michele/jalview/contents.html

Caratteristiche di famiglie di proteine derivabili da allineamenti multipli: Profilo= rappresentazione numerica dell’allineamento che valuta: Quali residui sono presenti in ogni posizione e con quale frequenza. Presenza di residui assolutamente conservati. Presenza di eventuali gap. Dagli allineamenti multipli si possono costruire delle position-specific scoring tables (PSST), che riflettono la probabilità di trovare un certo aminoacido in ogni posizione.

[IV]-G-x-G-T-[LIVMF]-x(2)-[GS] Caratteristiche di famiglie di proteine derivabili da allineamenti multipli: Pattern= rappresentazione dell’allineamento che valuta unicamente la presenza di determinati residui per ogni posizione. [IV]-G-x-G-T-[LIVMF]-x(2)-[GS] Motivo= sequenza conservata di aminoacidi che conferisce una specifica funzione o struttura. Blocco= regione conservata di un allineamento multiplo priva di gaps.

Position Specific Iterated BLAST (PSI-BLAST) Esercizio 3 Utilizzando la sequenza: ILIGTNKFYEIDMKQYTLDEFLDKNDHSLAPAVFASSSNSFPVSIVQANSAGQREEYLLCFHEFGVFVDSYGRRSRTDDLKWSRLPLAFAYREPYLFVTHFNSLEVIEIQARSSLGSPARAYLEIPNPRYL Eseguire cicli multipli di ricerca con PSI blast su database NR.

Position Specific Iterated BLAST (PSI-BLAST) Esercizio 4 Utilizzando la PSSM ottenuta dopo l’iterazione n. 3 fare una ricerca nel database di Drosophila per valutare quante proteine possiedono lo stesso dominio.

Analisi di domini conservati PFAM: database di allineamenti multipli e HMMs http://pfam.wustl.edu/ http://www.sanger.ac.uk/Software/Pfam/ ProfileScan: http://hits.isb-sib.ch/cgi-bin/PFSCAN HMMER: costruzione di HMMs e ricerca di database http://hmmer.wustl.edu/ BLOCKS: http://blocks.fhcrc.org/ CDD search: http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

Analisi di domini conservati Esercizio 6 Utilizzando la sequenza della proteina contenuta nel file MRCKaa.txt, eseguire delle ricerche con i programi presentati nella precedente diapositiva.

                                                                                          

Analisi filogenetica Branca della bioinformatica che studia le relazioni evolutive tra le sequenze geniche dei diversi organismi

Modelli di evoluzione Evoluzione divergente Specie ancestrale Sequenze ortologhe B C B C Specie derivata 1 Specie derivata 2

Modelli di evoluzione Evoluzione convergente Specie ancestrali Gene A e A’ non omologhi A A’ Sequenze omologhe B C B C Specie derivata 1 Specie derivata 2

Modelli di evoluzione Trasferimento orizzontale D’ D D’’ B E’ E A E’’ C F’’ G’E’’’ G

Distanza tra le sequenze Molti metodi per l’analisi filogenetica si basano sul calcolo di una distanza tra le sequenze analizzate. La distanza è proporzionale al numero di differenze osservate nell’allineamento delle sequenze. Tuttavia….

Durante l’evoluzione divergente il numero di sostituzioni nucleotidiche è sempre maggiore delle differenze osservate

Assunzione del modello di Jukes e Cantor per la stima delle distanze tra sequenze nucleotidiche Tutti i siti si evolvono in maniera indipendente Tutti i siti possono mutare con la stessa probabilità Tutti i tipi di sostituzione sono ugualmente probabili La composizione in basi delle sequenze è all’equilibrio La velocità di sostituzione è costante nel tempo Kimura: diversa probabilità per transizioni e transversioni. Altri modelli più complessi in cui bisogna stimare un elevato numero di parametri, che tine conto della diversa composizione in basi delle sequenze analizzate

Concetto di orologio molecolare Se la velocità di sostituzione è costante nel tempo la distanza tra le sequenze ortologhe di diversi organismi può essere utilizzata per definire da quanto tempo le specie in esame si sono separate, e per chiarire i rapporti evolutivi tra diversi organismi. L’analisi dei genomi ha evidenziato che l’orologio molecolare non è molto affidabile, perché le sequenze si evolvono con velocità diversa tra organismi diversi, ma anche all’interno dello stesso organismo. Questo concetto va pertanto usato con molta cautela!!

Stima delle distanze tra sequenze aminoacidiche Kimura: Metodo più semplice, formula empirica d = -ln (1 – p – 0,2p2 ) p = frazione di aminoacidi diversi Altri modelli più complessi basati sull’utilizzo delle matrici di sostituzione PAM e BLOSUM

Alberi filogenetici Le relazioni filogenetiche possono essere rappresentate per mezzo di alberi filogenetici: Grafi costituiti da nodi e da rami (edges) Ogni edge mette in relazione solo due nodi Nodi interni e nodi terminali

Diversi tipi di alberi filogenetici Cladogrammi: alberi che descrivono solo le relazioni filogenetiche tra i vari nodi. La lunghezza degli edges non ha alcun significato Filogrammi: alberi in cui la lunghezza dei rami è proporzionale alla distanza evolutiva Alberi con radice e senza radice. La radice rappresenta il gene ancestrale da cui tutti gli altri derivano. La definizione della radice comporta problemi particolari. A questo scopo può essere utile ricorrere ad un outgroup, ossia ad una sequenza che ha iniziato sicuramente a divergere dal precursore ancestrale prima che tutte le altre sequenze hanno iniziato a divergere tra loro.

Diversi tipi di alberi filogenetici

Alberi ultrametrici: quale è la specie più evoluta? Basato su algoritmo UPGMA, che impone l’assunzione dell’orologio molecolare

Metodi per la costruzione di alberi filogenetici Basati sulla distanza: UPGMA A B 0.02 0.04 B A C D

Metodi per la costruzione di alberi filogenetici Basati sulla distanza: UPGMA A B 0.02 AB C D 0.03 C 0.06 D

Metodi per la costruzione di alberi filogenetici Basati sulla distanza: UPGMA X+w = y+z X+y = 1 A B 0.02 C D 0.03 0.055 0.045 AB w x 0.1 CD y z

Metodi per la costruzione di alberi filogenetici Basati sulla distanza: Neighbor Joining

Metodi per la costruzione di alberi filogenetici Basati sulla analisi di tutti gli alberi possibili (2n – 3)! NR= 2n–2 (n-2)! (2n – 5)! NU= 2n–3 (n-3)!

Metodi per la costruzione di alberi filogenetici Basati sulla analisi di tutti gli alberi possibili: maximum parsimony

Valutazione statistica del risultato: Bootstrap