Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo si chiama CLUSTALW. Da un allineamento multiplo posso derivare molte informazioni. In particolare mi può aiutare a fare una predizione di struttura secondaria, a dire quali sono gli aminoacidi essenziali per tutta la famiglia, a dire quali sono gli aminoacidi che conferiscono particolari caratteristiche, a identificare particolari domini funzionali.
CLUSTALW
Allineamento multiplo generato dal programma CLUSTALW ATA --------SSGGYRKGVTEAKLKVAINGFGRIGRNFLRCWHGRKDSPLDIIAIND-TGGV 99 ATB AQIIPKAVTTSTPVRGETVAKLKVAINGFGRIGRNFLRCWHGRKDSPLEVVVLND-SGGV 119 HS ----------------MG--KVKVGVNGFGRIGRLVTRAAF--NSGKVDIVAINDPFIDL 40 MM --------------------MVKVGVNGFGRIGRLVTRAAI--CSGKVEIVAINDPFIDL 38 XL --------------------MVKVGINGFGCIGRLVTRAAF--DSGKVQVVAINDPFIDL 38 DM --------------------MSKIGINGFGRIGRLVLRAAI--DKG-ANVVAVNDPFIDV 37 CE ----------------MS--KANVGINGFGRIGRLVLRAAV--EKDTVQVVAVNDPFITI 40 SP ----------------MA--IPKVGINGFGRIGRIVLRNAI--LTGKIQVVAVNDPFIDL 40 ATC ----------------MADKKIRIGINGFGRIGRLVARVVL--QRDDVELVAVNDPFITT 42 OS ----------------MG--KIKIGINGFGRIGRLVARVAL--QSEDVELVAVNDPFITT 40 SC --------------------MVRVAINGFGRIGRLVMRIAL--SRPNVEVVALNDPFITN 38 ECA -------------------MTIKVGINGFGRIGRIVFRAAQ--KRSDIEIVAIND-LLDA 38 HI -------------------MAIKIGINGFGRIGRIVFRAAQ--HRDDIEVVGIND-LIDV 38 ECC --------------------MSKVGINGFGRIGRLVLRRLL-EVKSNIDVVAIND-LTSP 38 .:.:**** *** . * ::: :**. ATA KQASHLLKYDSTLGIFDADVKPSGETAISVD-----GKIIQVVSNRNPSLLPWKELGIDI 154 ATB KNASHLLKYDSMLGTFKAEVKIVDNETISVD-----GKLIKVVSNRDPLKLPWAELGIDI 174 HS NYMVYMFQYDSTHGKFHG-TVKAENGKLVIN-----GNPITIFQERDPSKIKWGDAGAEY 94 MM NYMVYMFQYDSTHGKFNG-TVKAENGKLVIN-----GKPITIFQERDPTNIKWGEAGAEY 92 XL DYMVYMFKYDSTHGRFKG-TVKAENGKLIIN-----DQVITVFQERDPSSIKWGDAGAVY 92 DM NYMVYLFKFDSTHGRFKG-TVAAEGGFLVVN-----GQKITVFSERDPANINWASAGAEY 91 CE DYMVYLFKYDSTHGQFKG-TVTYDGDFLIVQKDGKSSHKIKVFNSKDPAAIAWGSVKADF 99 SP DYMAYMFKYDSTHGRFEG-SVETKGGKLVID-----GHSIDVHNERDPANIKWSASGAEY 94 ATC EYMTYMFKYDSVHGQWKHNELKIKDEKTLLFG----EKPVTVFGIRNPEDIPWAEAGADY 98 OS DYMTYMFKYDTVHGQWKHSDIKIKDSKTLLLG----EKPVTVFGIRNPDEIPWAEAGAEY 96 SC DYAAYMFKYDSTHGRYAG-EVSHDDKHIIVD-----GKKIATYQERDPANLPWGSSNVDI 92 ECA DYMAYMLKYDSTHGRFDG-TVEVKDGHLIVN-----GKKIRVTAERDPANLKWDEVGVDV 92 HI EYMAYMLKYDSTHGRFDG-TVEVKDGNLVVN-----GKTIRVTAERDPANLNWGAIGVDI 92 ECC KILAYLLKHDSNYGPFPW-SVDFTEDSLIVD-----GKSIAVYAEKEAKNIPWKAKGAEI 92 . ::::.*: * : : : : ::. : *
Esercizio 1 Utilizzando il programma CLUSTALW, generare un allineamento multiplo delle sequenze contenute nel file GAPDH.TXT ftp://ftp.ebi.ac.uk/pub/software/dos/clustalw/ http://www.ebi.ac.uk/clustalw/ Esercizio 2 Visualizzare i risultati con il programma Jalview: http://www.ebi.ac.uk/~michele/jalview/contents.html
Caratteristiche di famiglie di proteine derivabili da allineamenti multipli: Profilo= rappresentazione numerica dell’allineamento che valuta: Quali residui sono presenti in ogni posizione e con quale frequenza. Presenza di residui assolutamente conservati. Presenza di eventuali gap. Dagli allineamenti multipli si possono costruire delle position-specific scoring tables (PSST), che riflettono la probabilità di trovare un certo aminoacido in ogni posizione.
[IV]-G-x-G-T-[LIVMF]-x(2)-[GS] Caratteristiche di famiglie di proteine derivabili da allineamenti multipli: Pattern= rappresentazione dell’allineamento che valuta unicamente la presenza di determinati residui per ogni posizione. [IV]-G-x-G-T-[LIVMF]-x(2)-[GS] Motivo= sequenza conservata di aminoacidi che conferisce una specifica funzione o struttura. Blocco= regione conservata di un allineamento multiplo priva di gaps.
Position Specific Iterated BLAST (PSI-BLAST) Esercizio 3 Utilizzando la sequenza: ILIGTNKFYEIDMKQYTLDEFLDKNDHSLAPAVFASSSNSFPVSIVQANSAGQREEYLLCFHEFGVFVDSYGRRSRTDDLKWSRLPLAFAYREPYLFVTHFNSLEVIEIQARSSLGSPARAYLEIPNPRYL Eseguire cicli multipli di ricerca con PSI blast su database NR.
Position Specific Iterated BLAST (PSI-BLAST) Esercizio 4 Utilizzando la PSSM ottenuta dopo l’iterazione n. 3 fare una ricerca nel database di Drosophila per valutare quante proteine possiedono lo stesso dominio.
Analisi di domini conservati PFAM: database di allineamenti multipli e HMMs http://pfam.wustl.edu/ http://www.sanger.ac.uk/Software/Pfam/ ProfileScan: http://hits.isb-sib.ch/cgi-bin/PFSCAN HMMER: costruzione di HMMs e ricerca di database http://hmmer.wustl.edu/ BLOCKS: http://blocks.fhcrc.org/ CDD search: http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
Analisi di domini conservati Esercizio 6 Utilizzando la sequenza della proteina contenuta nel file MRCKaa.txt, eseguire delle ricerche con i programi presentati nella precedente diapositiva.
Analisi filogenetica Branca della bioinformatica che studia le relazioni evolutive tra le sequenze geniche dei diversi organismi
Modelli di evoluzione Evoluzione divergente Specie ancestrale Sequenze ortologhe B C B C Specie derivata 1 Specie derivata 2
Modelli di evoluzione Evoluzione convergente Specie ancestrali Gene A e A’ non omologhi A A’ Sequenze omologhe B C B C Specie derivata 1 Specie derivata 2
Modelli di evoluzione Trasferimento orizzontale D’ D D’’ B E’ E A E’’ C F’’ G’E’’’ G
Distanza tra le sequenze Molti metodi per l’analisi filogenetica si basano sul calcolo di una distanza tra le sequenze analizzate. La distanza è proporzionale al numero di differenze osservate nell’allineamento delle sequenze. Tuttavia….
Durante l’evoluzione divergente il numero di sostituzioni nucleotidiche è sempre maggiore delle differenze osservate
Assunzione del modello di Jukes e Cantor per la stima delle distanze tra sequenze nucleotidiche Tutti i siti si evolvono in maniera indipendente Tutti i siti possono mutare con la stessa probabilità Tutti i tipi di sostituzione sono ugualmente probabili La composizione in basi delle sequenze è all’equilibrio La velocità di sostituzione è costante nel tempo Kimura: diversa probabilità per transizioni e transversioni. Altri modelli più complessi in cui bisogna stimare un elevato numero di parametri, che tine conto della diversa composizione in basi delle sequenze analizzate
Concetto di orologio molecolare Se la velocità di sostituzione è costante nel tempo la distanza tra le sequenze ortologhe di diversi organismi può essere utilizzata per definire da quanto tempo le specie in esame si sono separate, e per chiarire i rapporti evolutivi tra diversi organismi. L’analisi dei genomi ha evidenziato che l’orologio molecolare non è molto affidabile, perché le sequenze si evolvono con velocità diversa tra organismi diversi, ma anche all’interno dello stesso organismo. Questo concetto va pertanto usato con molta cautela!!
Stima delle distanze tra sequenze aminoacidiche Kimura: Metodo più semplice, formula empirica d = -ln (1 – p – 0,2p2 ) p = frazione di aminoacidi diversi Altri modelli più complessi basati sull’utilizzo delle matrici di sostituzione PAM e BLOSUM
Alberi filogenetici Le relazioni filogenetiche possono essere rappresentate per mezzo di alberi filogenetici: Grafi costituiti da nodi e da rami (edges) Ogni edge mette in relazione solo due nodi Nodi interni e nodi terminali
Diversi tipi di alberi filogenetici Cladogrammi: alberi che descrivono solo le relazioni filogenetiche tra i vari nodi. La lunghezza degli edges non ha alcun significato Filogrammi: alberi in cui la lunghezza dei rami è proporzionale alla distanza evolutiva Alberi con radice e senza radice. La radice rappresenta il gene ancestrale da cui tutti gli altri derivano. La definizione della radice comporta problemi particolari. A questo scopo può essere utile ricorrere ad un outgroup, ossia ad una sequenza che ha iniziato sicuramente a divergere dal precursore ancestrale prima che tutte le altre sequenze hanno iniziato a divergere tra loro.
Diversi tipi di alberi filogenetici
Alberi ultrametrici: quale è la specie più evoluta? Basato su algoritmo UPGMA, che impone l’assunzione dell’orologio molecolare
Metodi per la costruzione di alberi filogenetici Basati sulla distanza: UPGMA A B 0.02 0.04 B A C D
Metodi per la costruzione di alberi filogenetici Basati sulla distanza: UPGMA A B 0.02 AB C D 0.03 C 0.06 D
Metodi per la costruzione di alberi filogenetici Basati sulla distanza: UPGMA X+w = y+z X+y = 1 A B 0.02 C D 0.03 0.055 0.045 AB w x 0.1 CD y z
Metodi per la costruzione di alberi filogenetici Basati sulla distanza: Neighbor Joining
Metodi per la costruzione di alberi filogenetici Basati sulla analisi di tutti gli alberi possibili (2n – 3)! NR= 2n–2 (n-2)! (2n – 5)! NU= 2n–3 (n-3)!
Metodi per la costruzione di alberi filogenetici Basati sulla analisi di tutti gli alberi possibili: maximum parsimony
Valutazione statistica del risultato: Bootstrap