La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.

Presentazioni simili


Presentazione sul tema: "Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo."— Transcript della presentazione:

1 Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo si chiama CLUSTALW. Da un allineamento multiplo posso derivare molte informazioni. In particolare mi può aiutare a fare una predizione di struttura secondaria, a dire quali sono gli aminoacidi essenziali per tutta la famiglia, a dire quali sono gli aminoacidi che conferiscono particolari caratteristiche, a identificare particolari domini funzionali.

2 CLUSTALW

3 Allineamento multiplo generato dal programma CLUSTALW
ATA SSGGYRKGVTEAKLKVAINGFGRIGRNFLRCWHGRKDSPLDIIAIND-TGGV 99 ATB AQIIPKAVTTSTPVRGETVAKLKVAINGFGRIGRNFLRCWHGRKDSPLEVVVLND-SGGV 119 HS MG--KVKVGVNGFGRIGRLVTRAAF--NSGKVDIVAINDPFIDL 40 MM MVKVGVNGFGRIGRLVTRAAI--CSGKVEIVAINDPFIDL 38 XL MVKVGINGFGCIGRLVTRAAF--DSGKVQVVAINDPFIDL 38 DM MSKIGINGFGRIGRLVLRAAI--DKG-ANVVAVNDPFIDV 37 CE MS--KANVGINGFGRIGRLVLRAAV--EKDTVQVVAVNDPFITI 40 SP MA--IPKVGINGFGRIGRIVLRNAI--LTGKIQVVAVNDPFIDL 40 ATC MADKKIRIGINGFGRIGRLVARVVL--QRDDVELVAVNDPFITT 42 OS MG--KIKIGINGFGRIGRLVARVAL--QSEDVELVAVNDPFITT 40 SC MVRVAINGFGRIGRLVMRIAL--SRPNVEVVALNDPFITN 38 ECA MTIKVGINGFGRIGRIVFRAAQ--KRSDIEIVAIND-LLDA 38 HI MAIKIGINGFGRIGRIVFRAAQ--HRDDIEVVGIND-LIDV 38 ECC MSKVGINGFGRIGRLVLRRLL-EVKSNIDVVAIND-LTSP 38 .:.:**** *** . * ::: :**. ATA KQASHLLKYDSTLGIFDADVKPSGETAISVD-----GKIIQVVSNRNPSLLPWKELGIDI 154 ATB KNASHLLKYDSMLGTFKAEVKIVDNETISVD-----GKLIKVVSNRDPLKLPWAELGIDI 174 HS NYMVYMFQYDSTHGKFHG-TVKAENGKLVIN-----GNPITIFQERDPSKIKWGDAGAEY 94 MM NYMVYMFQYDSTHGKFNG-TVKAENGKLVIN-----GKPITIFQERDPTNIKWGEAGAEY 92 XL DYMVYMFKYDSTHGRFKG-TVKAENGKLIIN-----DQVITVFQERDPSSIKWGDAGAVY 92 DM NYMVYLFKFDSTHGRFKG-TVAAEGGFLVVN-----GQKITVFSERDPANINWASAGAEY 91 CE DYMVYLFKYDSTHGQFKG-TVTYDGDFLIVQKDGKSSHKIKVFNSKDPAAIAWGSVKADF 99 SP DYMAYMFKYDSTHGRFEG-SVETKGGKLVID-----GHSIDVHNERDPANIKWSASGAEY 94 ATC EYMTYMFKYDSVHGQWKHNELKIKDEKTLLFG----EKPVTVFGIRNPEDIPWAEAGADY 98 OS DYMTYMFKYDTVHGQWKHSDIKIKDSKTLLLG----EKPVTVFGIRNPDEIPWAEAGAEY 96 SC DYAAYMFKYDSTHGRYAG-EVSHDDKHIIVD-----GKKIATYQERDPANLPWGSSNVDI 92 ECA DYMAYMLKYDSTHGRFDG-TVEVKDGHLIVN-----GKKIRVTAERDPANLKWDEVGVDV 92 HI EYMAYMLKYDSTHGRFDG-TVEVKDGNLVVN-----GKTIRVTAERDPANLNWGAIGVDI 92 ECC KILAYLLKHDSNYGPFPW-SVDFTEDSLIVD-----GKSIAVYAEKEAKNIPWKAKGAEI 92 . ::::.*: * : : : : ::. : *

4 Esercizio 1 Utilizzando il programma CLUSTALW, generare un allineamento multiplo delle sequenze contenute nel file GAPDH.TXT ftp://ftp.ebi.ac.uk/pub/software/dos/clustalw/ Esercizio 2 Visualizzare i risultati con il programma Jalview:

5 Caratteristiche di famiglie di proteine derivabili
da allineamenti multipli: Profilo= rappresentazione numerica dell’allineamento che valuta: Quali residui sono presenti in ogni posizione e con quale frequenza. Presenza di residui assolutamente conservati. Presenza di eventuali gap. Dagli allineamenti multipli si possono costruire delle position-specific scoring tables (PSST), che riflettono la probabilità di trovare un certo aminoacido in ogni posizione.

6 [IV]-G-x-G-T-[LIVMF]-x(2)-[GS]
Caratteristiche di famiglie di proteine derivabili da allineamenti multipli: Pattern= rappresentazione dell’allineamento che valuta unicamente la presenza di determinati residui per ogni posizione. [IV]-G-x-G-T-[LIVMF]-x(2)-[GS] Motivo= sequenza conservata di aminoacidi che conferisce una specifica funzione o struttura. Blocco= regione conservata di un allineamento multiplo priva di gaps.

7 Position Specific Iterated BLAST (PSI-BLAST)
Esercizio 3 Utilizzando la sequenza: ILIGTNKFYEIDMKQYTLDEFLDKNDHSLAPAVFASSSNSFPVSIVQANSAGQREEYLLCFHEFGVFVDSYGRRSRTDDLKWSRLPLAFAYREPYLFVTHFNSLEVIEIQARSSLGSPARAYLEIPNPRYL Eseguire cicli multipli di ricerca con PSI blast su database NR.

8 Position Specific Iterated BLAST (PSI-BLAST)
Esercizio 4 Utilizzando la PSSM ottenuta dopo l’iterazione n. 3 fare una ricerca nel database di Drosophila per valutare quante proteine possiedono lo stesso dominio.

9 Analisi di domini conservati
PFAM: database di allineamenti multipli e HMMs ProfileScan: HMMER: costruzione di HMMs e ricerca di database BLOCKS: CDD search:

10 Analisi di domini conservati
Esercizio 6 Utilizzando la sequenza della proteina contenuta nel file MRCKaa.txt, eseguire delle ricerche con i programi presentati nella precedente diapositiva.

11                                                                                           

12 Analisi filogenetica Branca della bioinformatica che studia le relazioni evolutive tra le sequenze geniche dei diversi organismi

13 Modelli di evoluzione Evoluzione divergente Specie ancestrale
Sequenze ortologhe B C B C Specie derivata 1 Specie derivata 2

14 Modelli di evoluzione Evoluzione convergente Specie ancestrali
Gene A e A’ non omologhi A A’ Sequenze omologhe B C B C Specie derivata 1 Specie derivata 2

15 Modelli di evoluzione Trasferimento orizzontale D’ D D’’ B E’ E A E’’
C F’’ G’E’’’ G

16 Distanza tra le sequenze
Molti metodi per l’analisi filogenetica si basano sul calcolo di una distanza tra le sequenze analizzate. La distanza è proporzionale al numero di differenze osservate nell’allineamento delle sequenze. Tuttavia….

17 Durante l’evoluzione divergente il numero di sostituzioni nucleotidiche è sempre maggiore delle differenze osservate

18 Assunzione del modello di Jukes e Cantor per la stima delle distanze tra sequenze nucleotidiche
Tutti i siti si evolvono in maniera indipendente Tutti i siti possono mutare con la stessa probabilità Tutti i tipi di sostituzione sono ugualmente probabili La composizione in basi delle sequenze è all’equilibrio La velocità di sostituzione è costante nel tempo Kimura: diversa probabilità per transizioni e transversioni. Altri modelli più complessi in cui bisogna stimare un elevato numero di parametri, che tine conto della diversa composizione in basi delle sequenze analizzate

19 Concetto di orologio molecolare
Se la velocità di sostituzione è costante nel tempo la distanza tra le sequenze ortologhe di diversi organismi può essere utilizzata per definire da quanto tempo le specie in esame si sono separate, e per chiarire i rapporti evolutivi tra diversi organismi. L’analisi dei genomi ha evidenziato che l’orologio molecolare non è molto affidabile, perché le sequenze si evolvono con velocità diversa tra organismi diversi, ma anche all’interno dello stesso organismo. Questo concetto va pertanto usato con molta cautela!!

20 Stima delle distanze tra sequenze aminoacidiche
Kimura: Metodo più semplice, formula empirica d = -ln (1 – p – 0,2p2 ) p = frazione di aminoacidi diversi Altri modelli più complessi basati sull’utilizzo delle matrici di sostituzione PAM e BLOSUM

21 Alberi filogenetici Le relazioni filogenetiche possono essere rappresentate per mezzo di alberi filogenetici: Grafi costituiti da nodi e da rami (edges) Ogni edge mette in relazione solo due nodi Nodi interni e nodi terminali

22 Diversi tipi di alberi filogenetici
Cladogrammi: alberi che descrivono solo le relazioni filogenetiche tra i vari nodi. La lunghezza degli edges non ha alcun significato Filogrammi: alberi in cui la lunghezza dei rami è proporzionale alla distanza evolutiva Alberi con radice e senza radice. La radice rappresenta il gene ancestrale da cui tutti gli altri derivano. La definizione della radice comporta problemi particolari. A questo scopo può essere utile ricorrere ad un outgroup, ossia ad una sequenza che ha iniziato sicuramente a divergere dal precursore ancestrale prima che tutte le altre sequenze hanno iniziato a divergere tra loro.

23 Diversi tipi di alberi filogenetici

24 Alberi ultrametrici: quale è la specie più evoluta?
Basato su algoritmo UPGMA, che impone l’assunzione dell’orologio molecolare

25 Metodi per la costruzione di alberi filogenetici
Basati sulla distanza: UPGMA A B 0.02 0.04 B A C D

26 Metodi per la costruzione di alberi filogenetici
Basati sulla distanza: UPGMA A B 0.02 AB C D 0.03 C 0.06 D

27 Metodi per la costruzione di alberi filogenetici
Basati sulla distanza: UPGMA X+w = y+z X+y = 1 A B 0.02 C D 0.03 0.055 0.045 AB w x 0.1 CD y z

28 Metodi per la costruzione di alberi filogenetici
Basati sulla distanza: Neighbor Joining

29 Metodi per la costruzione di alberi filogenetici
Basati sulla analisi di tutti gli alberi possibili (2n – 3)! NR= 2n–2 (n-2)! (2n – 5)! NU= 2n–3 (n-3)!

30 Metodi per la costruzione di alberi filogenetici
Basati sulla analisi di tutti gli alberi possibili: maximum parsimony

31 Valutazione statistica del risultato: Bootstrap


Scaricare ppt "Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo."

Presentazioni simili


Annunci Google