CONFRONTO DI SEQUENZE Una delle analisi più informative che si possano compiere utilizzando sequenze nucleotidiche o amminoacidiche è il CONFRONTO FRA 2 O PIU’ SEQUENZE allo scopo di identificare sequenze con origine evolutiva in comune. L’analisi delle sequenze di DNA e proteine permette di ricostruire la storia evolutiva degli organismi viventi!
Albero filogenetico dei primati
Uccelli Mammiferi Rettili Anfibi Pesci ossei Pesci cartilaginei Dinosauri Rettile ancestrale Anfibio ancestrale Pesci ossei Antenato dei pesci Antenato dei vertebrati
Antenato comune di Eucarioti e Archea Animali Piante Funghi Protisti Archebatteri Eubatteri Eucariota ancestrale Antenato comune di Eucarioti e Archea Antenato cellulare
Gli organismi viventi evolvono perché i loro geni e quindi le proteine che essi codificano nel tempo subiscono cambiamenti strutturali e funzionali L’evoluzione macroscopica è il risultato dell’evoluzione molecolare
Due sequenze / strutture proteiche / organi / organismi che si somigliano possono essere il risultato di un fenomeno di convergenza evolutiva (cioè sono divenuti simili perché devono svolgere la stessa funzione) oppure possono essere derivate da uno stesso antenato ancestrale attraverso un processo di divergenza.
Convergenza: organismi differenti sotto pressioni evolutive simili adottano soluzioni simili Ittiosauri: rettili marini preistorici che assomigliavano ai cetacei attuali
Due sequenze / strutture proteiche / organi / organismi che si somigliano possono essere il risultato di un fenomeno di convergenza evolutiva (cioè sono divenuti simili perché devono svolgere la stessa funzione) oppure possono essere derivate da uno stesso antenato ancestrale attraverso un processo di divergenza. La convergenza evolutiva è un fenomeno ben noto a livello di composizione amminoacidica, struttura proteica, organo e organismo intero ma NON di somiglianza di STRUTTURA PRIMARIA!!! Due sequenze proteiche possono avere la stessa composizione amminoacidica ma non la stessa sequenza a causa della convergenza evolutiva!
I possibili dipeptidi sono: 20 X 20 = 202 = 400 I possibili tripeptidi sono: 20 X 20 X 20 = 203 = 8000 Le possibili proteine di 100 aa sono: 20 X 20 X 20… = 20100 Le possibili proteine di 101 aa sono: 20 X 20 X 20… = 20101 ……….. Le possibili proteine di 500 aa sono: 20 X 20 X 20….. = 20500
Due proteine si dicono OMOLOGHE quando hanno un antenato in comune Proteina A Proteina ancestrale Proteina B A e B sono proteine OMOLOGHE L’omologia non è una proprietà quantitativa: o c’è o non c’è; non esistono gradi di omologia.
allora anche C e B sono OMOLOGHE Proteina A Proteina Ancestrale 2 Proteina B Proteina Ancestrale 1 Proteina C Se A e B sono OMOLOGHE e A e C sono OMOLOGHE allora anche C e B sono OMOLOGHE
Come si riconosce l’OMOLOGIA? Le proteine omologhe hanno sequenze primarie simili La similitudine fra due sequenze proteiche si misura: ALLINEANDO le due sequenze e calcolando (i) percentuale di residui identici (ii) percentuale di residui simili__
ERAERNSHNSYN--ISNTDPGLEQIGAGIAGPPD- |:. |:| |: : ..|| :| ||||: || | |:. |:| |: : ..|| :| ||||: || | EKSARQSNNTLTAFVRDSDPPVE-IGAGMMGPLDT 31aa nell’allineamento (esclusi i residui in corrispondenza di gap) 14 aa sono identici quindi: %id = (14 / 31) * 100 = 45% Conteggiando anche i residui simili (:) %sim = (20 / 31) * 100 = 64% Conteggiando anche i residui simili (: e .) %sim = (23 / 31) * 100 = 74%
Se si verifica che 20%< %id < 30% Se due proteine hanno %id > 30% la probabilità che siano omologhe è così alta da essere solitamente considerata una certezza Se si verifica che 20%< %id < 30% si può andare a verificare la %sim Se %sim > 40-50% è probabile ma non sicuro che le proteine siano omologhe
ALLINEAMENTO MULTIPLO SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59 RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC212 QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL1 QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR1 QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE6 QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE3 QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE2 QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE4 QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * * .*:::*: .* :.*. * . :: .** **** *:.:* . . . SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC208 VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC218 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC212 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL1 ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR1 VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE6 VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE3 VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE2 VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE4 VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** * ..* :*: * :. *:**..: *
Come avviene l’evoluzione molecolare? Mutazioni nelle Sequenze di DNA (durante la replicazione; durante il riparo di danni) Alterazioni della sequenza codificante o delle sequenze di controllo Proteine di sequenza alterata o prodotte in quantità o in tessuti differenti
HO-5’-P—dR—P—dR—P—dR-3’-OH | | | U G A A C T immA T A T G | | | U G A A C T immA T A T G | | | | | | | | HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH dCTP HO-5’-P—P—P—dR-3’-OH | C DNA polimerasi
HO-5’-P—dR—P—dR—P—dR—P—dR—3’-OH | | | | U G A C A C T immA T A T G | | | | U G A C A C T immA T A T G | | | | | | | | HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH pirofosfato + HO-5’-P—P-3’-OH
HO-5’-P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR-3’-OH | | | | | | | | T G A C A T A C A C T immA T A T G HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH
HO-5’-P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR-3’-OH | | | | | | | | T G A C A T A C A C T immA T A T G HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH
HO-5’-P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR-3’-OH | | | | | | | | T G A C A T A C A C T A T A T G HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH
HO-5’-P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR-3’-OH | | | | | | | | T G A C A T A C A C T G T A T G HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH T G A T A T A C A C T A T A T G
C = Aimmino Cimmino = A T = Genolo Tenolo = G Mutazioni puntiformi dette Transizioni GC AT
C = G Asyn = G
Tsyn = C
Csyn = T C = Tsyn Gsyn = A G = Asyn Mutazioni puntiformi dette Trasversioni GC TA GC CG AT TA
4 Trasversioni A T G C 2 Transizioni
e quindi la trasversione AT GC HNO2 causa deamminazione di A e C e quindi la trasversione AT GC
agenti metilanti agenti ossidanti C H O N N N H N N R O H N HN O N H N 3 agenti metilanti O N N H N N N H N N N H N N 2 2 R R Guanina (si appaia con Citosina) O6-metil-Guanina (si appaia con Timina) O agenti ossidanti O H N N H N HN O N H N N N H N N 2 2 R R Guanina (si appaia con Citosina) 8-idrossi-Guanina (si appaia con Adenina)
INSERZIONE 5’-TCCGTCTACTAATATATATAT ||||||||||||||||||||| 3’-AGGCAGATGATTATATATATATAAGCTTAGA-5’ 5’-TCCGTCTACTA ATATAT ||||||||||| |||||| 3’-AGGCAGATGATTATATATATATAAGCTTAGA-5’ TA A T 5’-TCCGTCTACTAATATATATATATATTCGAATCT-3’ ||||||||||||||||||||||||||||||||| 3’-AGGCAGATGATTATATATATATATAAGCTTAGA-5’
DELEZIONE 5’-TCCGTCTACTAATATATATAT ||||||||||||||||||||| 3’-AGGCAGATGATTATATATATATAAGCTTAGA-5’ 5’-TCCGTCTACTAATATATATAT ||||||||||| |||||||| 3’-AGGCAGATGAT TATATATAAGCTTAGA-5’ T A AT 5’-TCCGTCTACTAATATATATATTCGAATCT-3’ ||||||||||||||||||||||||||||| 3’-AGGCAGATGATTATATATATAAGCTTAGA-5’
5’..ATGTTTACTGATGGTGGCAAAAAACATATG... Nter M F T D G G K K H M...
5’..ATGTTTACTGATGGTGGCAAAAAACATATG... Nter M F T D G G K K H M... 5’..ATGTTTACTGATGGTGGCAAAAAAAAACATATG... Nter M F T D G G K K K H M... INSERZIONE DI TRE BASI (1CODONE) INSERZIONE DI UN AMMINOACIDO
5’..ATGTTTACTGATGGTGGCAAAAAACATATG... Nter M F T D G G K K H M... 5’..ATGTTTACTGATGGTGGCAAAAAAAACATATG... Nter M F T D G G K K N I... INSERZIONE DI 2 BASI FRAMESHIFT
5’..ATGTTTACTGATGGTGGCAAAAAACATATG... Nter M F T D G G K K H M... 5’..ATGTTTACTGATGGTGGCAAAAAAAACATATG... Nter M F T D G G K K N I... 5’..ATGTTTACTGATGGTGGGCAAAAAAAACATATG... Nter M F T D G G Q K K H M... INSERZIONE DI UNA BASE ULTERIORE RIPRISTINO DEL CODICE DI LETTURA
RIARRANGIAMENTI SU SCALA PIU’ VASTA Delezione genica
RIARRANGIAMENTI SU SCALA PIU’ VASTA Inversione
RIARRANGIAMENTI SU SCALA PIU’ VASTA Traslocazione
RIARRANGIAMENTI SU SCALA PIU’ VASTA Duplicazione genica Duplicazione genica
RIARRANGIAMENTI SU SCALA PIU’ VASTA Divergenza Creazione di una famiglia genica
Emoglobine di vertebrati = globina a + globina b globina a e globina b umane sono omologhe fra loro e omologhe a tutte le globine a e b di tutti i vertebrati globina a murina e globina a umana sono ORTOLOGHE (proteine omologhe di organismi diversi ma con la stessa funzione) globina a e globina b umane sono PARALOGHE (proteine omologhe dello stesso organismo ma con funzioni diverse) globina a murina e globina b umana sono PARALOGHE (proteine omologhe di organismi diversi ma con funzioni diverse)