CONFRONTO DI SEQUENZE Una delle analisi più informative che si possano compiere utilizzando sequenze nucleotidiche o amminoacidiche è il CONFRONTO FRA 2 O PIU’ SEQUENZE Si possono ricercare SEQUENZE SIMILI o SEQUENZE OMOLOGHE Due sequenze (amminoacidiche o nucleotiche) che si somigliano possono essere il risultato di un fenomeno di convergenza evolutiva (cioè sono divenute simili perché devono svolgere la stessa funzione) oppure possono essere derivate da una stessa sequenza ancestrale attraverso un processo di divergenza. QUESTI PROCESSI SONO ANALOGHI A QUELLI CHE SI VERIFICANO NELL’EVOLUZIONE DEGLI ORGANISMI
Albero filogenetico dei primati
MammiferiUccelliRettili Rettile ancestrale Anfibio ancestrale AnfibiPesci ossei Pesci cartilaginei Pesci ossei Antenato dei vertebrati Antenato dei pesci Dinosauri
PianteAnimaliFunghi Eucariota ancestrale ProtistiArchebatteriEubatteri Antenato comune di Eucarioti e Archea Antenato cellulare
Convergenza: organismi differenti sotto pressioni evolutive simili adottano soluzioni simili Ittiosauri: rettili marini preistorici che assomigliavano ai cetacei attuali
Gli organismi viventi evolvono perché i loro geni e quindi le proteine che essi codificano nel tempo subiscono cambiamenti strutturali e funzionali L’evoluzione macroscopica è il risultato dell’evoluzione molecolare
Due proteine si dicono OMOLOGHE quando hanno un antenato in comune Proteina ancestrale Proteina A Proteina B A e B sono proteine OMOLOGHE L’omologia non è una proprietà quantitativa: o c’è o non c’è; non esistono gradi di omologia.
Proteina Ancestrale 2 Proteina A Proteina B Proteina Ancestrale 1 Proteina C Se A e B sono OMOLOGHE e A e C sono OMOLOGHE allora anche C e B sono OMOLOGHE
Come avviene l’evoluzione molecolare? Mutazioni nelle Sequenze di DNA (durante la replicazione; durante il riparo di danni) Alterazioni della sequenza codificante o delle sequenze di controllo Proteine di sequenza alterata o prodotte in quantità o in tessuti differenti
HO-5’-P—dR—P—dR—P—dR-3’-OH | | | U G A A C T immA T A T G | | | | | | | | HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH HO-5’-P—P—P—dR-3’-OH | C dCTP DNA polimerasi
HO-5’-P—dR—P—dR—P—dR—P—dR—3’-OH | | | | U G A C A C T immA T A T G | | | | | | | | HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH + HO-5’-P—P-3’-OH pirofosfato
HO-5’-P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR-3’-OH | | | | | | | | T G A C A T A C A C T immA T A T G | | | | | | | | HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH
HO-5’-P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR-3’-OH | | | | | | | | T G A C A T A C A C T immA T A T G | | | | | | | | HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH
HO-5’-P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR-3’-OH | | | | | | | | T G A C A T A C A C T A T A T G | | | | | | | | HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH
HO-5’-P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR-3’-OH | | | | | | | | T G A C A T A C A C T G T A T G | | | | | | | | HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH HO-5’-P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR-3’-OH | | | | | | | | T G A T A T A C A C T A T A T G | | | | | | | | HO-3’—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P—dR—P-5’-OH
C = A immino C immino = A T = G enolo T enolo = G Mutazioni puntiformi dette Transizioni GC AT
C = G A syn = G
T syn = C
C syn = T C = T syn G syn = A G = A syn Mutazioni puntiformi dette Trasversioni GC TA GC CG AT TA
A T G C 4 Trasversioni 2 Transizioni
HNO 2 causa deamminazione di A e C e quindi la trasversione AT GC
N NH N N NH 2 O R N N N N NH 2 O R CH 3 agenti metilanti Guanina (si appaia con Citosina) O6-metil-Guanina (si appaia con Timina) N NH N N NH 2 O R N HN N N NH 2 O R agenti ossidanti Guanina (si appaia con Citosina) 8-idrossi-Guanina (si appaia con Adenina) O H
5’-TCCGTCTACTAATATATATATATATTCGAATCT-3’ ||||||||||||||||||||||||||||||||| 3’-AGGCAGATGATTATATATATATATAAGCTTAGA-5’ 5’-TCCGTCTACTAATATATATAT ||||||||||||||||||||| 3’-AGGCAGATGATTATATATATATAAGCTTAGA-5’ 5’-TCCGTCTACTA ATATAT ||||||||||| |||||| 3’-AGGCAGATGATTATATATATATAAGCTTAGA-5’ TA A T INSERZIONE
5’-TCCGTCTACTAATATATATAT ||||||||||||||||||||| 3’-AGGCAGATGATTATATATATATAAGCTTAGA-5’ 5’-TCCGTCTACTAATATATATAT ||||||||||| |||||||| 3’-AGGCAGATGAT TATATATAAGCTTAGA-5’ T A AT 5’-TCCGTCTACTAATATATATATTCGAATCT-3’ ||||||||||||||||||||||||||||| 3’-AGGCAGATGATTATATATATAAGCTTAGA-5’ DELEZIONE
5’..ATGTTTACTGATGGTGGCAAAAAACATATG... Nter M F T D G G K K H M...
5’..ATGTTTACTGATGGTGGCAAAAAACATATG... Nter M F T D G G K K H M... 5’..ATGTTTACTGATGGTGGCAAAAAAAAACATATG... Nter M F T D G G K K K H M... INSERZIONE DI TRE BASI (1CODONE) INSERZIONE DI UN AMMINOACIDO
5’..ATGTTTACTGATGGTGGCAAAAAACATATG... Nter M F T D G G K K H M... 5’..ATGTTTACTGATGGTGGCAAAAAAAACATATG... Nter M F T D G G K K N I... INSERZIONE DI 2 BASI FRAMESHIFT
5’..ATGTTTACTGATGGTGGCAAAAAACATATG... Nter M F T D G G K K H M... 5’..ATGTTTACTGATGGTGGCAAAAAAAACATATG... Nter M F T D G G K K N I... 5’..ATGTTTACTGATGGTGGGCAAAAAAAACATATG... Nter M F T D G G Q K K H M... INSERZIONE DI UNA BASE ULTERIORE RIPRISTINO DEL CODICE DI LETTURA
RIARRANGIAMENTI SU SCALA PIU’ VASTA Delezione genica
RIARRANGIAMENTI SU SCALA PIU’ VASTA Inversione
RIARRANGIAMENTI SU SCALA PIU’ VASTA Traslocazione
RIARRANGIAMENTI SU SCALA PIU’ VASTA Duplicazione genica
RIARRANGIAMENTI SU SCALA PIU’ VASTA Divergenza Creazione di una famiglia genica
Emoglobine di vertebrati = globina + globina globina e globina umane sono omologhe fra loro e omologhe a tutte le globine e di tutti i vertebrati globina murina e globina umana sono ORTOLOGHE (proteine omologhe di organismi diversi ma con la stessa funzione) globina e globina umane sono PARALOGHE (proteine omologhe dello stesso organismo ma con funzioni diverse) globina murina e globina umana sono PARALOGHE (proteine omologhe di organismi diversi ma con funzioni diverse)
Come si riconosce l’OMOLOGIA? Le proteine omologhe hanno sequenze primarie simili La similitudine fra due sequenze proteiche si misura: ALLINEANDO le due sequenze e calcolando (i) percentuale di residui identici (ii) percentuale di residui simili__
ERAERNSHNSYN--ISNTDPGLEQIGAGIAGPPD- |:. |:| |: :..|| :| ||||: || | EKSARQSNNTLTAFVRDSDPPVE-IGAGMMGPLDT 31aa nell’allineamento (esclusi i residui in corrispondenza di gap) 14 aa sono identici quindi: %id = (14 / 31) * 100 = 45% Conteggiando anche i residui simili (:) %sim = (20 / 31) * 100 = 64% Conteggiando anche i residui simili (: e.) %sim = (23 / 31) * 100 = 74%
Se due proteine hanno %id > 30% la probabilità che siano omologhe è così alta da essere solitamente considerata una certezza Se si verifica che 20%< %id < 30% si può andare a verificare la %sim Se %sim > 40-50% è probabile ma non sicuro che le proteine siano omologhe
SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59 RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC212 QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL1 QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR1 QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE6 QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE3 QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE2 QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE4 QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * *.*:::*:.* :.*. *. ::.** **** *:.:*... SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC208 VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC218 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC212 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL1 ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR1 VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE6 VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE3 VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE2 VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE4 VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** *..* :*: * :. *:**..: * ALLINEAMENTO MULTIPLO