Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.: :. :.:...:.:.. : :.. : ::... :.: ::..:. :. :. : NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.: :. :.:...:.:.. : :.. : ::... :.: ::..:. :. :. : NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC
Qualche definizione Identity : Generalmente espressa come percentuale, proporzione degli amminoacidi identici tra due sequenze allineate. Fortemente dipendente dal modo in cui due sequenze sono state allineate. Similarity Proporzione di amminoacidi simili. dipende dal criterio utilizzato per definire amminoacidi simili e dal modo in cui le due sequenze sono state allineate Homology Due proteine sono omologhe se hanno un progenitore in comune. non ci sono livelli di omologia: o due proteine sono omologhe o non lo sono. Proteine omologhe non necessariamente hanno la stessa funzione e non necessariamente sono molto simili.
Allineamento di una coppia di sequenze – in un allineamento possono esistere inserzioni,delezioni e mismatch (cattivi accoppiamenti) Seq A GARFIELDTHELASTFA-TCAT ||||||||||| || |||| Seq B GARFIELDTHEVERYFASTCAT Seq A GARFIELDTHELASTFA-TCAT ||||||||||| || |||| Seq B GARFIELDTHEVERYFASTCAT errors / mismatchesinsertion deletion
Numero di allinemanti ci sono molti modi di allineare due sequenze ma anche: CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA Il numero di possibili allineamenti diversi per due sequenze di mille amminoacidi, se si consentono inserzioni e delezioni è (nel giudicare questo numero tenete conto che il numero di atomi totali stimato nell’universo è ) ma anche: CGATGCA-GACGTCA ||||||| CGATGCAAGACGTCA CGATGCA-GACGTCA ||||||| CGATGCAAGACGTCA
Valutazione di un allineamento intuitiavamente noi capiamo che questo allineamento e’ meglio di: CGAGGCACAACGTCA ||| ||| |||||| CGATGCAAGACGTCA CGAGGCACAACGTCA ||| ||| |||||| CGATGCAAGACGTCA ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG Abbiamo applicato senza accorgercene un criterio di valutazione o di punteggio che in iglese chiamiamo scoring system.
Scoring system Il modo piu’ semplice di dare un punteggio e’ quello di dare 1 se due amminoacidi sono identici, 0 se sono diversi. Il punteggio, in inglese score, in questi due casi sara’ Score: 12 CGAGGCACAACGTCA ||| ||| |||||| CGATGCAAGACGTCA CGAGGCACAACGTCA ||| ||| |||||| CGATGCAAGACGTCA ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG Score: 5 Ma noi intuitivamente capiamo che sostituire ser con thr che sono due amminoacidi molto simili non puo’ essere tanto sfavorevole per una proteina quanto sostituite ser con trp
Introduzione dell’informazione biologica Possiamo 1)creare una scala di punteggi basata sulle proprieta’ chimico- fisiche degli amminoacidi, tipo dimensioni (punteggio piu’ alto per la sostituzione di una amminoacido piccolo da parte di un altro amminoacido piccolo e piu’ basso per la sostituzione di un amminoacido piccolo con uno grande) idrofobicita’, etc 2) osservare delle famiglie di proteine chiaramente omologhe e misurare con che frequenza l’evoluzione ha sostituito un amminoacido con un altro. In entrambi i casi si costruiscono delle matrici di sostituzioni
Matrici di sostituzione (log-odds matrices) PAM250 (Leu, Ile):2 (Leu, Cys):-6... Punteggi positivi:gli amminoacidi sono stati considerati simili dall’evoluzione e sono stati sostituiti l’uno nell’altro piu’ frequentemente di quando sarebbe accaduto per caso. Punteggi negativi:gli amminoacidi sono stati considerati dissimili dall’evoluzione e sono stati sostituiti l’uno nell’altro meno frequentemente di quanto sarebbe dovuto accadere per caso. Per una famiglia di proteine ben conosciute: si allineano le sequenze si contano le mutazioni ad ogni posizione si calcola il numero di volte che per esempio ser e’ sostiuta da thr e si divide per la frequenza di ser e di thr, cioe’ per la numero di volte atteso per una sostituzoione casuale di ser in thr
Punteggio (score)grezzo TPEA ¦| | APGA TPEA ¦| | APGA Score = 1= 9 E’ possibile che allineamenti molto corti prendano punteggi grezzi piu’ alti di allineamenti piu’ lunghi Abbiamo bisogno di punteggi normalizzati! (p-value, e-value) Le matrici piu’ utilizzate sono le PAMX e le BLOSUMY. X e Y sono dei numeri, piu’ alto e’ il numero X, piu’ la matrice e’ adatta a comparare sequenze molto diverse, piu’ basso e’ il numero Y, piu’ la matrice è adatta a comparare sequenze molto diverse. Le piu’ utilizzate sono PAM250 e BLOSUM62
Durante l’evoluzione di una proteina alcuni amminoacidi possono essere stati deleti o inseriti. I programmi di allineamnto devono prevedere la possibilita’ di introdurre gap GCATGCATGCAACTGCAT ||||||||| GCATGCATGGGCAACTGCAT GCATGCATGCAACTGCAT ||||||||| GCATGCATGGGCAACTGCAT puo’ essere migliorato inserendo un gap GCATGCATG--CAACTGCAT ||||||||| GCATGCATGGGCAACTGCAT GCATGCATG--CAACTGCAT ||||||||| GCATGCATGGGCAACTGCAT ma bisogna evitare troppi gap qualsiasi coppia di sequenze si puo’ allineare inserendo molti gap! -ATG—-AKLPW-P | | | | QA-GMMA---WIP -ATG—-AKLPW-P | | | | QA-GMMA---WIP ATGAKLPWP QAGMMAWIP ATGAKLPWP QAGMMAWIP
Gap opening and extension penalties CGATGCAGCAGCAGCATCG |||||| ||||||| CGATGC------AGCATCG CGATGCAGCAGCAGCATCG |||||| ||||||| CGATGC------AGCATCG CGATGCAGCAGCAGCATCG || || |||| || || | CG-TG-AGCA-CA--AT-G CGATGCAGCAGCAGCATCG || || |||| || || | CG-TG-AGCA-CA--AT-G gap opening Gap opening penalty Contato ogni volta che si apre un gap gap extension Gap extension penalty Contato ogni volta che viene allungato un gap Gap opening penalty>> Gap extension penalty L’apertura di gap deve essere penalizzata. E ’piu’ ragionevole introdurre un gap piu’ lungo che molti gap corti perche’ l’evoluzione puo’ aver introdotto o eliminato un certo numero di amminoacidi in un loop per esempio ma difficilmente elimina o inserisce un singolo amminoacido piu’ volte
Gap opening and extension penalties CGATGCAGCAGCAGCATCG |||||| ||||||| CGATGC------AGCATCG CGATGCAGCAGCAGCATCG |||||| ||||||| CGATGC------AGCATCG CGATGCAGCAGCAGCATCG || || |||| || || | CG-TG-AGCA-CA--AT-G CGATGCAGCAGCAGCATCG || || |||| || || | CG-TG-AGCA-CA--AT-G gap opening 13 x x 1 = -3 gap extension 13 x x x 1 = -43 Esempio: con una matrice di punteggio semplicissima,1 aa identici, 0 aa diversi con un opening gap penalty di 10 e un extention gap penalty di 1 abbiamo il seguente punteggio
Valutazione statistiva dei risultati Valori statistici derivati dagli « score » p-value Probabilità che un allineamento con un certopunteggio si trovi per caso in una certa banca dati Più basso è il p-value migliore l’allineamento e-value Numero di casi con lo stesso punteggio che si possono trovare per caso in una certa banca dati Più vicino a 0 è le-value, migliore è l’allineamento
Tipi di allineamento Gli allineamenti possono essere: Globali:si cerca di allineare tutta la sequenza A con tutta la sequenza B e si calcola un punteggio complessivo Locali:si cerca di allineare dei “pezzi” di A con dei “pezzi” di B. ATYRDTYGGFSDRLPATFRETFGGFSDRLPCGATGCAAGACGTCA || | | |||||||| |||||| ||||| ATFRETFGGFSDRLP CGATGCSSA-CGTCA Un allineamento globale penalizzerebbe troppo la lunga delezione e ci farebbe perdere di vista la forte somiglianza fra “i pezzi” blu e rosso