La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Bioinformatica Allineamento di sequenze e ricerca di similarità Dr. Giuseppe Pigola –

Presentazioni simili


Presentazione sul tema: "Bioinformatica Allineamento di sequenze e ricerca di similarità Dr. Giuseppe Pigola –"— Transcript della presentazione:

1 Bioinformatica Allineamento di sequenze e ricerca di similarità Dr. Giuseppe Pigola –

2 Allineamento di Sequenze Lallineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità tra due o più sequenza può essere definita in base a una funzione distanza: Tanto più simili sono le sequenze, tanto meno distanti sono; Esistono diversi algoritmi di allineamento ciascuno dei quali definisce una funzione distanza; Dato un allineamento possiamo assegnare uno Score che indica il grado di similarità delle due sequenze. Bioinformatica2

3 Allineamento di Sequenze GLOBALE: Si cerca la corrispondenza ottimale tra tutti gli amminoacidi (nucleotidi) di entrambe le sequenze. LOCALE: Si cerca di individuare regioni locali di similarità. Bioinformatica3 Globale LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||. | | |.|.| || || | || TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG Locale LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||||||||.|||| TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG Globale LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||. | | |.|.| || || | || TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG Locale LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||||||||.|||| TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG

4 Allineamento Pairwise – Matrici Dot Plot Si crea una matrice in cui vengono confrontati tutti i possibili appaiamenti di ogni carattere delle due sequenze da allineare. Si riempie la matrice, annerendo le caselle che hanno nella corrispondente riga e colonna la stessa lettera. Il programma DOTLET (http://myhits.isb-sib.ch/cgi-bin/dotlet), date due sequenze in input permette di disegnare facilmente la relativa matrice Dot Plot.http://myhits.isb-sib.ch/cgi-bin/dotlet Bioinformatica4

5 Allineamento Pairwise – Matrici Dot Plot Bioinformatica5 m a r g a r e t d y h q f f a margaretdayhqffqelkra * ** * ** * * * * * * ** * * * ** * * * * * * * * Duplicazione Inversione Similarità

6 Allineamento Pairwise – Matrici Dot Plot FILTRAGGIO –Window Size E chiaro che il numero di punti della matrice è influenzato dalla natura della sequenza; Se confrontiamo due sequenze di nucleotidi (o proteine) costituite da 100 residui, assumendo che ciascun nucleotide (o aminoacido) occorra con la stessa probabilità, il numero totale di punti della matrice sarà mediamente pari a 2500 (500 nel caso di aminoacidi) su celle totali; Quando confrontiamo sequenze nucleotidiche il rumore di fondo sara più elevato; Possiamo confrontare finestre costituite da w residui contigui; In tal caso metteremo un dot nella cella (i,j) solo nel caso in cui le stringhe risultino identiche per s residui su w. Bioinformatica6

7 DotLet - Preleviamo la sequenza proteica della calmodulina umana con accession Number CAA36839; Confrontate la sequenza con se stessa per mezzo di DotLet; Lasciare come parametri iniziali la matrice Blosum62 ed una finestra di 15 residui per il confronto Bioinformatica7

8 DotLet - Il grafico riporta la distribuzione degli score ottenuti da tutte le coppie di finestre di sequenza confrontate (usando le matrici di score). Si noti che la maggior parte dei punteggi ricade nella distribuzione a sinistra a basso punteggio, mentre una piccola popolazione a punteggio elevato si trova a destra. Spostando i cursori si variano i punteggi limite al di sotto dei quali la cella assume il colore nero e al di sopra il colore bianco. Tra i due limiti le celle assumono un tono di grigio proporzionale al punteggio che contengono. Bioinformatica8 Num di score con quel punteggio Punteggio ottenuto

9 DotLet - Cliccando sulla matrice si attiva un reticolo che può essere spostato sulla superficie della matrice stessa con il puntatore del mouse; In basso viene riportato lallineamento tra i due segmenti della proteina corrispondenti alla posizione del centro del reticolo sulla matrice; Bioinformatica9

10 DotLet - Spostando i cursori in modo da posizionarci sulla piccola distribuzione a destra a punteggio elevato verranno visualizzati solo i punteggi elevati che ovviamente corrispondono alla diagonale principale; Bioinformatica10

11 DotLet - Esempio: Domini Ripetuti. Matrice Dot Plot calcolata sulla stessa sequenza di Drosophila Melanogaster (proteina SLIT). Parametri: Blosum 62, Zoom 1:5, grayscale: 53%,30% Bioinformatica11 SLIT_DROME (P24014): MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT GLNVDCSHRGLTSVPRKISADVERLELQGNNLTVIYETDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVI TTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNNNNLTSLPHNIFGGLGRLRALRLSDNPFACDCHLSW LSRFLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAENSCPHPCRCADGIVDCREKSLTSVPVTL PDDTTDVRLEQNFITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNKIKDLPSGVFKGLGSLRLLL LNANEISCIRKDAFRDLHSLSLLSLYDNNIQSLANGTFDAMKSMKTVHLAKNPFICDCNLRWLADYLHKNPIETSGARCE SPKRMHRRRIESLREEKFKCSWGELRMKLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLNDNELGR ISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGASHIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFE HLNSLTSLNLASNPFNCNCHLAWFAECVRKKSLNGGAARCGAPSKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCT CTGTVVACSRNQLKEIPRGIPAETSELYLESNEIEQIHYERIRHLRSLTRLDLSNNQITILSNYTFANLTKLSTLIISYN KLQCLQRHALSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWFSDWIKLDYVEPGIARCAEPEQ MKDKLILSTPSSSFVCRGRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMIDACYGNPCRNNAT CTVLEEGRFSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPCANGAK CMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMCQNGGTCVDGINDYQCRCPDDYTGKYCEGHNMISMMYPQTSPCQNHE C KHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNSFVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAV ELFNGRIRVSYDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVDRGLARSIINEGSNDYLKLTTPMFLGGLPVDP AQQAYKNWQIRNLTSFKGCMKEVWINHKLVDFGNAQRQQKITPGCALLEGEQQEEEDDEQDFMDETPHIKEEPVDPCLEN KCRRGSRCVPNSNARDGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDCRSRQPLKYAKCVGGCG N QCCAAKIVRRRKVRMVCSNNRKYIKNLDIVRKCGCTKKCY

12 DotLet - ESERCIZIO Recuperare le sequenze proteiche in formato FASTA di: subunità alfa 2 di Rattus norvegicus del recettore neuronale dellacetilcolina (Neuronal acetylcholine receptor protein, alpha-2 chain precursor P12389); subunità alfa 4 di chicken del recettore neuronale dellacetilcolina (Neuronal acetylcholine receptor protein, alpha-4 chain precursor P09482); Confrontare le due sequenze con DotLet per verificare la presenza di zone di somiglianza ed eventuali dissimilarità nella diagonale principale(Far variare i parametri di input); Bioinformatica12

13 Allineamento Pairwise Siano S e T due sequenze. Un allineamento A associa ad S e T le sequenze S e T, che possono contenere simboli di spazio -, in modo che |S|=|T| Rimuovendo gli spazi da S e T otteniamo S e T. Se l = |S|=|T|, lo score di un allineamento pairwise è definito da: Lallineamento ottimale sarà quello che massimizza la similarità (lo score); Bioinformatica13

14 Allineamento Pairwise ESEMPIO: NEEDLEMAN-WUNSCH Lo score ottimale V(i,j) di due sequenze S 1….i T 1…j ha le seguenti proprietà: Algoritmo di programmazione dinamica per calcolare lallineamento Bioinformatica14 match/mismatch deletion insertion

15 Allineamento Pairwise ESEMPIO: NEEDLEMAN-WUNSCH Bioinformatica15 j B D C B C2 01 A DBDACi S 1 = ACBCDB S 2 = CADBD Allineamento ottimale V(6,5) = 2 Otteniamo tre allineamenti ottimali: ACBCDB- ACBCDB- -ACBCDB | || | || | | | -C-ADBD -CA-DBD CADB-D- S2S2 S1S1

16 Allineamento Pairwise – Matrici di Score Un modo per definire la funzione σ è ad esempio quello di assegnare 1 in caso di caratteri uguali e 0 altrimenti. Nel caso di Nucleotidi questa definizione può andare bene; Nel caso di aminoacidi non è del tutto corretto assegnare ai mismatch lo stesso peso; Per questo motivo si introducono le matrici di score che assegnano ad ogni coppia di amino acidi un punteggio: Matrici PAM (Percent Accepted Mutations): si basano su calcoli statistici; Matrici BLOSUM: sono invece basate su una banca dati (BLOCKS) di allineamenti multipli di segmenti proteici; Bioinformatica16

17 Allineamento Pairwise – Matrici di Score Bioinformatica17 Seq1 V D S - C Y Seq2 V E S L C Y Score Score allineamento: 15 blosum62 Penalità del gap.

18 Allineamento Pairwise - EMBOSS Bioinformatica18

19 Allineamento Pairwise - EMBOSS Bioinformatica19 Utilizziamo EMBOSS per allineare due sequenze con gli algoritmi di Needleman-Wunsch (globale); Smith-Waterman (locale);

20 Allineamento Pairwise - EMBOSS Bioinformatica20 Selezioniamo il tipo di sequenza: Protein; DNA;

21 Allineamento Pairwise - EMBOSS Bioinformatica21 Scelta della scoring matrix : Protein: Blosum62; Blosum50; Blosum40; DNA: DNAFull: (Assegna score diversi nel caso di mismatch di caratteri IUB-IUPAC); DNAMat: (usata da BLAST assegna uno score al match e un altro al mismatch);

22 Allineamento Pairwise - EMBOSS Bioinformatica22 GOP e GEP;

23 Allineamento Pairwise - EMBOSS Bioinformatica23 Inserimento delle due sequenza anche da file;

24 Allineamento Pairwise - EMBOSS Bioinformatica24 Identity: percentuale di match identici; Similarity: percentuale di match per cui la matrice di scoring ha un valore >= 0 (si tratta di aminoacidi diversi che hanno caratteristiche chimico-fisiche simili);

25 Similarità nei DB - BLAST Bioinformatica25 BLAST Basic Local Alignment Search Tool

26 Similarità nei DB - BLAST Bioinformatica26 BLAST (Basic Local Alignment Search Tool) Permette di ricercare regioni di similarità locale tra una sequenza data e una collezione di sequenze in banca dati.

27 Similarità nei DB - BLAST Bioinformatica27 Lidea di base dellalgoritmo consiste nel procedere ad allineare passo dopo passo piccole sequenze (WORD e KTUPLE) e tentando di estendere poi lallineamento.

28 Similarità nei DB - BLAST Bioinformatica28 MEGABLAST E utilizzato per trovare efficientemente lunghi allineamenti tra sequenze molto simili tra loro o per identificare una sequenza di input sconosciuta. BLAST NUCLEOTIDICO Discontiguous MEGABLAST E utilizzato per trovare efficientemente lunghi allineamenti tra sequenze che hanno alcune differenze tra loro. BLASTN Utilizzato in tutti gli altri casi.

29 Similarità nei DB - BLAST Bioinformatica29 BLASTP E utilizzato per identificare una sequenza proteica di input nel DB o per ricercare sequenze proteiche simili; BLAST PROTEICO PSI-BLAST Position-Specific Iterata BLAST è il programma BLAST più sensibile, il che lo rende molto utile per trovare proteine poco correlate (molto distanti). PHI-BLAST Pattern-Hit Initiated BLAST è progettato per la ricerca di proteine che contengono un pattern specificato dall'utente e sono simili alla sequenza query in prossimità del pattern.

30 Similarità nei DB - BLAST Bioinformatica30 BLASTX (Translated query vs protein database) E utilizzato per trovare proteine simili a quelle codificate da una query di nucleotidi; ALTRI TOOL TBLASTN (Protein query vs translated database) E utilizzato per trovare proteine omologhe a quella data in input. Le sequenze nucleotidiche del DB vengono tradotte in sequenze aminoacidiche utilizzando tutti e sei i frame di lettura e poi contfrontate con la query. TBLASTX (Translated query vs translated database) Prende in input una sequenza nucleotidica, la traduce in tutti e sei i frame di lettura e confronta queste sequenze tradotte con il DB di nucleotidi a sua volta tradotto in Aminoacidi. Utile per trovare nuovi geni. BLAST2SEQ Utilizza BLAST per allineare due o più sequenze.

31 Similarità nei DB - BLAST Bioinformatica31 Scelta dei vari BLAST Inserire la sequenza in formato FASTA (anche da file) oppure specificare lAccession Number o il Gene ID. Specificare eventualmente lintervallo di interesse.

32 Similarità nei DB - BLAST Bioinformatica32 Scegliere un nome descrittivo per la ricerca che apparirà nei risultati. Selezionare se si vuole utilizzare BLAST per allineare due o più sequenze. Campo di ricerca: DB, Organismo. E possibile usare la sintassi di entrez per filtrare i DB selezionati.

33 Similarità nei DB - BLAST Bioinformatica33 Ottimizza la ricerca per: Similarità; Dissimilarità; Ricerca generica;

34 Similarità nei DB - BLAST Bioinformatica34 E possibile cambiare la soglia di significatività statistica. Ogni match trovato ha un valore di significatività statistica, che indica quanto è statisticamente probabile che quel match sia casuale. Minore è il numero, maggiore sarà il tempo di esecuzione.Laccuratezza però cresce. Filtrare regioni il cui match avrebbe scarso significato biologico.

35 Similarità nei DB - BLAST Bioinformatica35 Dimensione delle Word: Maggiore è il numero, minore sarà il numero di word generate per cui minore sarà il tempo di esecuzione. Laccuratezza però decresce.

36 Similarità nei DB - BLAST Bioinformatica36 Esempio ricerchiamo il gene DIABLO in Drosophila Melanogaster La prima voce che troviamo è il gene cercato. Selezioniamo la sequenza corrispondente di mRNA in formato FASTA e diamola in pasto a BLAST scegliendo come DB nt e tool Megablast.

37 Similarità nei DB - BLAST Bioinformatica37 Dati generali Taxonomy Report ci da informazioni sulle specie coinvolte nei risultati; Può essere utile per verificare la presenza di sequenze ortologhi in altre specie;

38 Similarità nei DB - BLAST Bioinformatica38 Dati generali Allineamento grafico: I colori indicano la qualità dellallineamento. Le prime due sequenze sono identiche.

39 Similarità nei DB - BLAST Bioinformatica39 Le prime due sequenze sono identiche alla query (per questo motivo BLAST può essere usato per ricercare sequenze sconosciute). Le altre sono sequenze parziali.

40 Similarità nei DB - BLAST Bioinformatica40 Scorrendo i risultati troviamo altre sequenze (anche parziali) in altri tipi di Drosophile.

41 Similarità nei DB - BLAST Bioinformatica41 Infine troviamo i dettagli dei vari allineamenti. I trattini indicano un match, la loro assenza indica un mismatch.

42 Similarità nei DB - BLAST Bioinformatica42 MAX SCORE Punteggio dellallineamento locale più significativo. (punteggio alto elevata similarità); TOTAL SCORE La somma dei punteggi di tutti gli allineamenti locali trovati tra la sequenza query e le sequenze del database. QUERY COVERAGE Percentuale della sequenza allineata E-VALUE Esprime la probabilità che lallineamento trovato sia casuale. Più basso è, maggiore è la probabilità che NON sia casuale. (dipende, oltre che dalla similarità, anche dalla numerosità delle sequenze in database e dalla lunghezza delle sequenze). MAX INDENT Percentuale di identità dellallineamento locale più significativo.

43 Similarità nei DB - BLAST Bioinformatica43 VALIDAZIONE STATISTICA e BIT SCORE La probabilità di trovare un allineamento con score maggiore o uguale di S segue la distribuzione di Poisson M,N: lunghezze delle due sequenze; λ,K: parametri che dipendono tra le altre cose dalla banca dati, dalla sua dimensione etc. Il numero atteso di sequenze che hanno per caso lo score S è Il bit-score non è altro che lo score normalizzato in modo da poter confrontare bit-score di banche dati diverse

44 Allineamento Pairwise – BLAST2SEQ Bioinformatica44 E possibile usare BLAST per fare un allineamento di due sequenze. In questo caso verranno evidenziate le similarità locali. Si sceglie il programma adatto, si inseriscono le sequenze e si ottiene il risultato. I parametri dellinterfaccia cambiano leggermente quanto si sceglie di allineare proteine piuttosto che nucleotidi (ad esempio le matrici di score).

45 Similarità nei DB - BLAST Bioinformatica45 Ritorniamo alla pagina principale di BLAST Cè una sezione dedicata ai genomi completi (o in fase di completamento); In questo modo è possibile fare un BLAST su sequenze di una data specie;

46 Similarità nei DB - BLAST Bioinformatica46 Ritorniamo alla pagina principale di BLAST Cè una sezione dedicata ai genomi completi (o in fase di completamento); In questo modo è possibile fare un BLAST su sequenze di una data specie;

47 Similarità nei DB - BLAST Bioinformatica47 ESERCIZIO Data la seguente sequenza sconosciuta. Determinare lidentità più probabile. >SCONOSCIUTA ATCACTGTAGTAGTAGCTGGAAAGAGAAATCTGTGACTCCAATTAGCCAG TTCCTGCAGACCTTGTGAGGACTAGAGGAAGAATGCTCCTGGCTGTTTTG TACTGCCTGCTGTGGAGTTTCCAGACCTCCGCTGGCCATTTCCCTAGAGC CTGTGTCTCCTCTAAGAACCTGATGGAGAAGGAATGCTGTCCACCGTGGA GCGGGGACAGGAGTCCCTGTGGCCAGCTTTCAGGCAGAGGTTCCTGTCAG AATATCCTTCTGTCCAATGCACCACTTGGGCCTCAATTTCCCTTCACAGG GGTGGATGACCGGGAGTCGTGGCCTTCCGTCTTTTATAATAGGACCTGCC AGTGCTCTGGCAACTTCATGGGATTCAACTGTGGAAACTGCAAGTTTGGC TTTTGGGGACCAAACTGCACAGAGAGACGACTCTTGGTGAGAAGAAACAT CTTCGATTTGAGTGCCCCAGAGAAGGACAAATTTTTTGCCTACCTCACTT TAGCAAAGCATACCATCAGCTCAGACTATGTCATCCCCATAGGGACCATT GGCCAAATGAAAAATGGATCAACACCCATGTTTAACGACATCAATATTTA TGACCTCTTTGTCTGGATGCATTATTATGTGTCAATGGATGCACTGCTTG GGGGATCTGAAATCTGGAGAGACATTGATTTTGCCCATGAAGCACCAGCT TTTCTGCCTTGGCATAGACTCTTCTTGTTGCGGTGGGAACAAGAAATCCA GAAGCTGACAGGAGATGAAAACTTCACTATTCCATATTGGGACTGGCGGG ATGCAGAAAAGTGTGACATTTGCACAGATGAGTA

48 Similarità nei DB - BLAST Bioinformatica48 ESERCIZIO I Ricercare le sequenze proteiche simili alla subunità IV della citocromo c ossidasi umana (Accession Number: P13073). Ci sono sequenze predette? Ci sono sequenze appartenenti a organismi non facenti parte dei mammiferi?

49 Similarità nei DB - BLAST Bioinformatica49 ESERCIZIO II Considerare la seguente sequenza proteica del lievito: >gi| |sp|Q |CDA2_YEAST Chitin deacetylase 2 precursor MRIQLNTIDLQCIIALSCLGQFVHAEANREDLKQIDFQFPVLERAATKTPFPDW LSAFTGLKEWPGLDPP YIPLDFIDFSQIPDYKEYDQNHCDSVPRDSCSFDCHH CTEHDDVYTCSKLSQTFDDGPSASTTKLLDRLK HNSTFFNLGVNIVQHPDIYQ RMQKEGHLIGSHTWSHVYLPNVSNEKIIAQIEWSIWAMNATGNHTPKWFRPPY GGIDNRVRAITRQFGLQAVLWDHDTFDWSLLLNDSVITEQEILQNVINWNKSGT GLILEHDSTEKTV DLAIKINKLIGDDQSTVSHCVGGIDYIKEFLS Fare una ricerca di omologia nei soli funghi. Riportare accession number e E-value della proteina più simile di Neuorspora Crassa. Riportare accession number e E-value ddella proteina più simile di Aspergillus Nidulans.

50 Similarità nei DB - FASTA Bioinformatica50 FASTA Sequence Similarity Search using the FASTA

51 Similarità nei DB - FASTA Bioinformatica51 STEP 1- Scelta del DB

52 Similarità nei DB - FASTA Bioinformatica52 STEP 1I - Inserimento della sequenza

53 Similarità nei DB - FASTA Bioinformatica53 STEP 1II - Scelta del programma: FASTA Simile a BLAST SSEARCH (Smith-Waterman); GGSEARCH (Needleman-Wunsch); TFASTX, TFASTY Confronta una proteina con un DB di DNA calcolando tutti i frame di lettura; FASTX, FASTY Confronta una sequenza nucleotidica con un DB di proteina traducendo la sequenza di input;

54 Similarità nei DB - FASTA Bioinformatica54 STEP 1V - Opzioni: Match/mismatch scores; GOP e GEP ;

55 Similarità nei DB - FASTA Bioinformatica55 STEP 1V - Opzioni: KTUP: E alla base dellalgoritmo FASTA. Più basso è il valore più accurata e la ricerca (ma più lento sarà il programma); Esso rappresenta il minimo numero di residui contigui identici affinchè una coppia di sequenze sia considerata simile (… e quindi presa in considerazione); Expectation Upper value: Rappresenta il numero MAX di volte che il match è atteso per caso. Expectation Lower Value: Rappresenta il numero MIN di volte che il match è atteso per caso.

56 Similarità nei DB - FASTA Bioinformatica56 STEP 1V - Opzioni: Strand: Per le sequenze nucleotidiche specifica quale strand usare per la ricerca (NONE,BOTH, TOP,BOTTOM); Histogram: Visualizza o meno listogramma nei risultati. Listogramma da un vista qualitativa dei risultati. Filter: Filtrare regioni il cui match avrebbe scarso significato biologico.

57 Similarità nei DB - FASTA Bioinformatica57 STEP 1V - Opzioni: Opzioni di visualizzazione dei risutati.

58 Similarità nei DB - FASTA Bioinformatica58 Eseguiamo FASTA sulla proteina DIABLO di Drosophila Melanogaster

59 Allineamento Multiplo - Clustalw Bioinformatica59 CLUSTALW Multiple sequence alignment program for DNA or proteins

60 Allineamento Multiplo - Clustalw Bioinformatica60 ALGORITMO PROGRESSIVO: Si ottengono prima tutti i possibili allineamenti di coppia e si registra il punteggio di ciascuno (Si mantiene una matrice di tutte le distanze) ; Con questi punteggi si costruisce un albero filogenetico in modo da visualizzare le relazioni evolutive (neighbour joining); Ad ogni passo si allineerà la coppia (seq-seq o seq-profilo o profilo-profilo) con distanza minima; La radice dellalbero conterrà lallineamento multiplo; AGTTGG ACTTGG CCTTGG AGTTGG AG__GG CCTTGG AGTTGG ACTTGG AG__GG CCTTGG AGTTGG AGGG CCTTGG AGTTGC ACTTGG

61 Allineamento Multiplo - Clustalw Bioinformatica61 PROFILI: Dato un allineamento multiplo M di N sequenze di lunghezza L, un profilo P è una matrice | {-}| L le cui colonne denotano le freaquenze di ogni simbolo nella corrispondente colonna dellallineamento; A¾000½½0¼ T0001½0¼0 G00½000¼0 C0¾ ¼¼½00½½¾ A-GTTTA AC-TTA-- ACGTAAG- -C-TA---

62 Allineamento Multiplo - Clustalw Bioinformatica62 ALLINEARE UNA SEQUENZA CON UN PROFILO: Sia P =(p ij ) per i=1… ||+1 e j=1… L un profilo, e sia S=s 1 …s n una sequenza. Possiamo definire la seguente funzione di score: σ sp : ( {-}) {1,2,…,L} R

63 Allineamento Multiplo - Clustalw Bioinformatica63 ALLINEARE DUE PROFILI: Siano P 1 =(p ij ) e P 2 =(p ik ) per i=1… ||+1, j=1… L k=1…L, due profili. Possiamo definire la funzione di score: σ pp : {1,2,…,L} {1,2,…,L} R Rimpiazzando la funzione di score σ con σ pp lallineamento di due allineamenti multipli si riduce al confronto di due profili;

64 Allineamento Multiplo - Clustalw Bioinformatica64 Utilizziamo SRS; Selezioniamo Library Page ; Scegliamo il DB Uniprotkb-SwissProt; Clicchiamo su Standard Query Form ; ESEMPIO PRATICO: Vogliamo allineare le sequenze aminoacidiche della proteina NAD6 dei metazoi ma non dei mammiferi;

65 Allineamento Multiplo - Clustalw Bioinformatica65 Impostiamo la Query

66 Allineamento Multiplo - Clustalw Bioinformatica66 Salviamo i risultati in un file di testo nel formato fasta2seqs;

67 Allineamento Multiplo - Clustalw Bioinformatica67 Sul sito di ClustalW facciamo un upload delle sequenze e lanciamo il tool

68 Allineamento Multiplo - Clustalw Bioinformatica68 Risultato dellallineamento: Formato testuale e colori.

69 Allineamento Multiplo - Clustalw Bioinformatica69 Sommario: Tabella delle distanze

70 Allineamento Multiplo - Clustalw Bioinformatica70 JALVIEW: Permette di visualizzare/editare lallineamento (modificando / cancellando / inserendo amino acidi) Colori: Ad ogni aminoacido (o simili) è assegnato un colore; Conservation: misura il numero di proprietà fisico-chimiche conservate per ogni colonna dell'allineamento. Quality: Qualità dellallineamento in base alla matrice di score utilizzata. Consensus: Aminoacido più conservato in ogni posizione (compreso il simbolo di gap). Se ci sono più consensi viene indicato il simbolo +;

71 Allineamento Multiplo - Clustalw Bioinformatica71 Albero filogenetico ricavato dallallineamento progressivo (i rami hanno lunghezza proporzionale alla distanza tra le sequenze).

72 Allineamento Multiplo - Clustalw Bioinformatica72 OPZIONI. Si seleziona il tipo di sequenza; Si incollano le sequenze o si fa un upload di un file;

73 Allineamento Multiplo - Clustalw Bioinformatica73 OPZIONI. Pairwise Alignment Type: Slow (lento ma accurato); Fast (veloce ma approssimato);

74 Allineamento Multiplo - Clustalw Bioinformatica74 OPZIONI. SLOW OPTIONS Matrici di score; GOP; GEP;

75 Allineamento Multiplo - Clustalw Bioinformatica75 OPZIONI. FAST OPTIONS KTUP: Più basso è il valore più accurata e la ricerca (ma più lento sarà il programma); Esso rappresenta il minimo numero di residui contigui identici affinchè una coppia di sequenze sia considerata simile; WINDOW LENGTH: Dimensione della finestra in cui vengono ricercati i residui contigui. Decrementare per velocizzare la ricerca; Incrementare per aumentare laccuratezza. SCORE TYPE: Percentuale o valore assoluto; TOPDIAG: Decrementare per velocizzare; Incrementare per aumentare laccuratezza. PAIRGAP: Gap penalty;

76 Allineamento Multiplo - Clustalw Bioinformatica76 OPZIONI. Multiple Alignment Type: Matrici di score; GOP e GEP; GAP Distances: Penalità assegnata a gap troppo vicini; NO ENDS GAPS: Riferito alla voce precedente per i gap alla fine delle sequenze; Iteration: Migliora la qualità dellallineamento (NO, Ad ogni step, solo allultimo allineamento). CLUSTERING: Tipo di clustering: Neighbour Joining etc.; Output Format;

77 Allineamento Multiplo - Clustalw Bioinformatica77 ESERCIZIO I: Identificare le sequenze corrispondenti della proteina (avente 214aa) umana shp-2 in topo, ratto e drosophila con E-value migliore. Costruirne l'allineamento multiplo; Quale è la parte più conservata? Visualizzare lalbero filogenetico e trarne le dovute considerazioni.

78 Allineamento Multiplo - Clustalw Bioinformatica78 ESERCIZIO II: Utilizzando Entrez o SRS, estrai le sequenze in formato Fasta delle proteine aventi i seguenti accession number: P96551, P47700, P48525, O33120 e O25360 e prendi nota degli organismi a cui appartengono; Conservare le sequenze fasta in un file; Lanciare ClustalW; A quale organismo appartiene la sequenza più lunga e di quanti aminoacidi è composta? Quali sono gli AC della coppia con score più alto?

79 Allineamento Multiplo - Clustalw Bioinformatica79 ESERCIZIO III: Recuperare le sequenze proteiche in formato fasta YP_ , YP_ , YP_ , NP_ , YP_ , YP_ , ZP_ Lanciare ClustalW; Visualizzare e commentare lalbero filogenetico.

80 Allineamento Multiplo – TCoffee Bioinformatica80

81 Allineamento Multiplo – TCoffee Bioinformatica81 T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) Dato un insieme di sequenze un allineamento è ottimale se esso è il più possibile consistente con tutti i possibili allineamenti pairwise ottimali; STEP 1: Viene generata una Primary Library contenente un insieme di allineamenti pair-wise tra tutte le sequenze di input. Allineamenti globali: tra tutte le coppie di sequenze (ClustalW); Allineamenti locali: I primi 10 migliori allineamenti locali per ogni coppia di sequenze (lalign); Ogni coppia di residui ha inizialmente un peso pari a quello dato dalla identità percentuale; Le due librerie vengono combinate in una sola con un semplice processo additivo: se una coppia di residui è presente in entrambe, viene fusa in una sola entry il cui peso è dato dalla somma dei pesi;

82 Allineamento Multiplo – TCoffee Bioinformatica82 Libreria primaria di allineamenti pairwise globali Tutte le coppie di sequenze in input vengono allineate mediante ClustalW. Per ogni allineamento pairwise viene calcolata lidentità percentuale: Dove sim(S 1,S 2 ) è il numero dei match nellallineamento e pos il numero delle coppie allineate di residui escluse quelle in cui compare un gap. S 1 ) A C A - G – T C A S 2 ) A G - T G C T – T

83 Allineamento Multiplo – TCoffee Bioinformatica83 Nella libreria ogni allineamento pairwise è rappresentato come una lista di coppie di residui pesati (constraint list); Inizialmente ogni coppia di residui riceve un peso equivalente alla sequence identity dellallineamento da cui proviene: Seq1Seq2Res1Res2Weight S1S21160 S1S22260 S1S24460 S1S25660 S1S27760 S 1 ) A C A - G – T C A S 2 ) A G - T G C T – T

84 Allineamento Multiplo – TCoffee Bioinformatica84 Viene creata una seconda libreria a partire dagli allineamenti locali creati con LAlign, un tool del pacchetto FASTA; Lallineamento locale di una coppia di sequenze S1, S2 consiste nellallineamento di sottosequenze di S1 ed S2, al fine di mettere in evidenza eventuali regioni ad alta similarità: LAlign restituisce i 10 migliori allineamenti locali (in termini di similarità) della coppia di sequenze in input; Una volta individuato lallineamento locale con il massimo score, LAlign cerca il successivo escludendo dalla ricerca le due regioni appena trovate: in questo modo gli allineamenti prodotti non si intersecheranno. S1S1 S2S2

85 Allineamento Multiplo – TCoffee Bioinformatica85 A partire dalle due librerie globale e locale viene creata ununica libreria primaria mediante una semplice operazione di addizione; Le coppie di residui comuni vengono sostituite da ununica entry il cui peso è la somma dei due pesi, mentre tutte le altre coppie vengono trascritte così come sono : Global Alignments by ClustalW Seq1Seq2Res1Res2Weight S1S21160 S1S22260 S1S23360 S1S25660 S1S27760 Local Alignments by LAlign Seq1Seq2Res1Res2Weight S1S21130 S1S22230 S1S23330 S1S S1S Primary Library Seq1Seq2Res1Res2Weight S1S21190 S1S22290 S1S23390 S1S25660 S1S27760 S1S S1S

86 Allineamento Multiplo – TCoffee Bioinformatica86 STEP II: Calcolo dei pesi nella Extended Library. Ad ogni coppia di residui allineati nella libreria viene assegnato un peso in base agli altri allineamenti pairwise; Date due sequenze S 1 e S 2. Allineamo prima S 1 e poi S 2 con le rimanenti; Fatto lallineamento tra S 1 e Z i e S 2 e Z i : se i residui x di S 1 e y di S 2 sono allineati con lo stesso residuo z di Z i allora il peso della coppia di residui w(x,y) viene incrementato ponendolo uguale a: w(x,y) + min(w(x,z),w(z,y)) Altrimenti nella libreria vengono inserite altre due coppie (x,z) e (z,y) con i relativi pesi; STEP III: Esegue lallineamento progressivo utilizzando la libreria al posto delle matrici di score;

87 Allineamento Multiplo – TCoffee Bioinformatica87 Quattro sequenze e il relativo allineamento progressivo con ClustalW SeqA GARFIELD THE LAST FAT CAT SeqB GARFIELD THE FAST CAT SeqC GARFIELD THE VERY FAST CAT SeqD THE FAT CAT SeqA GARFIELD THE LAST FA-T CAT SeqB GARFIELD THE FAST CA-T --- SeqC GARFIELD THE VERY FAST CAT SeqD THE FA-T CAT SeqA GARFIELD THE LAST FA-T CAT SeqB GARFIELD THE ---- FAST CAT SeqC GARFIELD THE VERY FAST CAT SeqD THE FA-T CAT from Notredam et al. 2000

88 Allineamento Multiplo – TCoffee Bioinformatica88 SeqA GARFIELD THE LAST FAT CAT SeqB GARFIELD THE FAST CAT --- SeqA GARFIELD THE LAST FA-T CAT SeqC GARFIELD THE VERY FAST CAT SeqA GARFIELD THE LAST FAT CAT SeqD THE ---- FAT CAT SeqB GARFIELD THE ---- FAST CAT SeqC GARFIELD THE VERY FAST CAT SeqB GARFIELD THE FAST CAT SeqD THE FA-T CAT SeqC GARFIELD THE VERY FAST CAT SeqD THE ---- FA-T CAT Consistency SeqA GARFIELD THE LAST FAT CAT |||||||| ||| |||| ||| SeqB GARFIELD THE FAST CAT --- SeqA GARFIELD THE LAST FAT CAT |||||||| ||| |||| || \ \\\ SeqC GARFIELD THE VERY FAST CAT |||||||| ||| |||| |||| ||| SeqB GARFIELD THE FAST CAT SeqA GARFIELD THE LAST FAT CAT ||| ||| ||| SeqD THE FAT CAT ||| ||\ \\\ SeqB GARFIELD THE FAST CAT STEP II: Per ogni coppia di sequenze controlla lallineamento di ogni coppia di residui usando gli altri allineamenti; Extended library SeqA GARFIELD THE LAST FAT CAT SeqB GARFIELD THE FAST CAT Programmazione dinamica SeqA GARFIELD THE LAST FA-T CAT SeqB GARFIELD THE ---- FAST CAT w(A(G),B(G)) + min(w(A(G),C(G)) w(C(G),B(G))) I pesi sono utilizzati nellallineamento finale progressivo al posto delle matrici di score Per esempio la coppia A(G),B(G) avrà un peso dato da: STEP I: Library of pairwise alignments

89 Allineamento Multiplo – TCoffee Bioinformatica89 Lalgoritmo: (1) Calcolo degli allineamenti pairwise con ClustalW; (2) Calcolo degli allineamenti locali con LAlign (10 migliori allineamenti per ogni coppia di sequenza) (3) Calcolo della primary library con i relativi pesi; (4) Estensione della libreria con il calcolo dei pesi in base a tutti gli allineamenti pariwise; (5) Allineamento progressivo usando i pesi per ogni coppia di residui al posto delle matrici di score; Weighting Primary library Extension Extended library Progressive alignment ClustalW global Pairwise alignments LAlign local pairwise alignments ABCABC

90 Allineamento Multiplo – TCoffee Bioinformatica90 Tool Online sul sito di EMBL

91 Allineamento Multiplo – TCoffee Bioinformatica91 Esempio di Output del tutto simile a quello di ClustalW;

92 Allineamento Multiplo – Anticlustal Bioinformatica92

93 Allineamento Multiplo – Anticlustal Bioinformatica93 Antipole Clustering Algorithm sostituisce lalbero guida di ClustalW per la costruzione dellallineamento multiplo; Permette di velocizzare il processo di allineamento con risultati paragonabili o migliori a quelli ottenuti con ClustalW; Il metodo di allineamento può essere riassunto in: Costruire lalbero di clustering (rappresenta lalbero filogenetico); Allinea progressivamente le sequenze partendo dalle foglie fino alla radice che conterrà lallineamento finale;

94 Allineamento Multiplo – Anticlustal Bioinformatica94 CLUSTERING: Presupposto: Sequenze lontane saranno sicuramente in cluster diversi. 1-Mediana approssimata per il calcolo del diametro; Splittare il dataset in due cluster; Applicare ricorsivamente il metodo fin quando la dimensione dei cluster supera un certo parametro σ;

95 Allineamento Multiplo – Anticlustal Bioinformatica95 1-Mediana Sia S un database di oggetti in uno spazio metrico, dato il numero intero k, il problema della k-mediana per S consiste nel trovare k oggetti c 1, c 2, …, c k in S che minimizzano: Per k = 1 il problema è chiamato 1-mediana e consiste nel ricercare un elemento tale che la seguente funzione è minimizzata:

96 Allineamento Multiplo – Anticlustal Bioinformatica96 1-Mediana approssimata

97 Allineamento Multiplo – Anticlustal Bioinformatica97 1-Mediana approssimata

98 Allineamento Multiplo – Anticlustal Bioinformatica98 1-Mediana approssimata

99 Allineamento Multiplo – Anticlustal Bioinformatica99 1-Mediana approssimata

100 Allineamento Multiplo – Anticlustal Bioinformatica100 1-Mediana approssimata

101 Allineamento Multiplo – Anticlustal Bioinformatica101 1-Mediana approssimata

102 Allineamento Multiplo – Anticlustal Bioinformatica102 1-Mediana approssimata

103 Allineamento Multiplo – Anticlustal Bioinformatica103 1-Mediana approssimata

104 Allineamento Multiplo – Anticlustal Bioinformatica104 1-Mediana approssimata The final winner

105 Allineamento Multiplo – Anticlustal Bioinformatica105 Pseudo Diametro: Se ad ogni step eliminiamo lelemento centrale e manteniamo gli altri due elementi, applicando lo stesso algoritmo possiamo calcolare un diametro approssimato (cioè la coppia di elementi più distanti);

106 Allineamento Multiplo – Anticlustal Bioinformatica106 Costruzione dellAntipole Tree

107 Allineamento Multiplo – Anticlustal Bioinformatica107 Costruzione dellAntipole Tree A B >

108 Allineamento Multiplo – Anticlustal Bioinformatica108 Costruzione dellAntipole Tree A B > SASA SBSB

109 Allineamento Multiplo – Anticlustal Bioinformatica109 Costruzione dellAntipole Tree > SASA SBSB A1A1 A2A2 B A

110 Allineamento Multiplo – Anticlustal Bioinformatica110 Costruzione dellAntipole Tree > SASA SBSB A1A1 A2A2 B A SA1SA1 SA2SA2

111 Allineamento Multiplo – Anticlustal Bioinformatica111 Costruzione dellAntipole Tree SASA SBSB A1A1 A2A2 B CA1CA1 CA2CA2 A

112 Allineamento Multiplo – Anticlustal Bioinformatica112 Costruzione dellAntipole Tree B > SASA SBSB A1A1 A2A2 B2B2 B1B1 CA1CA1 CA2CA2 A

113 Allineamento Multiplo – Anticlustal Bioinformatica113 Costruzione dellAntipole Tree B SASA SBSB A1A1 A2A2 B2B2 B1B1 CA1CA1 CA2CA2 A SB1SB1 SB2SB2

114 Allineamento Multiplo – Anticlustal Bioinformatica114 Costruzione dellAntipole Tree B SASA SBSB A1A1 A2A2 B2B2 B1B1 CA1CA1 CA2CA2 A CB1CB1 CB2CB2

115 Allineamento Multiplo – Anticlustal Bioinformatica115 Costruzione dellAntipole Tree A1A1 A2A2 B2B2 B1B1 CA1CA1 CA2CA2 CB1CB1 CB2CB2

116 Allineamento Multiplo – Anticlustal Bioinformatica116 How to align two clusters How to align the sequences in a cluster Multiple sequence alignment via the Antipole tree

117 Allineamento Multiplo – Anticlustal Bioinformatica117 ANTICLUSTAL++ Costruisce una libreria di pesi per ogni coppia di residui allo stesso modo di T- Coffee; Le sequenze sono clusterizzate con lalgoritmo Antipole; Lalbero antipole è visitato in modo bottom-up producendo una Level Matrix: Ad ogni step se due sequenze si trovano assieme nello stesso cluster, la corrispondente entry nella matrice viene incrementato; Alla fine la Level Matrix darà un indice di similarità tra le sequenze; Tale matrice verrà usata per raffinare la libreria che alla fine verrà usata per lallineamento vero e proprio allo stesso modo di T-Coffee;

118 Allineamento Multiplo – Anticlustal Bioinformatica118 Formato di Output: FASTA, GCG, etc; Metodi per calcolare la libreria: ClustalW, FASTA etc. Programmazione dinamica: Myers and Miller, FASTA, etc. Usare un albero filogenetico precalcolato;

119 Allineamento Multiplo – Anticlustal Bioinformatica119 Metric: CRISP o PAM; Diameter: Distanza per cui due sequenze sono considerate diverse; GOP e GEP; Metodo di vista dellalbero antipole: Right Left o Left Right; Web Logo: E una rappresentazione grafica dellallineamento; Si possono fornire i residui di Start e End per la rappresentazione grafica;

120 Allineamento Multiplo – Anticlustal Bioinformatica120 ESEMPIO: Risultati di un allineamento con tutti gli elementi scaricabili;

121 Allineamento Multiplo – Anticlustal Bioinformatica121 ESERCIZIO: Utilizzando Entrez o SRS, estrai le sequenze in formato Fasta delle proteine aventi i seguenti accession number: P96551, P47700, P48525, O33120 e O25360 e prendi nota degli organismi a cui appartengono; Conservare le sequenze fasta in un file; Confrontare lalbero filogenetico costruito con ClustalW e quello ottenuto dallalgoritmo antipole. Ci sono differenze?

122 Allineamento Multiplo – MUSCLE Bioinformatica122 MUSCLE: MUltiple Sequence Comparison by Log- Expectation

123 Allineamento Multiplo – MUSCLE Bioinformatica123 Stage 1 Stage 2 Stage 3

124 Allineamento Multiplo – MUSCLE Bioinformatica124 Stage 1 Stage 2 Stage 3

125 MUSCLE - Stage 1 1. Calcola la kmer distance tra tutte le coppie di sequenze; 2. Similmente al neighbor- joining, con tali distanze viene calcolato il guide tree basato su UPGMA (Unweighted Pair Group Method with Arithmetic mean); 3. Calcola lallineamento progressivo; Bioinformatica125

126 k mer distance Date due sequenze X e Y la kmer similarity è così definita: dove t è un kmer (una sottosequenza di lunghezza k) l X, l Y lunghezze delle sequenze n X (t), n Y (t): numero di volte che t occorre in X e Y srispettivamente La similarità è definita come la frazione di kmers che sono conservati tra le due sequenze (la distanza è definita come 1-dXY) Sequenze correlate tendono ad avere molti kmers in comune rispetto a quelle attese per caso. E più veloce. MUSCLE usa inoltre un alfabeto compresso (classi di amino acidi). Bioinformatica126

127 MUSCLE - Stage 2: Improved progressive 1. Utilizzando lallineamento del primo step, vengono estratti tutti gli allineamenti pairwise che ne derivano; 2. Viene calcolata la Kimura distance tra tutte le coppie di sequenze; 3. Viene calcolato un nuovo albero usando queste distanze; 4. Viene calcolato un nuovo allineamento multiplo con lallineamento progressivo; Bioinformatica127

128 Kimura Distance Gli score generalemente sono calcolati come la percentuale di match nel migliore allineamento (gap e indel hanno lo stesso score). Tale score è chiamato fractional identity D e1- D è una buona approssimazione della distanza evolutiva reale per sequenze simili. Per sequenze con bassa similarità viene utilizzata la distanza di Kimura che tiene in considerazione lalta probabilità che delle mutazioni possono verificarsinella stessa posizione. D kimura = ln (1- D – D 2 /5) Bioinformatica128

129 MUSCLE - Stage 3:Refinement 1. Sceglie un arco random nellalbero; 2. Divide le sequenze in due set; 3. Estrae i due allineamenti multipli (profile) corrispondenti; 4. Rellainea i due profili; 5. Accetta il nuovo allineamento se gli score (Sum of Pair) sono migliori; 6. Itera; Bioinformatica129

130 Allineamento Multiplo – MUSCLE Bioinformatica130

131 Allineamento Multiplo – MUSCLE Bioinformatica131

132 Allineamento Multiplo – PROBCONS Bioinformatica132

133 Allineamento Multiplo – PROBCONS Bioinformatica133 Lalgoritmo: (1) Calcola le Pair HMM posterior probabilities per ogni coppia di sequenze; (2) Calcola la maximum expected accuracy tra tutte le coppie di sequenze; (3) Applica la probabilistic consistency transformation alle posterior probabilities; (4)Calcola il guide tree dai valori maximum expected accuracy; (5)Allinea le sequenze progressivamente usando il guide tree; (6)Raffina iterativamente lallineamento multiplo;

134 First order Hidden Markov Model (HMM) X1X1 X2X2 X L-1 XLXL XiXi Hidden states Observed symbols H1H1 H2H2 H L-1 HLHL HiHi Markov Property: The state of the system at time i+1 depends only on the state of the system at time i transition probabilities (between hidden states) emission probabilities (probability that a given observation symbol was generated by a hidden state) Three problems Evaluation (Computed with forward and backward probabilities) Given a model M and an observation x, Compute Pr[ x | M ] Decoding (Viterbi Algorithm or Posterior Decoding) Given a model M and an observation x, Identify a hidden state sequence which maximizes Pr[ x, | M ] Likelihood of evidence Given a model M with unspecified transition emission probabilities and an observation x Pr[x| M] Durbin et al. (1998) Bioinformatica134

135 Pair HMMs START M P s[i]t[j] I S q s[i] I T q t[j] END startMISIS ITIT end start --1-2δ-τδδτ M --1-2δ-τδδτ ISIS --1-ε-τε--τ ITIT 1-ε-τ--ετ end -- 1 Emission probabilities: M Pr[(a,b) | M] = p ab I S Pr[(a,-) | I S ] = q a I T Pr[(-,a) | I T ] = q a BLOSUM estimation Transition probabilities: With pair HMMs Viterbi algorithm can be used to compute the optimal pairwise alignment of two sequences; computing if two sequences are related to the pair HMM using the forward algorithm; finding the posterior probabilities of an alignment, an aligned pair of symbols; computing the expected accuracy of a given alignment. Durbin et al. (1998) Bioinformatica135

136 PHMM posterior probabilities for each pair of sequences. Reliability measure for each part of an alignment Given two residues s i, t j from sequence S and T of length n and m Uses forward and backward algorithms for Pair HMM to compute posterior probabilities that s i and t j are matched in the alignment (the true biological one) M P s[i]t[ j] I S q s[i] I T q t[j] Will be equal to 1 when s i and t j are aligned in a, 0 otherwise The probability of any single complete path being entirely correct is small. To analyze the local accuracy of an alignment could result very useful. Often part of an alignment is fairly clear and other regions are less certain. It can be useful to be able to give a reliability measure for each part of an alignment. Bioinformatica136

137 Compute the maximum expected accuracy Compute an alignment a by align sequences with simple Needleman-Wunsch algorithm Using the posterior probabilities as the match and mismatch scores Set Gap penalties to 0 The goal is to find an alignment a which maximizes the expected accuracy ( try to identify a* -- the best alignment -- for all sequence pairs). This can be expressed in function of posterior match probabilities. Bioinformatica137

138 Probabilistic consistency Apply probabilistic consistency approximating it using matrix multiplication. The probability of residues s i and t j being aligned given the set of all sequences Bioinformatica138

139 Guide tree computation and progressive alignment Use UPGMA as guide tree built using maximum expected accuracy distances Perform profile alignment with sum-of-pairs with maximal expected accuracy scoring No gap penalties Bioinformatica139

140 Iterative refinement Randomly partition sequences into two sets Extract multiple alignments for both sets from current multiple alignment Re-align two multiple alignments No gap penalty, sum-of-pairs scoring guaranteed to increase or stay the same Bioinformatica140

141 ProbCons is a PHMM model-based progressive alignment which uses Maximum Expected Accuracy and integrates probabilistic consistency transformation. Bioinformatica141

142 Allineamento Multiplo – PROBCONS Bioinformatica142


Scaricare ppt "Bioinformatica Allineamento di sequenze e ricerca di similarità Dr. Giuseppe Pigola –"

Presentazioni simili


Annunci Google