La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Presentazioni simili


Presentazione sul tema: "Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano."— Transcript della presentazione:

1 Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano una storia evolutiva comune Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano una storia evolutiva comune Quindi, per allineare due o più sequenze si simulano i processi evolutivi: Quindi, per allineare due o più sequenze si simulano i processi evolutivi: Le sostituzioni non sono tutte uguali: alcune sono evolutivamente più tollerate dallevoluzione di altre Le sostituzioni non sono tutte uguali: alcune sono evolutivamente più tollerate dallevoluzione di altre E meglio che inserzioni/cancellazioni (gap nellallineamento) appaiano consecutivamente E meglio che inserzioni/cancellazioni (gap nellallineamento) appaiano consecutivamente Sono stati definiti opportuni parametri di allineamento -> matrici di sostituzione PAM/BLOSUM Sono stati definiti opportuni parametri di allineamento -> matrici di sostituzione PAM/BLOSUM Ad ogni allineamento di due sequenze si associa un punteggio, dato dalla somma dei punteggi di ciascuna colonna Ad ogni allineamento di due sequenze si associa un punteggio, dato dalla somma dei punteggi di ciascuna colonna

2 Allineamento Lallineamento, così come lo abbiamo visto finora, è globale Lallineamento, così come lo abbiamo visto finora, è globale Ovvero, cerca di mettere in relazione evolutiva due sequenze dallinizio alla fine Ovvero, cerca di mettere in relazione evolutiva due sequenze dallinizio alla fine Ovvero, suppone che per ogni a.a. o nucleotide di una sequenza ci sia un legame evolutivo con un elemento dellaltra Ovvero, suppone che per ogni a.a. o nucleotide di una sequenza ci sia un legame evolutivo con un elemento dellaltra In realtà, quando si confrontano sequenze molto divergenti (grande distanza evolutiva...) In realtà, quando si confrontano sequenze molto divergenti (grande distanza evolutiva...)

3 Allineamento Lallineamento globale spesso non riesce ad allineare correttamente le due regioni effettivamente simili, perché limita inserzioni e cancellazioni La similarità tra due sequenze può essere limitata solo ad alcune regioni (i domini) mentre per il resto non si osserva alcuna conservazione --> nessun evidente legame evolutivo

4 Lallineamento locale Posso fare unaltra cosa: chiedere al programma che sto utilizzando cerca allinterno di queste due sequenze due regioni che si assomigliano tra loro Posso fare unaltra cosa: chiedere al programma che sto utilizzando cerca allinterno di queste due sequenze due regioni che si assomigliano tra loro Quindi, eseguo un allineamento locale: voglio che il programma estragga solo le regioni delle sequenze che sono effettivamente simili tra loro, e allinei soltanto quelle Quindi, eseguo un allineamento locale: voglio che il programma estragga solo le regioni delle sequenze che sono effettivamente simili tra loro, e allinei soltanto quelle Ovvero, gli algoritmi di allineamento locale estraggono dalle due sequenze le due regioni che allineate producono lallineamento dal punteggio massimo (data una matrice dei punteggi come PAM o BLOSUM) Ovvero, gli algoritmi di allineamento locale estraggono dalle due sequenze le due regioni che allineate producono lallineamento dal punteggio massimo (data una matrice dei punteggi come PAM o BLOSUM) Daltra parte, anche BLAT eseguiva un allineamento locale tra trascritti e genoma! Daltra parte, anche BLAT eseguiva un allineamento locale tra trascritti e genoma!

5 Globale vs locale Lallineamento globale probabilmente non riuscirebbe ad allineare correttamente le due regioni effettivamente simili Lallineamento locale di solito se ne accorge!

6 Globale vs locale Lallineamento globale cerca legami evolutivi per le intere sequenze, dallinizio alla fine, e produce un allineamento per tutte le basi delle sequenze Lallineamento globale cerca legami evolutivi per le intere sequenze, dallinizio alla fine, e produce un allineamento per tutte le basi delle sequenze Lallineamento locale cerca regioni simili tra loro allinterno delle sequenze, e allinea soltanto quelle (nellesempio precedente allineerebbe solo quelle in blu) - almeno una coppia, ma se ce ne sono di più, può allineare più coppie di regioni (allineate le prime due, vede se nel resto delle sequenze esistono altre coppie di regioni che producono un buon allineamento Lallineamento locale cerca regioni simili tra loro allinterno delle sequenze, e allinea soltanto quelle (nellesempio precedente allineerebbe solo quelle in blu) - almeno una coppia, ma se ce ne sono di più, può allineare più coppie di regioni (allineate le prime due, vede se nel resto delle sequenze esistono altre coppie di regioni che producono un buon allineamento Quando due sequenze sono altamente conservate, allineamento globale e locale coincidono Quando due sequenze sono altamente conservate, allineamento globale e locale coincidono

7 Globale vs locale A bit of sugar please Un peu de sucre sil vous plait A bit of sugar please Un peu de sucre sil vous plait Allineamenti: sugar con sucre e please con plait - il resto delle sequenze viene ignorato sugar- suc-re plea-se pl-ait-

8 Ricerca per similarità A oggi sono note milioni di sequenze di vario tipo (DNA, RNA, proteine, ecc. ecc.) A oggi sono note milioni di sequenze di vario tipo (DNA, RNA, proteine, ecc. ecc.) Problema: ho sviluppato un metodo per confrontare le sequenze, ma come faccio a scegliere le sequenze da allineare? Problema: ho sviluppato un metodo per confrontare le sequenze, ma come faccio a scegliere le sequenze da allineare? Idealmente, potrei chiedermi: data una sequenza di partenza, esistono sequenze note che le assomigliano Idealmente, potrei chiedermi: data una sequenza di partenza, esistono sequenze note che le assomigliano Oppure: fammi una classifica delle sequenze note sulla base della similarità ad una sequenza data Oppure: fammi una classifica delle sequenze note sulla base della similarità ad una sequenza data

9 Ricerca per similarità Esempio: ho appena sequenziato qualcosa, vorrei sapere se esiste (è già stato sequenziato) oppure no Esempio: ho appena sequenziato qualcosa, vorrei sapere se esiste (è già stato sequenziato) oppure no Esempio: so che quello che ho sequenziato è nuovo. Vorrei sapere quale potrebbe essere una funzione. Cerco sequenze che assomiglino alla mia sequenza, con il principio più le assomigliano, più è probabile che abbiano la stessa funzione Esempio: so che quello che ho sequenziato è nuovo. Vorrei sapere quale potrebbe essere una funzione. Cerco sequenze che assomiglino alla mia sequenza, con il principio più le assomigliano, più è probabile che abbiano la stessa funzione Esempio: sto studiando un gene (es. umano). Voglio ricostruirne la storia evolutiva, vedendo se/quanti ortologhi o paraloghi ha, se/dove è conservato in altre specie, ecc. ecc. Esempio: sto studiando un gene (es. umano). Voglio ricostruirne la storia evolutiva, vedendo se/quanti ortologhi o paraloghi ha, se/dove è conservato in altre specie, ecc. ecc.

10 Ricerca per similarità Le sequenze biologiche sono solitamente depositate in banche date ad accesso pubblico o gratuito Le sequenze biologiche sono solitamente depositate in banche date ad accesso pubblico o gratuito Tre le principali: NCBI (USA), EBI (Europa), DDBJ (Giappone) Tre le principali: NCBI (USA), EBI (Europa), DDBJ (Giappone) Vengono sincronizzate tutti i giorni: ovvero le sequenze contenute sono le stesse in tutte e tre le banche dati Vengono sincronizzate tutti i giorni: ovvero le sequenze contenute sono le stesse in tutte e tre le banche dati Abbiamo visto il sito e le banche dati curate dallNCBI Abbiamo visto il sito e le banche dati curate dallNCBI Idea: posso confrontare una sequenza data con tutte le sequenze contenute in una banca dati, e fare una classifica per similarità? Idea: posso confrontare una sequenza data con tutte le sequenze contenute in una banca dati, e fare una classifica per similarità?

11 Ricerca per similarità Oggi tutte le banche dati di sequenze permettono agli utenti di effettuare ricerche per similarità Oggi tutte le banche dati di sequenze permettono agli utenti di effettuare ricerche per similarità Lutente fornisce una sequenza di input, che viene confrontata con tutte le sequenze dello stesso tipo contenute nella banca dati Lutente fornisce una sequenza di input, che viene confrontata con tutte le sequenze dello stesso tipo contenute nella banca dati Le sequenze della banca dati vengono allineate una per una con la sequenza di input query, tramite allineamento locale Le sequenze della banca dati vengono allineate una per una con la sequenza di input query, tramite allineamento locale Allutente viene riportata la classifica di similarità rispetto alla query, sulla base del punteggio dellallineamento risultante con anche unindicazione se la similarità riscontrata dallallineamento è significativa oppure no Allutente viene riportata la classifica di similarità rispetto alla query, sulla base del punteggio dellallineamento risultante con anche unindicazione se la similarità riscontrata dallallineamento è significativa oppure no

12 BLAST BLAST (che sta per Basic Local Alignment Search Tool) è lo standard de facto per ricerche di questo tipo BLAST (che sta per Basic Local Alignment Search Tool) è lo standard de facto per ricerche di questo tipo Normalmente, ogni banca dati ha incorporata una ricerca per similarità tramite BLAST Normalmente, ogni banca dati ha incorporata una ricerca per similarità tramite BLAST … e, in effetti BLAT (Blast-Like Alignment Tool) è una versione semplificata e specializzata per allineare una sequenza ad un genoma … e, in effetti BLAT (Blast-Like Alignment Tool) è una versione semplificata e specializzata per allineare una sequenza ad un genoma Noi utilizzeremo il BLAST associato alla banca dati principale (lNCBI) Noi utilizzeremo il BLAST associato alla banca dati principale (lNCBI)

13 BLAST Quello che fa BLAST (sommariamente): Quello che fa BLAST (sommariamente): Prende una sequenza (nucleotidica o proteica) query Prende una sequenza (nucleotidica o proteica) query La confronta con tutte le sequenze dello stesso tipo presenti nella banca dati La confronta con tutte le sequenze dello stesso tipo presenti nella banca dati Poiché devono essere eseguiti milioni di allineamenti, utilizza una versione velocizzata dellalgoritmo di allineamento locale Poiché devono essere eseguiti milioni di allineamenti, utilizza una versione velocizzata dellalgoritmo di allineamento locale Utilizza un indice delle sequenze della banca dati Utilizza un indice delle sequenze della banca dati Esclude a priori le sequenze della banca dati che hanno poche speranze di produrre un buon allineamento con la sequenza query Esclude a priori le sequenze della banca dati che hanno poche speranze di produrre un buon allineamento con la sequenza query Calcola il punteggio di ciascun allineamento, e ordina le sequenze del database sulla base del punteggio: la prima sarà quella con punteggio più alto, e quindi la più simile Calcola il punteggio di ciascun allineamento, e ordina le sequenze del database sulla base del punteggio: la prima sarà quella con punteggio più alto, e quindi la più simile Valuta la significatività degli allineamenti ottenuti, ovvero se lallineamento/punteggio ottenuto può essere indicativo di effettivo legame evolutivo, oppure può essere frutto del caso Valuta la significatività degli allineamenti ottenuti, ovvero se lallineamento/punteggio ottenuto può essere indicativo di effettivo legame evolutivo, oppure può essere frutto del caso BLAST viene quindi utilizzato solitamente per: BLAST viene quindi utilizzato solitamente per: Scoprire se una sequenza esiste già Scoprire se una sequenza esiste già Scoprirne ortologhe/paraloghe per fare ipotesi sulla funzione o sulla storia evolutiva del gene che stiamo studiando Scoprirne ortologhe/paraloghe per fare ipotesi sulla funzione o sulla storia evolutiva del gene che stiamo studiando

14 Significatività statistica Quando viene eseguito un BLAST, la sequenza data viene confrontata solitamente con milioni di altre sequenze Quando viene eseguito un BLAST, la sequenza data viene confrontata solitamente con milioni di altre sequenze Quando si trova un allineamento con un certo punteggio, è anche opportuno chiedersi se sia il risultato del fatto che - avendo così tante sequenze - prima o poi è normale che se ne trovi una che produca quellallineamento Quando si trova un allineamento con un certo punteggio, è anche opportuno chiedersi se sia il risultato del fatto che - avendo così tante sequenze - prima o poi è normale che se ne trovi una che produca quellallineamento

15 Significatività statistica Si cerca di valutare quanto sia probabile che lallineamento sia dovuto al caso Si cerca di valutare quanto sia probabile che lallineamento sia dovuto al caso Principio che non si applica solo agli allineamenti: è spesso necessario chiedersi se ciò che si osserva sia dovuto al caso, oppure no Principio che non si applica solo agli allineamenti: è spesso necessario chiedersi se ciò che si osserva sia dovuto al caso, oppure no Il caso dipende da: Il caso dipende da: Comè fatta la vostra sequenza Comè fatta la vostra sequenza Quante sequenze ci sono in banca dati Quante sequenze ci sono in banca dati Quale matrice di confronto usate Quale matrice di confronto usate

16

17 BLAST Lutilizzo è semplice: si inserisce la sequenza, e si sceglie contro quale insieme di sequenze allinearla. Normalmente, gli altri parametri sono impostati automaticamente

18 BLAST output

19 BLAST output (per ogni sequenza della classifica)

20 Significatività statistica BLAST associa a ciascun allineamento un E-value (Expected Value - tradotto in italiano - valore atteso) BLAST associa a ciascun allineamento un E-value (Expected Value - tradotto in italiano - valore atteso) Il significato dellE-value è Il significato dellE-value è Il numero atteso di sequenze della banca dati che mi aspetto per caso produrre un allineamento con lo stesso punteggio

21 BLAST E-value Quando lE-value è 1, allora vuol dire cè una sequenza della banca dati che mi aspetto produca per caso un allineamento con questo punteggio -> NON significativo - le sequenze non sono abbastanza simili per essere sospettate di essere omologhe Quando lE-value è 1, allora vuol dire cè una sequenza della banca dati che mi aspetto produca per caso un allineamento con questo punteggio -> NON significativo - le sequenze non sono abbastanza simili per essere sospettate di essere omologhe Quando lE-value è 0, allora vuol dire ci sono zero sequenze della banca dati che mi aspetto producano per caso un allineamento con questo punteggio -> SIGNIFICATIVO - ipotizzo le sequenze siano omologhe Quando lE-value è 0, allora vuol dire ci sono zero sequenze della banca dati che mi aspetto producano per caso un allineamento con questo punteggio -> SIGNIFICATIVO - ipotizzo le sequenze siano omologhe E-value tra zero e 1: più è vicino allo zero più è affidabile lipotesi di omologia E-value tra zero e 1: più è vicino allo zero più è affidabile lipotesi di omologia Regola a spanne: scarto le sequenze con E- value in cui non compare la e! Regola a spanne: scarto le sequenze con E- value in cui non compare la e!


Scaricare ppt "Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano."

Presentazioni simili


Annunci Google