La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Bioinformatica Catene di Markov, HMM – GenScan – EasyBack Dr. Giuseppe Pigola –

Presentazioni simili


Presentazione sul tema: "Bioinformatica Catene di Markov, HMM – GenScan – EasyBack Dr. Giuseppe Pigola –"— Transcript della presentazione:

1 Bioinformatica Catene di Markov, HMM – GenScan – EasyBack Dr. Giuseppe Pigola –

2 Catene di Markov Una catena di Markov del primo ordine è una tripla, dove: S={s 1,s 2,…,s N } è un insieme finito di stati (eventi); è la probabilità iniziale degli stati (è rappresentato da un vettore); A è un insieme di probabilità di transizione tale che: Dove con q t indichiamo lo stato al tempo t (discreto); A è rappresentata da una matrice. Valgono le seguenti: Bioinformatica2

3 Catene di Markov La catene di Markov del primo ordine sono anche dette catene di Markov memoryless dato che la probabilità che avvenga un evento dipende solo dallevento che si è verificato allistante precedente; In una catena di Markov di ordine k la probabilità che avvenga un evento dipende dai k precedenti stati; Bioinformatica3

4 Catene di Markov In una catena di Markov del primo ordine, se vogliamo calcolare la probabilità di una serie di stati Dato che il valore alistante i dipende solo dallistante precedente Ne segue che Bioinformatica4

5 Catene di Markov In una catena di Markov del primo ordine, se vogliamo calcolare la probabilità di una serie di stati Dato che il valore alistante i dipende solo dallistante precedente Ne segue che Bioinformatica5

6 Catene di Markov Esempio: Bioinformatica6 P(Sun, Rain, Rain, Rain, Snow, Snow) = P(Sun) P(Rain | Sun) P(Rain | Rain)P(Rain | Rain) P(Snow | Rain) P(Snow | Snow)

7 Catene di Markov Catena di Markov per stringhe di DNA: Bioinformatica7

8 Catene di Markov DEFINIZIONE Se nella diagonale della matrice di transizione troviamo un 1, allora lo stato contrassegnato da questo valore viene chiamato stato assorbente (Se si arriva a quello stato non si uscira più); DEFINIZIONE Una catena di Markov si dice Finita se è formata da un insieme finito di stati; DEFINIZIONE Una catena di Markov si dice Aperiodica se gli stati non vengono osservati mai in modo periodico; DEFINIZIONE Una catena di Markov si dice Irriducibile se tutti gli stati prima o poi vengono raggiunti (non ci sono zeri nella matrice di transizione); Bioinformatica8

9 Catene di Markov ESEMPIO: CATENA DI MARKOV PERIODICA Bioinformatica9

10 Catene di Markov ESEMPIO Bioinformatica10

11 Catene di Markov ESEMPIO Bioinformatica11

12 Catene di Markov ESEMPIO: Considerazioni sulla matrice di transizioni. Moltiplicando la matrice per se stessa ci riferiamo allistante t+2. Bioinformatica12

13 Catene di Markov ESEMPIO: Se una persona compra attualmente Coca, quale sarà la probabilità che tra tre volte comprerà Pepsi? Bioinformatica13

14 Catene di Markov ESEMPIO: Se una persona compra attualmente Coca, quale sarà la probabilità che tra tre volte comprerà Pepsi? Bioinformatica14

15 Catene di Markov Possiamo rappresentare la matrice di transizione attraverso autovalori e autovettori e sfruttare questi per evitare di fare i prodotti di matrici. Suponiamo di avere una matrice P = s x s con s autovalori distinti (ottenuti calcolando det(P- I)=0): Per le proprietà di autovalori e autovettori, ogni autovalore ha associato un autovettore destro R e un autovettore sinistro L tali che Bioinformatica15

16 Catene di Markov AUTOVALORI AUTOVETTORI Bioinformatica16

17 Catene di Markov Se vale La matrice si può scrivere come (operazione Spettrale): E quindi Bioinformatica17

18 Catene di Markov Una persona compra una bibita alla settimana; Inizialmente abbiamo una distribuzione in cui il 60% delle persone compra Coca e il rimanente 40% compra Pepsi; Quale è la frazione di persone che comprerà Coca fra tre settimane? Vogliamo conoscere la distribuzione degli acquisti in un certo istante (X=3) a partire da una data distribuzione iniziale; Bioinformatica18

19 Catene di Markov Ci serve Dobbiamo considerare la colonna relativa alla Coca e moltiplicare per la distribuzione iniziale Bioinformatica19

20 Catene di Markov Generalizzando: D 0 : Distribuzione iniziale degli stati; D i : Distribuzione nella settimana i (D i = D 0 *P i ); Proprietà: Allaumentare di i, la distribuzione di probabilità varia fino a raggiungere valori stazionari (Distribuzione Stazionaria); Bioinformatica20

21 Catene di Markov – Distribuzione Stazionaria D 0 * P = D 1 D 0 * P 2 = D 2 D 0 * P n = D n Distribuzione di probabilità degli stati dopo n istanti; Una distribuzione si dice stazionaria se Riferendoci al generico elemento della distribuzione si avrà Mentre riferendoci alla catena di Markov Si dimostra che la distribuzione stazionaria corrisponde allautovettore sinistro associato al primo autovalore (quello dominante), cioè Bioinformatica21

22 Catene di Markov – Distribuzione Stazionaria Consideriamo ora la probabilità di transizione dallo stato i allo stato j. Per Bayes Si ha dove rappresenta la probabilità di transizione dallo stato i allo stato j in una catena di Markov identica in cui però la successione di istanti decresce (di tipo backward) e quindi equivale a Bioinformatica22

23 Catene di Markov – Distribuzione Stazionaria Per valori di t sufficientemente elevati vale quindi Questultima condizione esprime la condizione necessaria e sufficiente affinché sia la distribuzione stazionaria di una catena di Markov avente P come matrice di transizione. Bioinformatica23

24 Catene di Markov – Distribuzione Stazionaria Se una catena di Markov è finita, aperiodica e irriducibile, allora essa ha una distribuzione stazionaria. Possiamo calcolare la distribuzione stazionaria risolvendo semplicemente il sistema: Bioinformatica24

25 Catene di Markov – Markov Chain Montecarlo Data una catena di Markov finita, aperiodica e irriducibile possiamo determinare la distribuzione stazionaria associata; Viceversa, data una distribuzione stazionaria possiamo costruire una catena di Markov che converga alla distribuzione stazionaria (Markov Chain Montecarlo): Metodo Hasting Metropolis; Gibbs Sampling; Bioinformatica25

26 Catene di Markov – Hasting Metropolis In questo caso abbiamo a disposizione una distribuzione stazionaria Consideriamo delle costanti (definite in modo random) come segue Definiamo inoltre e Si dimostra che la matrice di probabilità P è la matrice di transizione di una catena di Markov che ha per distribuzione stazionaria quella data. Bioinformatica26 P

27 Catene di Markov – Gibbs Sampling Sia x=(x 1,x 2,…,x n ) una variabile casuale e sia y un vettore di k valori scelti a caso tra x 1,x 2,…,x n con possibili ripetizioni. Sia P x (x) la distribuzione di probabilità della variabile x. Definiamo la catena di Markov i cui stati sono tutti i possibili valori di y. Siano i vettori i e j due stati della catena. Definiamo la probabilità come: se i vettori i e j differiscono su più componenti; Se i e j differiscono su al più una componente h: Bioinformatica27

28 Catene di Markov – Gibbs Sampling Si dimostra che P x (x) è la distribuzione stazionaria della catena di Markov che ha per matrice di transizione la matrice P. Bioinformatica28

29 Catene di Markov – Allineamento Supponiamo di avere N sequenze L 1,L 2,…,L n in un alfabeto (ad es. Sequenze aminoacidiche); Vogliamo trovare N segmenti di lunghezza w tali da massimizzare la similarità tra le sequenze Bioinformatica29

30 Catene di Markov – Allineamento In ogni sequenza i possibili segmenti di lunghezza w sono Un algoritmo brute-force dovrebbe considerare tutte le combinazioni di segmenti di lunghezza w nelle sequenze Consideriamo invece una catena di Markov con S stati in cui ogni stato rappresenta una scelta di segmenti nelle N sequenze (e quindi a un possibile allineamento); Bioinformatica30

31 Catene di Markov – Allineamento Scegliamo uno stato iniziale casuale (scegliamo uno dei possibili allineamenti a caso); Consideriamo la matrice A NxW dei segmenti scelti; Rimuoviamo ad ogni passo da A il segmento relativo ad una sequenza e lo sostituiamo con un altro della stessa sequenza in base alla probabilità definita in modo opportuno; In questo modo passiamo da uno stato ad un altro della catena; Bioinformatica31

32 Catene di Markov – Allineamento Bioinformatica32

33 Catene di Markov – Allineamento Ad ogni carattere j presente nellallineamento è associata una probabilità p j (frequenza nelle sequenze di input); Definiamo la probabilità di transizione come Dove: c ij il numero di volte che il carattere j compare nella colonna i allinterno dellarray ridotto; b j è detta probabilità di background e serve a fare in modo che q ij non sia nulla. In generalmente è inizializzata a Bioinformatica33

34 Catene di Markov – Allineamento Lobbiettivo ad ogni step è quello di fare una sostituzione di segmenti che migliori la qualità dellallineamento; Sia il segmento che deve rimpiazzare quello cancellato; Definiamo: Bioinformatica34 P prodotto delle probabilità di background Q probabilità stimata dei caratteri di x nellinsieme ridotto di n-1 sequenze

35 Catene di Markov – Allineamento Definiamo il likelyhood_ratio di x come Allora la probabilità di transizione dallo stato s (quello contenente la vecchia sequenza) allo stato u (quello contenente x) come L h è la sequenza contenente x; Il denominatore è la somma di tutti i LR di tutti i possibili segmenti di lunghezza w in L h ; In altre parole P rappresenta la probabilità di scegliere il segmento x; Bioinformatica35

36 Catene di Markov – Allineamento Come scegliamo il segmento x tra le possibilità??? La scelta più ragionevole sembra essere quella di scegliere il segmento x con LR massimo: Questo suggerirebbe che la frequenza di caratteri di x nella popolazione ridotta delle sequenze è molto più alta della frequenza dei caratteri x nella popolazione totale (mediamente); In tal caso si avrebbe appunto e quindi LR alto; Bioinformatica36

37 Catene di Markov – Allineamento In realtà è più conveniente scegliere x in modo caso (seguendo la probabilità di transizione dei possibili stati successivi)!!! E più veloce (non dobbiamo calcolare probabilità P); E più accurato (il metodo precedente potrebbe portare a massimi locali)!!!! Dietro questa scelta apparentemente senza senso ci sono in realtà dei fondamenti matematici basati sul concetto di entropia relativa; Se osserviamo bene come è definita la catena di Markov ci accorgiamo che rientriamo nella definizione di catena di Markov del Gibbs Sampling; Ne segue che la Catena di Markov converge a una distribuzione stazionaria (anche se scegliamo ad ogni istante uno stato in modo casuale tra i possibili); Bioinformatica37

38 Catene di Markov – Allineamento Come visto in precedenza Dove c ij (s) è il numero di volte che il carattere j si presenta nella colonna i nello stato s; Si dimostra che Il vettore definito da Rappresenta la distribuzione stazionare della nostra catena di Markov. Bioinformatica38

39 Hidden Markov Models Un HMM è definito da una quintupla, dove: S={s 1,s 2,…,s N } è un insieme finito di stati nascosti; V={v 1,v 2,…,v M } è un insieme di stati osservabili; è la probabilità iniziale degli stati (è rappresentato da un vettore); A è un insieme di probabilità di transizione tale che Dove con q t indichiamo lo stato al tempo t (discreto); B rappresenta le probabilità di emissione tale che: Anche B è rappresentata da una matrice. Bioinformatica39

40 Hidden Markov Models Bioinformatica40 Esempio: Data la sequenze di stati osservabili, quale è la sequenza di stati nascosti più probabile che lha generata?

41 Catene di Markov ESEMPIO: Cerchiamo un modello per discriminare due ipotetiche regioni di DNA (Sopponiamo per semplicità di avere solo due nucleotidi). Bioinformatica41 III ATTA TTAT AAAT TAAT … TTAA TATA ATTA ATAT ATTT … ATAT Probabilità di transizione dalla regione I alla II con la sequenza TT

42 Catene di Markov A quale regione appartiene la sequenza TTAT ? Calcoliamo la probabilità di tutte le possibili sequenze di nucleotidi appartenenti alle due regioni. Bioinformatica42 T I T I A I T I =1.1x10 -1 T I T II A I T I =1.8x10 -3 T II T I A I T I =6.0x10 -3 T II T II A I T I =9.0x10 -3 T I T I A I T II =8.8x10 -3 T I T II A I T II =1.4x10 -4 T II T I A I T II =4.8x10 -4 T II T II A I T II =7.2x10 -4 T I T I A II T I =5.5x10 -4 T I T II A II T I =1.0x10 -3 T II T I A II T I =3.0x10 -5 T II T II A II T I =5.2x10 -3 T I T I A II T II =1.4x10 -4 T I T II A II T II =8.4x10 -3 T II T I A II T II =2.4x10 -4 T II T II A II T II =4.2x10 -2 Risulta più probabile che la sequenza appartiene integralmente alla regione I

43 Catene di Markov ESEMPIO: ISOLE C-G Esistono delle zone di DNA che evidenziano una presenza superiore d coppie CG; Nucleotidi appartenenti a isole C-G hanno una diversa probabilità; Bioinformatica43

44 Hidden Markov Models Bioinformatica44 Dato un HMM λ e la sequenza di osservazioni la sequenza di osservazioni O=o 1,o 2,…,o T, possiamo affrontare tre problemi: Evaluation: Quale è la probabilità di ottenere O nel modello, p(O| λ) ? Decoding: Quale è la corrispondente sequenza di stati nascosti Q=q1,q2,…,qT che ha generato O? Learning: Come possiamo aggiustare i parametri del modello λ per massimizzare P(O| λ )?

45 Hidden Markov Models Bioinformatica45 ESEMPIO: Il casinò disonesto. In un casinò ci sono due dadi di cui uno truccato: Dado non truccato P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = 1/6 Dado truccato P(1) = P(2) = P(3) = P(4) = P(5) = 1/10 P(6) = ½ Il croupier passa dal dado non truccato a quello truccato e viceversa.

46 Hidden Markov Models Bioinformatica46 ESEMPIO: Il casinò disonesto. Quanto è probabile la seguente osservazione nel nostro modello? Si tratta di un problema di Evaluation.

47 Hidden Markov Models Bioinformatica47 ESEMPIO: Il casinò disonesto. Quale porzione di questa sequenza è stata prodotta dal dado truccato e quale dal dado non truccato? Si tratta di un problema di Decoding.

48 Hidden Markov Models Bioinformatica48 ESEMPIO: Il casinò disonesto. Quanto truccato era il dado truccato? Quanto spesso i due dadi venivano cambiati? Si tratta di un problema di Learning.

49 Hidden Markov Models Bioinformatica49 ESEMPIO: Il casinò disonesto. Modello di Markov Nascosto FAIRLOADED P(1|F) = 1/6 P(2|F) = 1/6 P(3|F) = 1/6 P(4|F) = 1/6 P(5|F) = 1/6 P(6|F) = 1/6 P(1|L) = 1/10 P(2|L) = 1/10 P(3|L) = 1/10 P(4|L) = 1/10 P(5|L) = 1/10 P(6|L) = 1/2 Transizioni Emissioni

50 Hidden Markov Models Bioinformatica50 EVALUATION Vogliamo calcolare la probabilità dellosservazione O=o 1,o 2,…,o T dato il modello λ. Considerata una sequenza di stati nascosti fissata Q=q 1,q 2,…,q T la probabilità dellosservazione O per la sequenza di stati nascosti Q assumendo che le osservazioni siano indipendenti, è data da: Quindi La probabilità della sequenza degli stati nascosti è data da: La probabilità che si verifichino contemporaneamente O e Q sarà il prodotto La probabilità di O nel modello sarà allora ottenuta sommando queste probabilità su tutti i possibili stati nascosti.

51 Hidden Markov Models Bioinformatica51 EVALUATION Interpretazione della formula : Inizialmente al tempo t=1 ci troviamo nello stato q 1 con probabilità e generiamo il simbolo o 1 con probabilità Al tempo t=2 avremo una transizione allo stato q 2 con probabilità e verrà generato il simbolo osservabile o 2 con probabilità Il processo continua fino ad arrivare al tempo T Complessità: 2TN T calcoli

52 Hidden Markov Models Bioinformatica52 EVALUATION: FORWARD ALGORITHM Consideriamo la variabile forward: Essa rappresenta la probabilità di aver osservato al tempo t o 1 o 2 …o t e di trovarci nello stato nascosto s i. Procedendo induttivamente: Inizializzazione Induzione Terminazione

53 Hidden Markov Models Bioinformatica53 EVALUATION: FORWARD ALGORITHM Lo stato s j può essere raggiunto al tempo t+1 dagli N possibili stati al tempo t. rappresenta la probabilità di aver osservato la sequenza o 1 o 2 …o t-1 e di trovarsi a tempo t-1 nello stato nascosto s i. Il prodotto rappresenta la probabilità di osservare o 1 o 2 …o t-1 e di raggiungere lo stato s j al tempo t proveniendo dallo stato s i Sommando su tutti i possibili stati avremo la probabilità di osservare s j al tempo t. Per tener conto della probabilità di emissione dello stato osservabile o t moltiplichiamo per la relativa probabilità di emissione

54 Hidden Markov Models Bioinformatica54 EVALUATION: FORWARD ALGORITHM Lo step finale ci darà la probabilità cercata Complessità: O(N 2 T) Tempo O(NT) Spazio

55 Hidden Markov Models Bioinformatica55 EVALUATION: BACKWARD ALGORITHM In modo speculare consideriamo la variabile backward: Essa rappresenta la probabilità della osservazione parziale dal tempo t+1 fino al tempo T e di trovarci nello stato nascosto s i al tempo t. Procedendo induttivamente: Inizializzazione (arbitraria) Induzione Terminazione

56 Hidden Markov Models Bioinformatica56 EVALUATION: BACKWARD ALGORITHM E analogo al caso forward. Lunica differenza è che in questo caso andiamo a ritroso. Complessità: O(N 2 T) Tempo O(NT) Spazio

57 Hidden Markov Models Bioinformatica57 DECODING: FORWARD-BACKWARD Se formuliamo il problema di Decoding come scegliere ad ogni passo lo stato q t che è individualmente il più probabile, possiamo usare gli algoritmi Forward- Backward per risolvere il problema. Definiamo la variabile: Cioè la probabilità di trovarsi nello stato s i al tempo t data losservazione O. Tale espressione può esprimersi in termini di variabili forward-backward Questo perchè t tiene conto dellosservazione parziale O 1 O 2 …O t e di trovarsi nello stato si al tempo t, mentre t tiene conto della rimanente osservazione O t+1 O t+2 …O T trovandosi nello stato s i al tempo t. Normalization factor

58 Hidden Markov Models Bioinformatica58 DECODING: FORWARD-BACKWARD Possiamo allora trovare lo stato individualmente più probabile al tempo t con (e quindi tutti gli stati al variare di t): Tale formula non considera la probabilità di una sequenza di stati ma solo quella dello stato più probabile ad ogni istante. Se al tempo t teniamo conto della probabilità della sequenza di stati ai passi precedenti e dello stato con più alta probabilità al passo corrente avremo un altro modo di risolvere il problema di decoding (avendo definito un nuovo criterio di ottimalità).

59 Hidden Markov Models Bioinformatica59 DECODING: FORWARD-BACKWARD - Posterior Probability Se consideriamo le probabilità degli stati nascosti ottenuti da Questi ci daranno una stima di quanto buona è la predizione nel modello λ.

60 Hidden Markov Models Bioinformatica60 DECODING: VITERBI La soluzione del problema Evaluation ci permette di avere la somma di tutti i possibili cammini tra stati nellHMM. Vogliamo trovare tra tutti i possibili path di stati nascosti quello Q=q 1 …q T con più alta probabilità (in base a quanto visto nella slide precedente); Il procedimento è simile a quello visto per lalgoritmo Forward. Invece di sommare le probabilità di transizione, calcoliamo quella massima: Forward Viterbi

61 Hidden Markov Models Bioinformatica61 DECODING: VITERBI A differenza dellalgoritmo Forward, nel passaggio dal tempo t-I al tempo t, invece di sommare le probabilità di transizione, prendiamo quella massima; Se inoltre teniamo traccia dellindice dello stato migliore ad ogni passo, alla fine potremo recuperare la sequenza di stati nascosti più probabili; Definiamo: rappresenta la più alta probabilità lungo un path di stati nascosti che termina in q t =S i. Utilizzeremo invece: Per mantenere gli indici degli stati nascosti migliori ad ogni passo.

62 Hidden Markov Models Bioinformatica62 DECODING: VITERBI Inizializzazione Ricorsione P* probabilità finale Stato finale raggiunto Terminazione

63 Hidden Markov Models Bioinformatica63 DECODING: VITERBI Inizializzazione Ricorsione P* probabilità finale Stato finale raggiunto Terminazione Ottenere la sequenza di stati:

64 Hidden Markov Models Bioinformatica64 DECODING: VITERBI vs FORWARD Inizializzazione Ricorsione Terminazione

65 Hidden Markov Models Bioinformatica65 V 1 V 2 V 3 V k b 2 (V 1 )b 1 (V 2 )b k (V 3 )b 2 (V k ) DECODING: VITERBI Ad ogni passo scegliamo lo stato nascosto di probabilità massima (tenendo conto anche della probabilità della sequenza di stati ottenuti al passo precedente). O(N 2 T) Tempo O(NT) Spazio

66 Hidden Markov Models Bioinformatica66 LEARNING: Baum-Welch Aggiustare in modo da massimizzare la probabilità di una osservazione, è il problema più difficoltoso. Non esiste un metodo analitico. La procedura iterativa di Baum-Welch (o equivalentemente il metodo Expectation Maximization EM) permette di massimizzare localmente la probabilità dellosservazione. Definiamo: Cioè la probabilità di essere nello stato s i al tempo t e nello stato s j al tempo t+1

67 Hidden Markov Models Bioinformatica67 LEARNING : Baum-Welch Avevamo in precedenza definito: Analogamente avremo:

68 Hidden Markov Models Bioinformatica68 LEARNING : Baum-Welch Possiamo mettere in relazione: Dato che vale Allora: Numero atteso di transizioni da s i (numero di volte che viene visitato) Numero atteso di transizioni da s i a s j

69 Hidden Markov Models Bioinformatica69 LEARNING : Baum-Welch Un insieme ragionevole di formule di rivalutazione del modello è la frequenza attesa dello stato s i al tempo t= 1

70 Hidden Markov Models Bioinformatica70 LEARNING : Baum-Welch Iterando È stato dimostrato che ad un certo punto si verifica che Oppure Lalgoritmo di Baum-Welch è un caso particolare di EM: E-step: calcolo di e M-step: calcolo di Complessità #Iterazioni*O(N 2 T)

71 Hidden Markov Models Bioinformatica71 Problemi Viterbi: Utilizzare la somma dei Log; Forward-Backward: Riscalare ad ogni step moltiplicando per una costante; Baum-Welch: Può convergere a massimi locali;

72 GenScan - Bioinformatica72

73 GenScan - Bioinformatica73 Il tool di gene prediction più utilizzato; Presenta il miglior compromesso tra Sensibilità e Specificità (sono due misure di accuratezza); Largamente utilizzato dal Consorzio Internazionale durante il Progetto Genoma Umano; Utilizza come algoritmo di base l Hidden Markov Model (generalizzato);

74 GenScan - Bioinformatica74 E0E0 E1E1 E2E2 N P poly A 5 UTR I0I0 I1I1 I2I2 E sngl E init E term Filamento sense Filamento antisense 3 UTR ………………….. Le coppie di introni/esoni rappresentano i differenti modi in cui un introne può interrompere una coding sequence (dopo la 1° base, dopo la 2° o dopo la 3°) Esone iniziale e finale

75 GenScan - Bioinformatica75 Scelta una caratteristica (es: identificazione esoni). Possiamo definire i seguenti valori: 1. TP (true positive) = Numero di esoni predetti, che sono risultati veri esoni. 2. FP (false positive) = Numero di esoni predetti che sono in realtà dei falsi. 3. TN (true negative) = Numero di esoni falsi, identificati come tali. 4. FN (false negative)= Numero di esoni reali, identificati come falsi. Avremo le seguenti misure:

76 GenScan - Bioinformatica76 Possiamo calcolare laccuratezza come il rapporto tra risultati positivi e lintera popolazione; Accuratezza = (TP+TN)= / (TP+FP+FN+TN)

77 GenScan - Bioinformatica77

78 GenScan - Bioinformatica78 Possibilità di trovare esoni subottimali: Indica la soglia di score per cui si trova un esone. Se il valore scende più esoni (magari meno probabili) verranno dati in output. Il valore di default sulla pagina web è 1,00, il che significa che non vengono stampati esono subottimali. Per la maggior parte delle applicazioni, un valore di cutoff di circa 0,10 è raccomandato. L'impostazione del valore più basso di 0,10 porterà spesso ad una esplosione del numero di esoni subottimali, la maggior parte dei quali probabilmente non sarà utile. D'altra parte, se il valore è impostato molto superiore a 0,10, gli esoni subottimali potenzialmente interessanti potrebbero essere persi.

79 GenScan - Bioinformatica79 Proteina predetta sulla base della CDS calcolata Numerazione del Gene e dei suoi elementi Tipo di elemento riconosciuto Filamento sul quale viene fatta la predizione Inizio, Fine e lunghezza dell elemento calcolato Frame del primo codone dellelemento Score del sito Accettore e Donatore di splicing Score della coding sequence calcolata Probabilità che lelemento sia un esone Score complessivo dellesone Type: Init = Initial exon (ATG to 5' splice site) Intr = Internal exon (3' splice site to 5' splice site) Term = Terminal exon (3' splice site to stop codon) Sngl = Single-exon gene (ATG to stop) Prom = Promoter (TATA box / initation site) PlyA

80 GenScan - Bioinformatica80 ESERCIZIO I Data la seguente sequenza sconosciuta: >SCONOSCIUTA ACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCATCTGACTCCTGA GGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGGTGGTGAGGCCCTGGGC AGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTTTGAGTCCTTTGGGGATCTGTCCACTCCTGATG CTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGC TCACCTGGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAGCTGCACTGTGACAAGCTGCACGTGGAT CCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGCTGGCCCATCACTTTGGCAAAGAATTCA CCCCACCAGTGCAGGCTGCCTATCAGAAAGTGGTGGCTGGTGTGGCTAATGCCCTGGCCCACAAGTATCA CTAAGCTCGCTTTCTTGCTGTCCAATTTCTATTAAAGGTTCCTTTGTTCCCTAAGTCCAACTACTAAACT GGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAATAAAAAACATTTATTTTCATTGC 1. Facendo variare il parametro Suboptimal exon cut verificare se GenScan riesce a trovare esoni; 2. Utilizzare la proteina predetta da Genscan per fare un BLAST proteico (BLASTP) per vedere a cosa corrisponde la predizione fatta da Genscan;

81 GenScan - Bioinformatica81 ESERCIZIO II Prelevare da NCBI la sequenza di mRNA relativa a cox4i1 nel topo. Usare GenScan per predire la struttura del gene. Quanti esono vengono prodotto con i parametri standard? Corrispondono a quelli reali? Utilizzare la sequenza aminocidica predetta per fare un BLAST. Dai risultati ottenuti si può dire che la proteina è stata predetta da GenScan in modo corretto?

82 EasyBack - Bioinformatica82

83 EasyBack - Bioinformatica83 Cosa è a Backtranslation? Permette di ottenere la sequenza codificante a partire da una proteina; La traduzione di mRNA in proteina è un processo univoco, la backtranslation è ambigua; ATG GCT GCC GCA GCG TGG ACT ACC ACA ACG TCT TCC TCA …… … A T G G C C T G G A C T T C A … M A W T S Traduzione di mRNA in Proteine Backtranslation

84 EasyBack - Bioinformatica84 METODI PER LA BACKTRANSLATION La maggior parte dei tools utilizza la specie specificità come principio base della backtranslation: Si imita luso tipico dei codoni in una determinata specie. Ci sono essenzialmente due step: STEP 1 (training): Costruzione della CODON USAGE TABLE 1. Prendere una famiglia di proteine la cui sequenza codificante è nota; 2. Assegnare per ogni aminoacido il codone più freuqente; STEP2 (decoding): 1. Backtranslation usando la codon usage table. TOOL: BBOCUS, LBT, TIP, BackTranseq (da EMBOSS);

85 EasyBack - Bioinformatica85 IL NOSTRO APPROCCIO EasyBack non è basato sullimitazione delluso dei codoni in un organismo, ma piuttosto sulla similarità delle sequenze (nelle varie specie). Data la proteina di input, viene costruito un dataset di proteine (e relative CDS) eseguendo un BLAST su NCBI; Il training set sarà il più piccolo possibile affinchè lHMM possa fare una predizione; HMM: Gli stati nascosti saranno I codoni, le le probabilità di transizione sono le probabilità tra codoni contigui nel training set (probabilità di passare da un codone ad un altro): I simboli osservabili sono gli aminoacidi e la probabilità di emissione rappresenta la probabilità che un determinato aminoacido sia stato generato da uno specifico codone nel trainign set E possibile stimare la qualità delloutput usando le posterior probabilities.

86 EasyBack - Bioinformatica86 GCTGCC … AAT GCT GCC … AAT Transition Probabilities AM … S GCT GCC … AAT Emission Probabilities ……ATG…… Start Probabilities Probabilità che il codone i segua il codone j nelle sequenza del training set

87 EasyBack - Bioinformatica87 Amino acid input sequence Run BLAST N sequences (cDNA and corresponding peptides) Buld HMM Try to make a prediction Success? Yes Reduce the training set to N/2 sequences No Enlarge the training set to 3/2N sequences repeat HMM

88 EasyBack - Bioinformatica88 EasyBackPanels Log Area Desktop

89 EasyBack - Bioinformatica89

90 EasyBack - Bioinformatica90

91 EasyBack - Bioinformatica91

92 EasyBack - Bioinformatica92

93 EasyBack - Bioinformatica93 ESERCIZIO I Data la proteina Effettuare una backtranslation e confrontare il risultato ottenuto con la sua CDS. Come recuperare la CDS? >gi| |ref|NP_ | alpha 1 globin [Homo sapiens] MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD LSHGSAQVKGHGKKVADALTNA VAHVDDMPNALSALSDLHAHKLRVD PVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR


Scaricare ppt "Bioinformatica Catene di Markov, HMM – GenScan – EasyBack Dr. Giuseppe Pigola –"

Presentazioni simili


Annunci Google