La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Presentazioni simili


Presentazione sul tema: "Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer."— Transcript della presentazione:

1 Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

2 Gene Finding: Premessa Dimensione del genoma umano: 3 x 10 9 coppie di nucleotidi Numero di geni Percentuale di DNA codificante 1.6% Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

3 Gene Finding: Cosa e? Data una sequenza di DNA non caratterizzata, trovare: Quali regioni che codificano per proteine Quale dei due filamenti della doppia elica di DNA è codificante Quale schema di lettura è usata in questultimo Dove comincia e dove finisce il gene Dove sono i confini tra esoni/introni negli eucarioti Etc Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

4 Gene Finding: Struttura del gene Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Schema di lettura: ogni segmento di DNA ha 6 schemi di lettura Reading frame #1 ATG GCT TAC GCT TGC Reading frame #2 TGG CTT ACG CTT GA. Reading frame #3 GGC TTA CGC TTG A.. ATGGCTTACGCTTGA Filamento sense: Reading frame #4 TCA AGC GTA AGC CAT Reading frame #5 CAA GCG TAA GCC AT. Reading frame #6 AAG CGT AAG CCA T.. TCAAGCGTAAGCCAT Filamento antisense:

5 Gene Finding: Organizzazione del gene Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Un gene continuoUn gene discontinuo (esoni intervallati da introni) Gene dentro un introne di un altro gene Geni sovrapposti

6 Gene Finding: Struttura del gene procariotico Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 ATGCTACGGATG……..TGA 53 Regione Regolatrice Promotore GENE Segnale di Start Segnale di Stop

7 Gene Finding: Struttura del gene Eucariotico Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

8 Gene Finding: ORF (Open Reading Frame) Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Un ORF o schema di lettura aperto è una zona compresa tra 2 segnali, uno di start e uno di stop presenti nello stesso frame. Allinterno dellORF non sono presenti ulteriori segnali di Stop. Un ORF è una potenziale regione codificante per proteine. startstop ORF segnali di stop: TAA, TGA e TAG ATG

9 Gene Finding: Primo passo Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 La distanza media tra due segnali di stop in una sequenza casuale di DNA è 64/3 21 Una proteina è lunga mediamente 300 aminoacidi Se individuiamo due segnali di stop sufficientemente distanti tra loro potremmo essere in presenza di un potenziale gene

10 Gene Finding: ORF in un gene procariotico Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Frame 1 Frame 2 Frame 3 ORF ?

11 Gene Finding: Algoritmo Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Per ogni frame bisogna: 1.Calcolare la distanza tra ogni coppia di segnali di stop consecutivi. 2.Se sono sufficientemente distanti, si va a ricercare il primo codone di start utile. 3.Trovato un ORF di lunghezza sufficiente, è da considerare un potenziale gene.

12 Gene Finding: ORF in un gene eucariotico Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Quali delle finestre che vediamo sono esoni? Quali invece sono assenze casuali di segnali di stop? Frame 1 Frame 2 Frame 3

13 Gene Finding: Procarioti vs Eucarioti Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Procarioti: Piccoli genomi 0.5 – 10·10 6 bp Alta densità basi codificanti (>90%) No introni Identificazione del gene relativamente semplice. Probabilità di successo ~ 99% Eucarioti: Grandi genomi 10 7 – bp Bassa densità basi codificanti (<50%) Struttura introni/esoni Identificazione del gene complessa, livello di accuratezza ~ 50%

14 Gene Finding: Metodo statistico Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Un metodo migliore per determinare regioni codificanti tiene conto delle frequenze dei codoni Un uso diverso dei codoni nella regione codificante è una caratteristica universale dei genomi Uso diseguale degli aminoacidi nelle proteine esistenti Uso diseguale di codoni sinonimi Possiamo usare queste caratteristiche per differenziare regioni codificanti e non codificanti del genoma

15 Gene Finding: Segnali di codifica Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Distribuzione delle frequenze di coppie di aminoacidi nelle sequenze delle proteine (shewanella). La frequenza media è del 5%. Ogni amminoacido ha delle preferenze nel precedere o seguire un altro amminoacido. Alcuni aminoacidi sono molto più frequenti di altri.

16 Gene Finding: Segnali di codifica Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 shewanellabovino La frequenza delle coppie di aminoacidi dipende dal genoma!!!

17 Gene Finding: Segnali di codifica Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Le preferenze degli aminoacidi si rispecchiano sulle coppie di codoni (o esanucleotidi) presenti nelle zone codificanti. Ad esempio Nel genoma umano la frequenza della sequenza AAA AAA è ~1% nelle regioni codificanti contro ~5% delle regioni non codificanti.

18 Gene Finding: Segnali di codifica Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Molti esanucleotidi mostrano grosse differenze di frequenza tra zone codificanti e non codificanti. Fondamenti per rilevare regioni codificanti La frequenza delle coppie di codoni sono segnali chiave usati per identificare regioni codificanti; Tutti i programmi di gene prediction se ne avvalgono. Regioni di DNA dove sono presenti moltissimi esanucleotidi che sono risultati frequenti in regioni codificanti già appurate, sono probabilmente regioni codificanti; al contrario sono regioni non codificanti.

19 Gene Finding: Modello preferenziale Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Per ogni esanucleotide X (es: AAA AAA), calcolare la sua frequenza in regioni codificanti (FC(X)) e non codificanti (FN(X)) Calcolare il valore della preferenza di X: P(X) = log(FC(X)/FN(X)) Proprietà P(X) vale 0 se X ha la stessa frequenza sia nelle regioni codificanti, che in quelle non codificanti. P(X) ha un valore positivo, se X compare più spesso in regioni codificanti rispetto a quelle non codificanti; più grande è la differenza più alto sarà il valore di P(X). P(X) ha un valore negativo, se X ha frequenza maggiore in regioni non codificanti; più grande è la differenza più piccolo sarà il valore di P(X).

20 Gene Finding: Modello preferenziale Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Esempi AAA ATT e AAA GAC hanno le seguenti frequenze FC(AAA ATT) = 1.4%, FN(AAA ATT) = 5.2% FC(AAA GAC) = 1.9%,FN(AAA GAC) = 4.8%Avremo P(AAA ATT) = log (1.4/5.2) = P(AAA GAC) = log (1.9/4.8) = Una regione formata solo da esanucleotidi di questo tipo, è probabilmente una regione non codificante.

21 Gene Finding: Modello preferenziale Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Perché usiamo un modello basato su coppie di codoni ? Modelli basati su singolo codone spesso non danno abbastanza informazione per capire se siamo davvero in una regione codificante o meno. Modelli basati su triple di codoni hanno bisogno di moltissimi dati per rendere attendibile la statistica. 4*4*4 = 64 codoni 4*4*4*4*4*4 = 4,096 coppie di codoni 4*4*4*4*4*4*4*4*4= 262,144 triple di codoni Nel caso di triple di codoni avremo quindi necessità di avere almeno un numero elevatissimo di sequenze caratterizzate per popolare la matrice delle frequenze

22 Gene Finding: Predizione di una regione codificante Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Un semplice modello basato sulle frequenze dei codoni: Sia f abc la frequenza con la quale il codone abc occorre in una regione codificante. Data la coding sequence a 1,b 1,c 1,a 2,b 2,c 2,……,a n b n c n,a n+1 b n+1 c n+1 la probabilità di osservare la sequenza di n codoni nei vari frame di lettura: p 1 = f a1,b1,c1 x f a2,b2,c2 x … x f an,bn,cn p 2 = f b1,c1,a2 x f b2,c2,a3 x … x f bn,cn,an+1 p 3 = f c1,a2,b2 x f c2,a3,b3 x … x f cn,an+1,bn+1

23 Gene Finding: Predizione di una regione codificante Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Denotiamo con P i la probabilità delli-esimo frame di lettura come: E possibile utilizzare in un algoritmo per la ricerca di regioni codificanti nel modo seguente: Consideriamo finestre di size n e calcoliamo P i per ogni punto di start;

24 Gene Finding: Predizione di una regione codificante Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 plot di log(p/(1-p)) per i tre frame di lettura: gene In questo frame di lettura il gene è chiaramente riconosciuto

25 Gene Finding: Soglia minima Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Decidiamo un valore di soglia per marcare una regione come codificante. Tale valore deve essere scelto testandolo su un training set. Deve essere tale da trovare il maggior numero di regioni codificanti ed escludere il maggior numero di regioni non codificanti. Regione codificante? Dove sono i confini ?

26 Gene Finding: Boundary Esoni/Introni Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Usando come training set, sequenze di DNA la cui suddivisione esoni/introni sia conosciuta, alliniamo tali sequenze rispetto ai due siti di splicing. Esone Introne Esone --gaggcatcag|gtttgtagac tgtgtttcag|tgcacccact-- --ccgccgctga|gtgagccgtg tctattctag|gacgcgcggg-- --tgtgaattag|gtaagaggtt atatctacag|atggagatca-- --ccatgaggag|gtgagtgcca ttatttgcag|gtatgagacg-- Splice site Splice site Esone Introne Esone --gaggcatcag|GTttgtagac tgtgtttcAG|tgcacccact-- --ccgccgctga|GTgagccgtg tctattctAG|gacgcgcggg-- --tgtgaattag|GTaagaggtt atatctacAG|atggagatca-- --ccatgaggag|GTgagtgcca ttatttgcAG|gtatgagacg-- Splice site Splice site

27 Gene Finding: Segnali associati con gli estremi di una regione codificante Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Entrambi i siti di splicing hanno particolari profili di distribuzione nelluso dei nucleotidi Distribuzione dei nucleotidi attorno al Sito Accettore (Genoma Umano). Y 75 Y 72 Y 78 Y 79 Y 77 Y 80 Y 66 Y 78 Y 85 Y 84 NC 68 AGG A11,112,73,24,8 12, 7 8,7 16, 7 12, 7 9,5 26, 2 6,31000,0 21, 4 C36,530,9 19, 1 23, 0 34, 9 39, 7 34, 9 40, 5 36, 5 33, 3 68, 2 0,0 7,9 G9,510,3 15, 1 12, 7 8,79,5 16, 7 4,82,46,3 13, 5 0, , 7 T38,941,3 58, 7 55, 6 42, 1 40, 5 30, 9 37, 3 44, 4 47, 6 27, 0 25, 4 0,0 0,0 0 7,9

28 Gene Finding: Segnali associati con gli estremi di una regione codificante Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Entrambi i siti di splicing hanno particolari profili di distribuzione nelluso dei nucleotidi Distribuzione dei nucleotidi attorno al Sito Donatore (Genoma Umano) A34,060,49,20,0 52,671,37,116,0 C36,312,93,30,0 2,87,65,516,5 G18,312,580,31000,041,911,881,420,9 T11,414,27,30,01002,59,35,946,2

29 Creare le matrici pesate per i siti donatori e accettori. Sommiamo le frequenze delle lettere corrispondenti nelle posizioni corrispondenti A34,060,49,20,0 52,671,37,116,0 C36,312,93,30,0 2,87,65,516,5 G18,312,580,31000,041,911,881,420,9 T11,414,27,30,01002,59,35,946,2 …AAGGTAAGTGTCTCA… GT AAGGTAAGT:( )/100= Gene Finding: Procedura per identificare i segnali Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

30 Creare le matrici pesate per i siti donatori e accettori. Sommiamo le frequenze delle lettere corrispondenti nelle posizioni corrispondenti A34,060,49,20,0 52,671,37,116,0 C36,312,93,30,0 2,87,65,516,5 G18,312,580,31000,041,911,881,420,9 T11,414,27,30,01002,59,35,946,2 …AAGGTAAGTGTCTCA… Gene Finding: Procedura per identificare i segnali Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 GT AGTGTCTCA:( )/100= 2.874

31 In corrispondenza di un sito di splicing, la corrispondente funzione di score avrà un picco significativo. Gene Finding: Identificare i segnali Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

32 Vengono scelti tra gli esoni predetti un insieme che non causa overlapping Frame 1 Frame 2 Frame 3 Gene Finding: Rappresentazione grafica della regione codificante di un gene eucariotico Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

33 Segnali che identificano la trascrizione TATA-Box (25-30 basi prima dello start) presente nel 70% dei casi sito di PolyA (AATAAA oppure ATTAAA) Segnali che identificano i promotori Gene Finding: Ulteriori segnali Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

34 Distribuzione lunghezza esoni 150 bp Distribuzione lunghezza introni 60 bp 50% G+C Una regione ricca di G+C è indice della presenza di un gene (vale solo per i genomi degli eucarioti superiori) Gene Finding: Ulteriori dati statistici Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

35 La probabilità di un evento dipende dagli eventi precedenti Gene Finding: Modelli di Markov Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

36 P(Sole, Pioggia, Pioggia, Pioggia, Neve, Neve) = P(Sole) P(Pioggia | Sole) P(Pioggia | Pioggia) P(Pioggia | Pioggia) P(Neve | Pioggia) P(Neve | Neve) Gene Finding: Probabilità di una sequenza di eventi Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

37 Quale è la sequenza meteorologica più probabile che ha generato questa sequenza di azioni? Assunzione (First order Markov chains): La probabilità di un evento dipende solo dal precedente. Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Gene Finding: Modelli di Markov Nascosti (HMM)

38 III ATTA TTAT AAAT TAAT … TTAA TATA ATTA ATAT ATTT … ATAT Probabilità di transizione dalla regione I alla II con la sequenza TT Gene Finding: Modelli di Markov Nascosti (HMM) ESEMPIO Creiamo un modello per distinguere due regioni (per semplicità supponiamo siano presenti solo due nucleotidi) Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

39 Calcoliamo la probabilità di tutte le possibili sequenze di nucleotidi appartenenti alle due regioni. T I T I A I T I =1.1x10 -1 T I T II A I T I =1.8x10 -3 T II T I A I T I =6.0x10 -3 T II T II A I T I =9.0x10 -3 T I T I A I T II =8.8x10 -3 T I T II A I T II =1.4x10 -4 T II T I A I T II =4.8x10 -4 T II T II A I T II =7.2x10 -4 T I T I A II T I =5.5x10 -4 T I T II A II T I =1.0x10 -3 T II T I A II T I =3.0x10 -5 T II T II A II T I =5.2x10 -3 T I T I A II T II =1.4x10 -4 T I T II A II T II =8.4x10 -3 T II T I A II T II =2.4x10 -4 T II T II A II T II =4.2x10 -2 A quale regione appartiene la sequenza TTAT ? Risulta più probabile che la sequenza appartiene integralmente alla regione I Gene Finding: Modelli di Markov Nascosti (HMM) ESEMPIO Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

40 Il tool di gene prediction più utilizzato Presenta il miglior compromesso tra Sensibilità e Specificità (sono due misure di accuratezza) Largamente utilizzato dal Consorzio Internazionale durante il Progetto Genoma Umano Utilizza come algoritmo di base l Hidden Markov Model (generalizzato) Gene Finding: Genscan Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

41 Gene Finding: Genscan è basato su HMM Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 E0E0 E1E1 E2E2 N P poly A 5 UTR I0I0 I1I1 I2I2 E sngl E init E term Filamento sense Filamento antisense 3 UTR ………………….. Le coppie di introni/esoni rappresentano i differenti modi in cui un introne può interrompere una coding sequence (dopo la 1 ° base, dopo la 2 ° o dopo la 3 ° ) Esone iniziale e finale

42 Scelta una caratteristica (es: identificazione esoni) Possiamo definire i seguenti valori 1.TP (true positive) = Numero di esoni predetti, che sono risultati veri esoni. 2.FP (false positive) = Numero di esoni predetti che sono in realtà dei falsi. 3.TN (true negative) = Numero di esoni falsi, identificati come tali. 4.FN (false negative)= Numero di esoni reali, identificati come falsi. Avremo le seguenti misure Gene Finding: Misura dellaccuratezza nella predizione Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

43 Coefficiente di correlazione (Parametri calcolati a livello nucleotidico) Gene Finding: Confronto tra tool di gene predictioon Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

44 Gene Finding: Interfaccia Genscan Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

45 Proteina predetta sulla base della CDS calcolata Numerazione del Gene e dei suoi elementi Tipo di elemento riconosciuto Filamento sul quale viene fatta la predizione Inizio, Fine e lunghezza dell elemento calcolato Frame del primo codone dellelemento Score del sito Accettore e Donatore di splicing Score della coding sequence calcolata Probabilità che lelemento sia un esone Score complessivo dellesone Gene Finding: Output di Genscan Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

46 Gene Finding: Esempio di uso di GenScan Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007 Eseguire con Genscan la scansione del frammento di genoma di Homo sapiens >gi| |gb|AF |AF Utilizzare la proteina predetta da Genscan per fare un BLAST proteico (BLASTP) per vedere a cosa corrisponde la predizione fatta da Genscan.


Scaricare ppt "Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer."

Presentazioni simili


Annunci Google