La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Presentazioni simili


Presentazione sul tema: "Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software."— Transcript della presentazione:

1 Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software

2 Introduzione biologica DNA Doppia catena polinucleotidica definita sullalfabeto: A, C, G, T Gene Regione di DNA che codifica proteine

3 Numero geni e genomi in eucarioti Number of genes in prokaryotes (up to 8000) Genoma in procarioti (> 9 Mb)

4 Espressione di un gene DNA TRASCRIZIONE 5 3 exon 1exon 2exon 3 pre-mRNA SPLICING exon 1exon 2exon 3 prodotto dello splicing mRNA EST Expressed Sequence Tag (cDNA) exon 2 exon 1exon 3

5 Trascritti e sequenze EST Un trascritto è lelenco delle basi (A, T, C, G) che compongono un mRNA maturo Un EST è un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro ) ATTGCGTTAACTGGACTGA mRNA TAACGCAATTGACCTGACT cDNA AATTGACC EST

6 Pattern di un introne GT AG Introni canonici: % Introni non canonici: GCAG 0.05 % 0.69 % 0.02 % ATAC ALTRO Burset et al., Nucleic Acids Res. 2000, 28:

7 Espressione di un gene Ma le cose funzionano davvero così? Numero Geni corpo umano : circa Numero Proteine : centinaia di migliaia La corrispondenza 1 a 1 non è rispettata. Perché? SPLICING ALTERNATIVO

8 Tipi di Alternative Splicing ABCD mRNA1 AI1 C D B GENOMICA Splice/dont splice mRNA2 A I1 BCD Competing 5 AI1 B A ACD B Competing 3 AI1 B CD B A B Exon skipping AI1 B CDA Mutually exclusive exons AI1 B ABD B C B C

9

10 Perché AS è importante? AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) AS genera numerosi trascritti a partire da un singolo gene AS is specifico del tessuto in cui si trova la cellula (Graveley, 2001) AS è correlato alle malattie

11 Problema di AS predire le forme di splicing alternativo di un gene analizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoforme AS è ancora un problema aperto Si ha la necessità di software tools per

12 Cosa cè a disposizione? Programmi veloci che producono lallineamento di una singola sequenza EST contro la genomica: Spidey (Wheelan et al., 2001) Squall (Ogasawara & Morishita, 2002) Ma la predizione della struttura in esoni e introni di un gene è complicata da errori di sequenziamento nellEST (inserzioni, delezioni e mismatch) => criteri di ottimizzazione sequenze duplicate sulla genomica => analisi combinata di un cluster di sequenze EST

13 Definizioni formali Def 1 Sequenza genomica, G = I 1 f 1 I 2 f 2 I 3 f 3 … I n f n I n+1, con I i (i=1, 2, …, n+1) introni e f i (i=1, 2, …, n) esoni Def 2 Fattorizzazione in esoni di G, G E = f 1 f 2 f 3 … f n Def 3 Fattorizzazione di un EST S compatibile con G E S=s 1 s 2 … s k t.c. per 1 i1 < i2 < … < ik n si abbia: s t = f it per t=2, 3, …, k-1 s 1 è un suffisso di f i1 e s k è un prefisso di f ik s t = suff (f it ) o s t = pref (f it ) variante di splicing Def 1 Sequenza genomica, G = I 1 f 1 I 2 f 2 I 3 f 3 … I n f n I n+1, con I i (i=1, 2, …, n+1) introni e f i (i=1, 2, …, n) esoni Def 2 Fattorizzazione in esoni di G, G E = f 1 f 2 f 3 … f n Def 3 Fattorizzazione di un EST S compatibile con G E S=s 1 s 2 … s k t.c. per 1 i1 < i2 < … < ik n si abbia: edit (s t, f it ) errore per t=2, 3, …, k-1 edit(s 1, suff(f i1 )) errore e edit(s k, pref(f ik )) errore

14 Il problema Input - Una sequenza genomica G - Un cluster di sequenze EST S = {S 1, S 2, …, S n } Output Una fattorizzazione G E di G (G E = f 1, f 2, …, f n ) e un set di fattorizzazioni degli EST compatibili con G E Obiettivo: minimizzare n

15 Esempio Sequenza genomica G EST set S = {S 1, S 2, S 3 } S2S2 A1A2A1A2 BD1D1 S3S3 A2A2 D1D2D1D2 C1C2C1C2 A2A2 A1A2A1A2 BD1D1 C1C1 D1D2D1D2 C1C2C1C2 C1C1 S1S1 A2A2 D1D1 A2A2 D1D1 C1C1 A2A2 D1D1 C1C1 A1A2A1A2 BD1D1 A1A2A1A2 BD1D1 A2A2 D1D2D1D2 C1C2C1C2 A2A2 D1D2D1D2 C1C2C1C2 7 exons BD1D2D1D2 C1C2C1C2 4 esoni A1A2A1A2

16 Risultati Il problema è MAX-SNP-hard (riduzione lineare da NODE-COVER) Euristica: Processo iterativo per fattorizzare ogni EST backtracking per ricomputare fattorizazzioni precedenti se si giunge ad una fattorizzazione non compatibile con G E

17 Lalgoritmo s i1 s i j-1 s ij SiSi e1e1 e2e2 G Passo j-esimo: Fattorizzazione parziale dellEST S i (fattore s ij ) emem if (Compatible(e m, exon_list)) then add e m to exon_list; otherwise try to place s ij elsewhere; emem If not possible then backtrack; s i-1 1 s i-1 j-1 s i-1 j s i-1 n S i-1 After placing all the factors s ij for the set S, place the external factors;

18 Lalgoritmo (dettagli) G s i1 s i j-1 SiSi s i j Calcolo del fattore s ij S ij can be divided into n components c k (k=1,2,…,n) At least one of these components for k from 1 to (n-1) is error-free and can be placed on G s ij c1c1 c2c2 c3c3 c4c4 c5c5 The algorithm searches a perfect match of c 1 on G c1c1 Suppose that c 1 has no perfect match on G Then the algorithm searches a perfect match of c 2 on G c2c2 c1c1 c1c1 Suppose that c 2 has a perfect match on G c2c2 Then the entire factor s ij can be placed on GFind the canonical ag pattern on the left ag Find the rightmost gt pattern such that the edit distance between s ij y and the genomic substring from ag to gt is bounded gt s i j y esone

19 ASPic software (Alternative Splicing PredICtion) Input - La lunghezza minima prevista per un esone - La lunghezza della componente di matching perfetto - Lerrore di riduzione degli introni - Lerrore di sequenziamento di un EST - La sequenza genomica - Il cluster di EST Output - Un file di testo per tutti gli allineamenti EST-genomica - Un file HTML degli allineamenti in prossimità dei siti di splicing predetti

20 ASPic web site ASPic è un web-based tool disponibile allindirizzo devel che permette di predire i siti di splicing per un gene in input

21 ASPIC web site

22

23 Information about the input A graphical view of the predicted gene structure A table of the predicted introns A graphical view of the transcript-genome alignments A graphical view of the predicted full-length isoforms A table of the predicted full-length isoforms OUTPUT:

24 ASPIC web site

25

26

27

28

29

30

31 Prediction of p53 protein isoforms

32 GRAZIE!


Scaricare ppt "Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software."

Presentazioni simili


Annunci Google