La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca

Presentazioni simili


Presentazione sul tema: "La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca"— Transcript della presentazione:

1 La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca

2 Introduzione biologica DNA Doppia catena polinucleotidica definita sullalfabeto: A, C, G, T Gene Regione di DNA che codifica proteine

3 Il sequenziamento Cosa significa sequenziare? determinare la struttura primaria delle molecole biologiche (DNA/RNA e proteine) ordine degli amminoacidi per le proteine GluIlePheThrValHis sequenza dei nucleotidi {a,c,g,t|u} per DNA/RNA g c g c t c t c t c g c g c g c

4 Il sequenziamento Cosa si ottiene? single-end read DNA/RNA acgttgtgcagtgacggtaa

5 Il sequenziamento paired-end read (o mate-pair) DNA/RNA insertion size AB A = B insertion size agttgcgtaatgcctg AB Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA

6 Il sequenziamento Perché è importante? … per determinare il genoma di un organismo vivente (problema del Genome Assembly) Genoma

7 Sanger Sequencing (1977) Metodo di sequenziamento capillare Basato su enzima Piuttosto costoso Processa pochissimi reads in un run (un centinaio) Lunghezza frammenti fino a 1000 bp Errore basso

8 Espressione di un gene DNA TRANSCRIPTION 5 3 exon 1exon 2exon 3 pre-mRNA SPLICING by spliceosome splicing product mRNA exon 1exon 2exon 3 CDS atg…………[stop] [stop] tag taa tga

9 Pattern di un introne GT AG Introni canonici: % Introni non canonici: GCAG 0.05 % 0.69 % 0.02 % ATAC ALTRO Burset et al., Nucleic Acids Res. 2000, 28:

10 Espressione di un gene Ma le cose funzionano davvero così? Numero Geni corpo umano : circa Numero Proteine : centinaia di migliaia La corrispondenza 1 a 1 non è rispettata. Perché? SPLICING ALTERNATIVO

11 Alternative Splicing (AS) 5 3 exon 2exon 3 Gene mRNA1 exon 2exon 3 exon 1

12 Alternative Splicing (AS) 5 3 exon 2exon 3 Gene mRNA1 exon 2exon 3 exon 1 mRNA2 exon 2exon 3 exon 1

13 Alternative Splicing (AS) 5 3 exon 2exon 3 Gene mRNA1 exon 2exon 3 exon 1 mRNA2 exon 2exon 3 exon 1 mRNA3 exon 3exon 1

14 Alternative Splicing (AS) 5 3 exon 2exon 3 Gene mRNA1 exon 2exon 3 exon 1 mRNA2 exon 2exon 3 exon 1 mRNA3 exon 3exon 1 mRNA4 exon 2exon 3exon 1

15 Alternative Splicing (AS) 5 3 exon 2exon 3 Gene mRNA1 exon 2exon 3 exon 1 mRNA2 exon 2exon 3 exon 1 mRNA3 exon 3exon 1 mRNA4 exon 2exon 3exon 1 mRNA5 exon 2 exon 3 exon 1

16 Alternative Splicing (AS) 5 3 Gene mRNA1 exon 1 mRNA2 exon 2exon 3exon 4 exon 1exon 2exon 4 exon 1exon 3exon 4

17

18 Perché AS è importante? AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) AS genera numerosi trascritti a partire da un singolo gene AS is specifico del tessuto in cui si trova la cellula (Graveley, 2001) AS è correlato alle malattie

19 Problema di AS predire le forme di splicing alternativo di un gene analizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoforme AS è ancora un problema aperto Si ha la necessità di software tools per

20 Trascritti e sequenze EST Un trascritto è lelenco delle basi (A,T,C,G) che compongono un mRNA maturo Un EST è un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro ) ATTGCGTTAACTGGACTGA mRNA TAACGCAATTGACCTGACT cDNA AATTGACCT EST

21 Expressed Sequence Tag Cosè un single-end read da un mRNA (messenger RNA)? EST (Expressed Sequence Tag) Gene CDAB esoni (codificanti) introni (non codificanti) DAB CDA CDAB mRNA 1 mRNA 2 mRNA 3 B EST

22 ESTs Le sequenze EST sono dati importanti e disponibili pubblicamente per: identificare geni lungo un genoma predire la struttura in esoni e introni di un geni …e le sue isoforme alternative (alternative splicing prediction) per studi di espressione genica Reference The Unigene Database:

23 Il sequenziamento di EST Perché è importante? Gene CDAB AB ABC DAB CB DAC A: suffisso di A C: prefisso di C D: prefisso di D EST … per determinare la struttura e lespressione di un gene

24 Splice junctions de-novo Gene A BC DABCBDAC EST B A

25 Splice junctions de-novo Gene CDAB splice junction B A BC DAB CB DAC EST A

26 Perché predire AS è difficile? La predizione della struttura di un gene è un compito difficile a causa di gli errori di sequenziamento nelle EST rendono difficoltosa la localizzazione delle splice junctions le duplicazioni possono produrre più di un possibile allineamento EST-genomica I dati in input sono enormi: efficienza in tempo e spazio

27 What is available? Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat, Sim4): - Spidey (Wheelan et al., 2001) - Squall (Ogasawara & Morishita, 2002) - Ecgene (Kim et al., 2005) - AceView (http://www.ncbi.nih.gov/IEB/Research/Acembly/) - Splicing graphs (Heber et al., 2002)

28 What is available? Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat, Sim4): drawbacks - Spidey => independent single EST alignment - Squall => independent single EST alignment - Ecgene => detects variants of more than 15bp - AceView =>over-prediction - Splicing graphs => over-prediction

29 ASPIC software ASPIC (Alternative Splicing PredICtion) implements an optimization strategy that: performs a multiple alignment of transcript data to the genomic sequence detects the intron set that minimizes the number of splicing sites generates the minimal set of transcript isoforms compatible with the detected splicing events P. Bonizzoni, R. Rizzi, G. Pesole. ASPIC: a novel method to predict the exon-intron structure of a gene that is optimally compatible to a set of transcript sequences. BMC Bioinformatics (2005), 6(1):244. T. Castrignanò, R. Rizzi, I.G. Talamo, P. DOnorio De Meo, A. Anselmo, P. Bonizzoni, G. Pesole. ASPIC: a web resource for alternative splicing prediction and transcript isoforms characterization. Nucleic Acids Research (2006), 34(Web Server Issue):W440:3.

30 ASPIC web site A genomic sequence by pasting a sequence into a text box by uploading a sequence as a text file by specifying an ENSEMBL ID or a HUGO name (only for human) by specifying a chromosomal range INPUT:

31 ASPIC web site A collection of transcripts by pasting them into a text box by uploading them as a text file by specifying a UNIGENE ID The minimum dimension for exons on the genomic sequence INPUT:

32 32 ASPicDB (http://www.caspur.it/ASPicDB/index.php) database of alternative splicing annotations of human genes ASPicDB was obtained by ASPic algorithm Funded by MIUR - FIRB LIBI ASPicDB

33

34

35 Ricostruzione isoforme Gene CDAB CDAB CDA DAB Isoform#1 Isoform#2 Isoform#3 Problema di ricostruzione di isoforme full-length Data la struttura in exoni-introni del gene, trovare tutte le possibili combinazioni di esoni (o parti di essi) che danno luogo ad un isoforma completa


Scaricare ppt "La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca"

Presentazioni simili


Annunci Google