La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Genomica e Bioinformatica

Presentazioni simili


Presentazione sul tema: "Genomica e Bioinformatica"— Transcript della presentazione:

1 Genomica e Bioinformatica
- Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche e browsers - Confronti fra genomi - Variabilità genomica: banche dati mutazioni e SNP

2 Progetti di sequenziamento

3 Banche dati genomiche Cromosoma n Annotazioni Tipo Id Cromosoma Inizio
ATCTACACTACTCTCTGGGGCTACA GCGTACTAGTTAGCTAGCTGATCGA | | | | | Annotazioni Tipo Id Cromosoma Inizio Fine Filamento Gene AGS_23GH I FHD_34GH IV II Promotore HHTRE_EE SNP A/G IX - Esone GFDDD_22

4 Visualizzazione annotazioni
10x

5 Browser genomici 200 Mb 1 Mb 10 Kb 200 bp

6 Individuazione geni Metodi sperimentali Metodi bioinformatici
Metodi Estrinseci Metodi Intrinseci Confronto più genomi

7 ATGCTACTACGGATAGTATAGATGA
Struttura di un gene Start codon Stop codon 5’ ATGCTACTACGGATAGTATAGATGA 3’ Promoter Procarioti Eucarioti gene medio 30K = 5' UTR 750 bp + 6 esoni 150 bp + 5 introni 5000 bp + 3' UTR 450 bp

8 Metodi estrinseci Genoma Proteina no 5', 3' e promotori
3' UTR 5' UTR Genoma Proteina no 5', 3' e promotori Proteina Omologa mancano esoni, diff.giunzioni cDNA 5' UTR 3' UTR no promotori 3' UTR manca regione 5' EST Altro Genoma 5' UTR 3' UTR Uniprot Allineamento Trascritti cDNA, EST

9 Annotazione geni

10 Schemi di lettura 3' 2' 1' senso antisenso 4' 5' 6'

11 Schemi di lettura aperti
TAA, TGA o TAG ATG ORF

12 Composizione di un genoma
Procarioti Eucarioti Dimensioni max 10M 10G % Codificante 85% 1-3% Geni con introni - 95% Numero introni 0-80 Lunghezza introni bp Predizione 99% 50%

13 Metodi intrinseci - Individuazione di contenuto
- Individuazione di segnali

14 Contenuto regioni codificanti
- Frequenze aminoacidiche - Frequenze dipeptidi - Preferenze per codoni diversi - Preferenza per G e C terminali in eucarioti superiori - Terza base tende ad essere la stessa Batterio shewanella

15 = Copie/Totale Nucleotidi
Frequenze esanucleotidi 1 Gb Intero Genoma 1.01 Gb Sequenze non Codificanti 10 Mb Sequenze codificanti Ricerca Esanucleotide AAATGA Copie Copie Frequenza AAATGA = Copie/Totale Nucleotidi Frequenza Codificanti fC 0.1% fN 0.05% Frequenza Non Codificanti Punteggio AAATGA = log (fC/fN) = +0.3

16 Punteggio di una posizione
Regione di 30 nucleotidi ATGATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT AAATGA = +0.3 AATGAC = +2.1 ATGACT = -0.1 TGACTC = +1.5 GACTCT = ... CTAGCT = +0.2 TAGCTG = +3.1 PUNTEGGIO POSIZIONE "A" = MEDIA DEGLI ESANUCLEOTIDI = +1.9 TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "C" = +1.8 TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "T" = +1.6 ......

17 Ricerca regioni codificanti
Punteggio della posizione +5 +4 +3 +2 +1 -1 -2 -3 -4 -5 Posizione nella sequenza Regione non codificante Regione non codificante ATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT Regione codificante ? ? Regioni a punteggio non significativo Dove inizia e dove termina la regione codificante?

18 Siti di splicing 99% Esone Introne Esone
--gaggcatcag|GTttgtagac-----A-----tgtgtttcAG|tgcacccact-- --ccgccgctga|GTgagccgtg-----A-----tctattctAG|gacgcgcggg-- --tgtgaattag|GTaagaggtt-----A-----atatctacAG|atggagatca-- --ccatgaggag|GTgagtgcca-----A-----ttatttgcAG|gtatgagacg-- Sito di ramificazione Sito donatore di splicing 99% Sito accettore di splicing

19 Segnali + contenuto Fine esone Inizio esone Regione non codificante
Regione codificante Introne Introne Esone

20 Frame di lettura e esoni
Fine esone 1 Introne Inizio esone 2 ...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGA-ATA-GCT-GCT-GAT-... Splicing Rna Maturo ...-ACT-TAA-ATG-ACT-CTA-ATA-GCT-GCT-GAT-... ...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGAC-ATA-GCT-GCT-GAT-... Giunzione scorretta ...-ACT-TAA-ATG-ACT-CTAC-ATA-GCT-GCT-GAT-... Frame shift Esone 1 Introne 1 Introne 2 Esone 2 Esone 3 ...-AGA-ACT-CTGTC..CCAGAC-ATA-...-GCG-GAGTG....CTAGA-ATA-CTG-... Esone falso Rna Maturo ...-AGA-ACT-CTA-ATA-CTG-...

21 Costruzione modello gene

22 Costruzione modello gene

23 Costruzione modello gene

24 Costruzione modello gene

25 Costruzione modello gene

26 Difficoltà - Numero di esoni: Distrofina 79 in 2.3 Mb
- Lunghezza introni: Distrofina più di 100Kb più del 99% del gene - Esoni corti: Solo 3bp in Arabidopsis. - Vicini a estremità: 1bp dall'inizio codoni start e stop interrotti - Geni sovrapposti: in 3'-UTR , ma anche in introni. - mRna policistronici anche in Eucarioti. - Introni in regioni non codificanti 5' e 3' UTR - Splicing alternativo 35-60% geni umani ha più di un prodotto - Siti splicing non canonici - Siti multipli inizio trascrizione - Siti alternativi inizio traduzione ACG Arabidopsis, CUG uomo

27 Prestazioni attuali R = Esoni Reali P = Esoni Predetti Intero gene:
Esoni Mancati R = Esoni Reali M P = Esoni Predetti C S C C Esoni Sbagliati Esoni Corretti Sensitività = C/R 78 % Selettività = C/P 81 % Mancati = M/R 9% Sbagliati = S/P 5% Intero gene: Arabidopsis 50%-66% Mammiferi 15-20% Previsione +ricerca mirata sta diventando alternativa a sequenziamento cloni cDNA random.

28 Allineamenti di 2 genomi Uomo-topo 40% conservato solo 2% codificante

29 Allineamento con un genoma annotato

30 Allineamenti di due genomi non annotati
- Distinzione coding/ non-coding Rapporto mut. sinonime e non sinonime Indels con cambio di frame O indels che recuperano il frame perso Introne Esone Introne

31 Allineamenti multipli

32 Ricerca promotori - Analisi del contenuto - Analisi dei segnali
- Allineamento di più genomi

33 Analisi del Contenuto - Isole CpG bp : (70% p. umani ne contiene) - Previsioni di ripiegabilità, stabilità e curvatura del DNA - Diverse fequenze di parole nucleotidiche

34 Analisi dei Segnali - TATA box a -30 dal TSS
- Banche dati promotori eucariotici - Overpredizione di 1000 volte dei TFBS

35 Allineamento di genomi
Allineamento geni ortologhi (no paraloghi)


Scaricare ppt "Genomica e Bioinformatica"

Presentazioni simili


Annunci Google