Genomica e Bioinformatica

Slides:



Advertisements
Presentazioni simili
Malattie genetiche monogeniche
Advertisements

Geni costitutivi e non costitutivi
Ogni essere vivente è dotato di
* ** MUTAZIONI -Spontanee -errori durante il riparo
GENE: segmento di DNA che trasporta l’informazione per un determinato
Bioinformatica Corso di Laurea specialistica in Informatica RNA: trascrizione e maturazione 21/03/2011.
Il Genoma Il genoma è l'insieme di tutte le informazioni biologiche necessarie alla costruzione e al mantenimento di un organismo vivente. Genomi a DNA.
Lez 7 Processamento dell’RNA negli eucaroti: RNA splicing
Genetica medica genoma umano e geni
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
SINTESI PROTEICA.
Perdita di funzione Acquisizione di funzione
Sottolineare i diversi elementi chimici presenti nei nucleotidi
TRASCRIZIONE del DNA.
TRASCRIZIONE del DNA.
Escherichia coli Molto studiato da un punto di vista genetico, fisiologico e strutturale Molto studiato da un punto di vista genetico, fisiologico e strutturale.
Organizzazione del genoma umano III
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Genomica Andrea G. B. Tettamanzi.
Clonaggio funzionale Clonaggio posizionale
Genomi degli organelli

L’ordine degli esoni è lo stesso nel genoma e negli mRNA
DAL DNA ALLE PROTEINE la trascrizione genica
Espressione genica.
Riassumendo Ci sono diverse modalità con cui un gene può produrre trascritti alternativi Inizi alternativi della trascrizione Terminazioni alternative.
P. CODICE GENETICO E SINTESI PROTEICA
TASSONOMIA DEI MICOBATTERI
Ivana Calarco DIFFERENZIAMENTO 29/03/2017.
Prof. Paolo Abis Speranzina Ferraro - 14 dicembre 2006.
Clonaggio: vettori plasmidici
RFLP I primi marcatori molecolari ad essere studiati furono gli RFLP (Restriction Fragment Lenght Polymorphism):particolari tratti di DNA presenti nella.
Upstream elements promoter elements transcription START site introns exons TRANSCRIPTION CAPPING SPLICING POLYADENYLATION m7Gm7G m7Gm7G AAAAAAAAAn m7Gm7G.
La varietà dei genomi valore C: quantità totale di DNA contenuta in un genoma aploide Il genoma comprende geni e sequenze non codificanti. Le dimensioni.
CORSO DI BIOLOGIA - Programma
CORSO DI BIOLOGIA - Programma
Alcuni esempi di domande di esame
CORSO DI BIOLOGIA - Programma
PROTEINE: “TRASCRIZIONE” e “TRADUZIONE”
POLIMORFISMO GENETICO
Sintesi di una proteina Cos’è il patrimonio genetico
Molti composti possono essere ottenuti da culture batteriche
P. CODICE GENETICO E SINTESI PROTEICA
Dip. Scienze Biomolecolari e Biotecnologie
Sequenze e Banche Dati Biologiche
Amminoacidi Primaria Secondaria Terziaria Quaternaria Biocristallografia Difesa Struttura Comunicazione Enzimi Riserva Trasporto Trascrizione Maturazione.
DNA – REPLICAZIONE (1) Semiconservativa: Catene genitrici
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
Definizioni: genoma trascrittoma proteoma.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
TRADUZIONE del RNA.
Pseudogeni = geni non funzionali
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
La Drosophila è un ottimo sistema modello:
I cambiamenti della sequenza del DNA: Evoluzione
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Capacità di riprodursi struttura nucleo DNA, RNA Membrana semipermeabile Parete cell organelli metabolismo Scambi energia e materia vegetale animale unicellulare.
Annotazione strutturale dei genomi
I cambiamenti della sequenza del DNA: Patologia molecolare
Struttura di alcuni batteriofagi modello
Geni “cliccabili”. SRS : Ensembl : NCBI : Sanger centre :
Come e quanto varia il genoma umano? Quali sono le conseguenze di queste variazioni?
UD5 Fase I Le Mutazioni Ovvero quando il codice genetico è errato o viene erroneamente decodificato.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Jacob, Monod – Parigi,1961 il modello dell’Operon-lac
Transcript della presentazione:

Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche e browsers - Confronti fra genomi - Variabilità genomica: banche dati mutazioni e SNP

Progetti di sequenziamento

Banche dati genomiche Cromosoma n Annotazioni Tipo Id Cromosoma Inizio ATCTACACTACTCTCTGGGGCTACA..........GCGTACTAGTTAGCTAGCTGATCGA | | | | | 1 10 20 143.456.710 143.456.720 Annotazioni Tipo Id Cromosoma Inizio Fine Filamento Gene AGS_23GH I 10012534 10018434 FHD_34GH IV 10103466 10112347 II Promotore HHTRE_EE 23423933 23424233 SNP A/G IX 34234723 - Esone GFDDD_22 267567545 267568667

Visualizzazione annotazioni 10x

Browser genomici 200 Mb 1 Mb 10 Kb 200 bp

Individuazione geni Metodi sperimentali Metodi bioinformatici Metodi Estrinseci Metodi Intrinseci Confronto più genomi

ATGCTACTACGGATAGTATAGATGA Struttura di un gene Start codon Stop codon 5’ ATGCTACTACGGATAGTATAGATGA 3’ Promoter Procarioti Eucarioti gene medio 30K = 5' UTR 750 bp + 6 esoni 150 bp + 5 introni 5000 bp + 3' UTR 450 bp

Metodi estrinseci Genoma Proteina no 5', 3' e promotori 3' UTR 5' UTR Genoma Proteina no 5', 3' e promotori Proteina Omologa mancano esoni, diff.giunzioni cDNA 5' UTR 3' UTR no promotori 3' UTR manca regione 5' EST Altro Genoma 5' UTR 3' UTR Uniprot Allineamento Trascritti cDNA, EST

Annotazione geni

Schemi di lettura 3' 2' 1' senso antisenso 4' 5' 6'

Schemi di lettura aperti TAA, TGA o TAG ATG ORF

Composizione di un genoma Procarioti Eucarioti Dimensioni max 10M 10G % Codificante 85% 1-3% Geni con introni - 95% Numero introni 0-80 Lunghezza introni 3-100.00bp Predizione 99% 50%

Metodi intrinseci - Individuazione di contenuto - Individuazione di segnali

Contenuto regioni codificanti - Frequenze aminoacidiche - Frequenze dipeptidi - Preferenze per codoni diversi - Preferenza per G e C terminali in eucarioti superiori - Terza base tende ad essere la stessa Batterio shewanella

= Copie/Totale Nucleotidi Frequenze esanucleotidi 1 Gb Intero Genoma 1.01 Gb Sequenze non Codificanti 10 Mb Sequenze codificanti Ricerca Esanucleotide AAATGA 500.000 Copie 10.000 Copie Frequenza AAATGA = Copie/Totale Nucleotidi Frequenza Codificanti fC 0.1% fN 0.05% Frequenza Non Codificanti Punteggio AAATGA = log (fC/fN) = +0.3

Punteggio di una posizione Regione di 30 nucleotidi ATGATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT AAATGA = +0.3 AATGAC = +2.1 ATGACT = -0.1 TGACTC = +1.5 GACTCT = ... ........................ CTAGCT = +0.2 TAGCTG = +3.1 PUNTEGGIO POSIZIONE "A" = MEDIA DEGLI ESANUCLEOTIDI = +1.9 TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "C" = +1.8 TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "T" = +1.6 ......

Ricerca regioni codificanti Punteggio della posizione +5 +4 +3 +2 +1 -1 -2 -3 -4 -5 Posizione nella sequenza Regione non codificante Regione non codificante ATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT Regione codificante ? ? Regioni a punteggio non significativo Dove inizia e dove termina la regione codificante?

Siti di splicing 99% Esone Introne Esone --gaggcatcag|GTttgtagac-----A-----tgtgtttcAG|tgcacccact-- --ccgccgctga|GTgagccgtg-----A-----tctattctAG|gacgcgcggg-- --tgtgaattag|GTaagaggtt-----A-----atatctacAG|atggagatca-- --ccatgaggag|GTgagtgcca-----A-----ttatttgcAG|gtatgagacg-- Sito di ramificazione Sito donatore di splicing 99% Sito accettore di splicing

Segnali + contenuto Fine esone Inizio esone Regione non codificante Regione codificante Introne Introne Esone

Frame di lettura e esoni Fine esone 1 Introne Inizio esone 2 ...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGA-ATA-GCT-GCT-GAT-... Splicing Rna Maturo ...-ACT-TAA-ATG-ACT-CTA-ATA-GCT-GCT-GAT-... ...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGAC-ATA-GCT-GCT-GAT-... Giunzione scorretta ...-ACT-TAA-ATG-ACT-CTAC-ATA-GCT-GCT-GAT-... Frame shift Esone 1 Introne 1 Introne 2 Esone 2 Esone 3 ...-AGA-ACT-CTGTC..CCAGAC-ATA-...-GCG-GAGTG....CTAGA-ATA-CTG-... Esone falso Rna Maturo ...-AGA-ACT-CTA-ATA-CTG-...

Costruzione modello gene

Costruzione modello gene

Costruzione modello gene

Costruzione modello gene

Costruzione modello gene

Difficoltà - Numero di esoni: Distrofina 79 in 2.3 Mb - Lunghezza introni: Distrofina più di 100Kb più del 99% del gene - Esoni corti: Solo 3bp in Arabidopsis. - Vicini a estremità: 1bp dall'inizio codoni start e stop interrotti - Geni sovrapposti: in 3'-UTR , ma anche in introni. - mRna policistronici anche in Eucarioti. - Introni in regioni non codificanti 5' e 3' UTR - Splicing alternativo 35-60% geni umani ha più di un prodotto - Siti splicing non canonici - Siti multipli inizio trascrizione - Siti alternativi inizio traduzione ACG Arabidopsis, CUG uomo

Prestazioni attuali R = Esoni Reali P = Esoni Predetti Intero gene: Esoni Mancati R = Esoni Reali M P = Esoni Predetti C S C C Esoni Sbagliati Esoni Corretti Sensitività = C/R 78 % Selettività = C/P 81 % Mancati = M/R 9% Sbagliati = S/P 5% Intero gene: Arabidopsis 50%-66% Mammiferi 15-20% Previsione +ricerca mirata sta diventando alternativa a sequenziamento cloni cDNA random.

Allineamenti di 2 genomi Uomo-topo 40% conservato solo 2% codificante

Allineamento con un genoma annotato

Allineamenti di due genomi non annotati - Distinzione coding/ non-coding Rapporto mut. sinonime e non sinonime Indels con cambio di frame O indels che recuperano il frame perso Introne Esone Introne

Allineamenti multipli

Ricerca promotori - Analisi del contenuto - Analisi dei segnali - Allineamento di più genomi

Analisi del Contenuto - Isole CpG 300-3000bp : (70% p. umani ne contiene) - Previsioni di ripiegabilità, stabilità e curvatura del DNA - Diverse fequenze di parole nucleotidiche

Analisi dei Segnali - TATA box a -30 dal TSS - Banche dati promotori eucariotici - Overpredizione di 1000 volte dei TFBS

Allineamento di genomi Allineamento geni ortologhi (no paraloghi)