Argomenti trattati Struttura di un gene e alternative splicing (AS)

Slides:



Advertisements
Presentazioni simili
Malattie genetiche monogeniche
Advertisements

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Problema dellordinamento Input: Sequenza di n numeri Output: Permutazione π = tale che: a 1 a 2 …… a n Subroutine in molti problemi E possibile effettuare.
Geni costitutivi e non costitutivi
Classe III A A.s – 2010 Programma di Informatica
Classe IV B A.s – 2009 Programma di Informatica 6 ore (3 laboratorio) Docenti –Prof. Alberto Ferrari –Prof. Alberto Paganuzzi.
Classe V B A.s – 2008 Programma di Informatica Docenti
Ogni essere vivente è dotato di
Intelligenza Artificiale - AA 2001/2002 Logiche sfumate - 1 Intelligenza Artificiale Breve introduzione alla logiche sfumate (fuzzy logics) Marco Piastra.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Bioinformatica Corso di Laurea specialistica in Informatica RNA: trascrizione e maturazione 21/03/2011.
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Lez 7 Processamento dell’RNA negli eucaroti: RNA splicing
Routing Crediti Parte delle slide seguenti sono adattate dalla versione originale di J.F Kurose and K.W. Ross (© All Rights Reserved)
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
BASI DI DATI BIOLOGICHE - 3
Algoritmi e Strutture Dati con Laboratorio (Modulo I)
Macchine non completamente specificate
La predizione della struttura genica e lo splicing alternativo
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
La Sintesi Proteica.

Micro RNA (miRNA) Piccole molecole di RNA (20-22 nt)
Intelligenza Artificiale
Sequenze Ripetitive di Dna
Espressione genica.
Opinione studenti II anno A-K Per la stragrande maggioranza degli studenti, il bilancio per il II anno A-K, è nettamente positivo. Infatti se vogliamo.
Genomica e Bioinformatica
Riassumendo Ci sono diverse modalità con cui un gene può produrre trascritti alternativi Inizi alternativi della trascrizione Terminazioni alternative.
Clonaggio: vettori plasmidici
Cap. 17 Regolazione dell’espressione genica negli Eucarioti. Pp
Esperimento che dimostra che U1 snRNA riconosce il sito di splicing al 5 mediante appaiamento di basi 1)Mutazioni al 5 ss inibiscono lo splicing 2)Mutazioni.
Upstream elements promoter elements transcription START site introns exons TRANSCRIPTION CAPPING SPLICING POLYADENYLATION m7Gm7G m7Gm7G AAAAAAAAAn m7Gm7G.
La varietà dei genomi valore C: quantità totale di DNA contenuta in un genoma aploide Il genoma comprende geni e sequenze non codificanti. Le dimensioni.
CORSO DI BIOLOGIA - Programma
28 ottobre Mergesort F. Bombi 28 ottobre 2003.
Tecnologie delle Costruzioni Aeronautiche 1 Esercitazione 3 © Goran Ivetic.
PROTEINE: “TRASCRIZIONE” e “TRADUZIONE”
La vita in codice Prof.ssa Carmela Allocca.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Giulio Pavesi Dipartimento di BioScienze Università di Milano
Chapter 5 - Part 2 1 Procedura di sintesi  Specifiche  Formulazione – Ricavare un diagramma o una tabella di stato  Assegnazione della codifica di stato.
Classe IV A A.s – 2013 Programma di Informatica 5 ore (3 laboratorio) Docenti –Prof. Alberto Ferrari –Prof. Alberto Paganuzzi.
DNA – REPLICAZIONE (1) Semiconservativa: Catene genitrici
Università degli studi di Parma Dipartimento di Ingegneria dell’Informazione Politecnico di Milano Reti Logiche A Macchine non completamente specificate.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
Paola Disisto, Erika Griffini, Yris Noriega.  Insieme ordinato di operazioni non ambigue ed effettivamente computabili che, quando eseguito, produce.
STRUTTURA  FUNZIONE  EVOLUZIONE STRUTTURA  (FUNZIONE)  EVOLUZIONE Organi, tessuti ecc. Geni o segmenti genomici.
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
Transcription termination RNA polymerase I terminates transcription at an 18 base terminator sequence. RNA polymerase III terminates transcription in poly(U)
Viruses.
L A R OUTINE D EL M ATTINO Ellie B.. Io mi sono svegliata alle cinque del mattino.
La trascrizione del DNA
I cambiamenti della sequenza del DNA: Evoluzione
Capacità di riprodursi struttura nucleo DNA, RNA Membrana semipermeabile Parete cell organelli metabolismo Scambi energia e materia vegetale animale unicellulare.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Geni o segmenti genomici
Transcript della presentazione:

Argomenti trattati Struttura di un gene e alternative splicing (AS) 3/25/2017 Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software

Introduzione biologica DNA Doppia catena polinucleotidica definita sull’alfabeto: A, C, G, T Gene Regione di DNA che codifica proteine

Numero geni e genomi in eucarioti 3/25/2017 Numero geni e genomi in eucarioti Number of genes in prokaryotes (up to 8000) Genoma in procarioti (> 9 Mb)

Espressione di un gene 5’ 3’ DNA 3’ 5’ 5’ 3’ pre-mRNA mRNA EST 3/25/2017 Espressione di un gene 5’ 3’ DNA 3’ 5’ TRASCRIZIONE 5’ 3’ exon 1 exon 2 exon 3 pre-mRNA SPLICING exon 1 exon 2 exon 3 prodotto dello splicing mRNA EST Expressed Sequence Tag (cDNA) exon 2 exon 1 exon 3

Trascritti e sequenze EST 3/25/2017 Trascritti e sequenze EST Un trascritto è l’elenco delle basi (A, T, C, G) che compongono un mRNA maturo Un EST è un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro ) ATTGCGTTAACTGGACTGA mRNA AATTGACC EST TAACGCAATTGACCTGACT cDNA

Pattern di un introne Introni canonici: 99.24 % GT AG 3/25/2017 Pattern di un introne Introni canonici: 99.24 % GT AG Introni non canonici: 0.69 % 0.05 % 0.02 % GC AG AT AC ALTRO Burset et al., Nucleic Acids Res. 2000, 28:4363-4375

Ma le cose funzionano davvero così? 3/25/2017 Espressione di un gene Ma le cose funzionano davvero così? Numero Geni corpo umano : 40000 circa Numero Proteine : centinaia di migliaia La corrispondenza 1 a 1 non è rispettata. Perché? SPLICING ALTERNATIVO

Tipi di Alternative Splicing 3/25/2017 Tipi di Alternative Splicing Mutually exclusive exons Exon skipping Splice/don’t splice Competing 3’ Competing 5’ A’ A I1 B A I1 B A I1 B A I1 B A A I1 B I1 B’ B C B C D GENOMICA A B C D mRNA1 A B D B mRNA2 A I1 B C D A’ C D B C D A C D B’ A C

3/25/2017 Perché AS è importante? AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) AS genera numerosi trascritti a partire da un singolo gene AS is specifico del tessuto in cui si trova la cellula (Graveley, 2001) AS è correlato alle malattie

Problema di AS AS è ancora un problema aperto 3/25/2017 Problema di AS AS è ancora un problema aperto Si ha la necessità di software tools per predire le forme di splicing alternativo di un gene analizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoforme

Cosa c’è a disposizione? 3/25/2017 Cosa c’è a disposizione? Programmi veloci che producono l’allineamento di una singola sequenza EST contro la genomica: Spidey (Wheelan et al., 2001) Squall (Ogasawara & Morishita, 2002) Ma la predizione della struttura in esoni e introni di un gene è complicata da errori di sequenziamento nell’EST (inserzioni, delezioni e mismatch) => criteri di ottimizzazione sequenze duplicate sulla genomica => analisi combinata di un cluster di sequenze EST

st = suff (fit) o st = pref (fit) 3/25/2017 Definizioni formali Def 1 Sequenza genomica, G = I1 f1 I2 f2 I3 f3 … In fn In+1, con Ii (i=1, 2, …, n+1) introni e fi (i=1, 2, …, n) esoni Def 2 Fattorizzazione in esoni di G, GE = f1 f2 f3 … fn Def 3 Fattorizzazione di un EST S compatibile con GE S=s1 s2 … sk t.c. per 1  i1 < i2 < … < ik  n si abbia: edit (st, fit)  errore per t=2, 3, …, k-1 edit(s1, suff(fi1))  errore e edit(sk, pref(fik))  errore Def 1 Sequenza genomica, G = I1 f1 I2 f2 I3 f3 … In fn In+1, con Ii (i=1, 2, …, n+1) introni e fi (i=1, 2, …, n) esoni Def 2 Fattorizzazione in esoni di G, GE = f1 f2 f3 … fn Def 3 Fattorizzazione di un EST S compatibile con GE S=s1 s2 … sk t.c. per 1  i1 < i2 < … < ik  n si abbia: st = fit per t=2, 3, …, k-1 s1 è un suffisso di fi1 e sk è un prefisso di fik st = suff (fit) o st = pref (fit) variante di splicing

Il problema Input - Una sequenza genomica G 3/25/2017 Il problema Input - Una sequenza genomica G - Un cluster di sequenze EST S = {S1, S2, …, Sn} Output Una fattorizzazione GE di G (GE = f1, f2, …, fn) e un set di fattorizzazioni degli EST compatibili con GE Obiettivo: minimizzare n

Esempio A2 A2 A2 A2 D1 C1 A2 A1A2 A1A2 A1A2 A1A2 B D1 B B B D1 D1 D1 3/25/2017 Esempio Sequenza genomica G A2 A2 A2 A2 D1 C1 A2 A1A2 A1A2 A1A2 A1A2 B D1 B B B D1 D1 D1 C1 C1 D1D2 D1D2 D1D2 D1D2 C1C2 C1C2 C1C2 C1C2 4 esoni 7 exons EST set S = {S1, S2, S3} C1 S1 A2 D1 S2 A1A2 B D1 S3 A2 D1D2 C1C2

Risultati Il problema è MAX-SNP-hard (riduzione lineare da NODE-COVER) 3/25/2017 Risultati Il problema è MAX-SNP-hard (riduzione lineare da NODE-COVER) Euristica: Processo iterativo per fattorizzare ogni EST backtracking per ricomputare fattorizazzioni precedenti se si giunge ad una fattorizzazione non compatibile con GE

L’algoritmo si-1 1 si-1 j-1 si-1 j si-1 n si1 si j-1 sij em e1 e2 em 3/25/2017 L’algoritmo Passo j-esimo: Fattorizzazione parziale dell’EST Si (fattore sij) Si-1 si-1 1 si-1 j-1 si-1 j si-1 n Si si1 si j-1 sij em G e1 e2 em After placing all the factors sij for the set S, place the external factors; if (Compatible(em, exon_list)) then add em to exon_list; otherwise try to place sij elsewhere; If not possible then backtrack;

L’algoritmo (dettagli) 3/25/2017 L’algoritmo (dettagli) Calcolo del fattore sij ag gt G esone c2 Si si1 si j-1 si jy si j c1 c1 c1 c1 c2 c2 c3 c4 c5 sij Find the rightmost gt pattern such that the edit distance between sijy and the genomic substring from ag to gt is bounded Sij can be divided into n components ck (k=1,2,…,n) At least one of these components for k from 1 to (n-1) is error-free and can be placed on G Then the entire factor sij can be placed on G Find the canonical ag pattern on the left Then the algorithm searches a perfect match of c2 on G The algorithm searches a perfect match of c1 on G Suppose that c2 has a perfect match on G Suppose that c1 has no perfect match on G

ASPic software (Alternative Splicing PredICtion) 3/25/2017 ASPic software (Alternative Splicing PredICtion) Input - La lunghezza minima prevista per un esone - La lunghezza della componente di matching perfetto - L’errore di riduzione degli introni - L’errore di sequenziamento di un EST - La sequenza genomica - Il cluster di EST Output - Un file di testo per tutti gli allineamenti EST-genomica - Un file HTML degli allineamenti in prossimità dei siti di splicing predetti

3/25/2017 ASPic web site ASPic è un web-based tool disponibile all’indirizzo http://aspic.algo.disco.unimib.it/aspic-devel che permette di predire i siti di splicing per un gene in input

3/25/2017 ASPIC web site

3/25/2017 ASPIC web site

ASPIC web site http://www.caspur.it/ASPIC/ OUTPUT: 3/25/2017 ASPIC web site http://www.caspur.it/ASPIC/ OUTPUT: Information about the input A graphical view of the predicted gene structure A table of the predicted introns A graphical view of the transcript-genome alignments A graphical view of the predicted full-length isoforms A table of the predicted full-length isoforms

3/25/2017 ASPIC web site

3/25/2017 ASPIC web site

3/25/2017 ASPIC web site

3/25/2017 ASPIC web site

3/25/2017 ASPIC web site

3/25/2017 ASPIC web site

3/25/2017 ASPIC web site

Prediction of p53 protein isoforms 3/25/2017 Prediction of p53 protein isoforms

GRAZIE!