Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco

Slides:



Advertisements
Presentazioni simili
Ogni essere vivente è dotato di
Advertisements

BIOMOLECOLE.
MICROSCOPIA.
Liceo Scientifico-Classico
DNA --> RNA --> Proteine
Frontespizio Economia Monetaria Anno Accademico
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
Bioinformatica Predizione della struttura secondaria dell’RNA – MFOLD
Le biomolecole 1 1.
Le proteine: come sono fatte, come funzionano, e come si sono evolute
Bioinformatica Prof. Mauro Fasano
ACIDI NUCLEICI…E NON SOLO…
STRUTTURA DUPLICAZIONE SINTESI DELLE PROTEINE
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
Esercitazioni su circuiti combinatori
Struttura del DNA.
Gli Acidi nucleici Acido desossirobonucleico o DNA
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie.
Corso di Informatica (Programmazione)
CONTROLLO DI SUPPLY CHAIN MEDIANTE TECNICHE H-INFINITO E NEGOZIAZIONE
La Sintesi Proteica.
Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dell’RNA 27/04/2011.
Strutture di controllo in C -- Flow Chart --
Notazioni Asintotiche e Ordini di Grandezza delle funzioni
Bioinformatica Per la laurea triennale in: Biologia Umana
Algoritmi di String Matching
Elementi di Informatica di base
D N A LA MOLECOLA DELLA VITA.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
Ivana Calarco DIFFERENZIAMENTO 29/03/2017.
L’organizzazione del corpo umano
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
Prof. Paolo Abis Speranzina Ferraro - 14 dicembre 2006.
LA TRASCRIZIONE Nella fase di trascrizione la doppia elica di una porzione di DNA viene dapprima svolta… … ad opera di un enzima detto RNA-Polimerasi.
UNITA’ DIDATTICA: L’RNA
CORSO DI BIOLOGIA - Programma
INTRODUZIONE ALLA BIOCHIMICA
Lunghe catene di NUCLEOTIDI
PROTEINE: “TRASCRIZIONE” e “TRADUZIONE”
La vita in codice Prof.ssa Carmela Allocca.
Molecola di DNA = lunga catena di nucleotidi
Acidi nucleici e proteine
lun mar mer gio ven SAB DOM FEBBRAIO.
Corso di Laurea Ingegneria Informatica Fondamenti di Informatica
Nozioni base di Biologia
An annealing mutation operator in the genetic algorithms for RNA folding Bruce A.Shapiro and Jin Chu Wu.
I nucleotidi, composti ricchi di energia svolgono diverse attività a supporto del metabolismo cellulare I polimeri dei nucleotidi, acidi nucleici, forniscono.
Algoritmi e Strutture Dati Introduzione agli algoritmi
DNA: The life molecule La ricerca del materiale genetico (da Eissman a Hershey e Chase) La struttura del DNA (da Chargaff a Watson e Crick) Le funzioni.
I nucleotidi, composti ricchi di energia svolgono diverse attività a supporto del metabolismo cellulare I polimeri dei nucleotidi, acidi nucleici, forniscono.
Chimica Organica Corso di Laurea in: Farmacia Capitolo Acidi Nucleici.
La trascrizione del DNA
Il D.N.A..
La struttura del DNA.
IL DNA E L’RNA.
STRUTTURA DUPLICAZIONE SINTESI DELLE PROTEINE
Lipidi Glucidi Le Biomolecole Acidi nucleici Protidi.
La Fabbrica delle Proteine
Gli acidi nucleici di Angela Astarita. Gli acidi nucleici, sono molecole complesse, presenti nelle cellule di tutti gli esseri viventi. Vi sono due tipi.
UD 3 ACIDI NUCLEICI Zuccheri, basi azotate e loro suddivisione nel DNA ed RNA Fase I.
IL DNA. LA STRUTTURA DEGLI ACIDI NUCLEICI ACIDI NUCLEICI Le istruzioni per la sintesi delle proteine sono fornite dagli ACIDI NUCLEICI DNA DeoxyriboNucleic.
Corso di bioinformatica Eugenio Notomista tel Introduzione alla bioinformatica G. Valle, M. Helmer Citterich, M. Attimonelli,
Transcript della presentazione:

The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco Bordignon Claudio Gaglio Elia 06-12-2006 Bordignon - Gaglio

L’area di ricerca della Bioinformatica: Si basa sul trattamento e l’analisi di dati biologici con metodi informatici Grande sviluppo negli ultimi decenni, grazie allo sviluppo di Internet Gli obiettivi della Bioinformatica: - Gestione di dati (costruzione di banche dati di informazioni biologiche) - Formulazione di modelli biologici (es. modelli statistici per individuare leggi numeriche e tendenze) - Analisi di sequenze di acidi nucleici (DNA, RNA) 06-12-2006 Bordignon - Gaglio

La composizione dell’RNA: RNA: acido ribonucleico, molto simile al DNA. Catena polinucleotidica a singolo filamento contenente 4 nucleotidi differenti: Gruppo fosfato, legato da 2 molecole di ribosio Ribosio, lo zucchero dell’RNA Basi azotate,le molecole che trasmettono l’informazione genetica 06-12-2006 Bordignon - Gaglio

Le caratteristiche dell’RNA (2): L’informazione genetica risiede nel DNA. Il flusso dell’informazione genetica è rappresentata dal “dogma centrale”: Duplicazione: formazione di copie di molecole di DNA e trasferimento di materiale genetico Trascrizione: trasferimento dell’informazione dal DNA alla molecola di RNA Traduzione: processo attraverso il quale di passa dall’RNA alla sintesi delle proteine 06-12-2006 Bordignon - Gaglio

Le strutture secondarie dell’RNA: L’RNA non è solo un intermediario tra il DNA e la sintesi proteica… Vi sono molti RNA non codificanti che svolgono varie funzioni grazie all’acquisizione di strutture precise: 06-12-2006 Bordignon - Gaglio

A G U G U C G G C U C A C U A G U G U C A C U U C A C U G G A U G U Tipologie di correlazioni tra coppie di basi: Normalmente gli accoppiamenti di basi sono tra loro annidati (nested) A G U G U C G G C U C A C U Esistono anche accoppiamenti di basi non annidati (unnested o crossed) Sono definiti come “pseudonodi” e sono funzionalmente molto importanti A G U G U C A C U U C A C U G G A U G U 06-12-2006 Bordignon - Gaglio

Linguaggi formali per la predizione di strutture: Linguaggi formali per modellare stringhe di simboli correlati Idea: L’RNA è dominato da coppie di correlazioni annidate descrivibili da grammatiche context-free (tipo 2) Predizione di strutture secondarie Sviluppo di grammatiche context free stocastiche MFOLD (si basa sull’utilizzo di parametri termodinamici) 06-12-2006 Bordignon - Gaglio

Rna’s prediction: MFOLD (1): MFOLD = “multiple web server” Predizione di strutture secondarie sfruttando il calcolo dell’energia libera 06-12-2006 Bordignon - Gaglio

Rna’s prediction: MFOLD (2): La stabilità di una molecola ripiegata di RNA può essere misurato in termini di variazioni di energia libera (ΔG) tra la molecola a singolo filamento e quella ripiegata in una struttura secondaria Struttura ottimale = struttura a minima energia Possibilità di ottenere strutture alternative, attraverso l’ “Energy Plot”: 06-12-2006 Bordignon - Gaglio

Rna’s prediction: Rivas & Eddy Algorithm (1): Problema: la tecnica precedente non tratta gli pseudonodi… Soluzione: Algoritmo di Rivas & Eddy Algoritmo di programmazione dinamica Permette la predizione di strutture secondarie sfruttando parametri termodinamici, cercando strutture ad energia minima (folding ottimale) Funziona correttamente anche per strutture pseudo-knotted Complessità (caso peggiore): tempo: O(n6) spazio: O(n4) 06-12-2006 Bordignon - Gaglio

Rna’s prediction: Rivas & Eddy Algorithm (2): wx e vx: matrici che riportano i punteggi del miglior folding tra le posizioni i e j Per determinare i pesi corretti per le matrici wx e vx si sfruttano delle relazioni ricorsive (sintetizzate dalla rappresentazione grafica) 06-12-2006 Bordignon - Gaglio

Rna’s prediction: Rivas & Eddy Algorithm (3): paired dangles single stranded bifurcations 06-12-2006 Bordignon - Gaglio

Rna’s prediction: Rivas & Eddy Algorithm (4): hairpin internal loop multiloop Necessità di troncare l’espansione interna per avere una grammatica trattabile in quanto la complessità rende intrattabile l’algoritmo  ad esempio, O(IS2) 06-12-2006 Bordignon - Gaglio

Rna’s prediction: Rivas & Eddy Algorithm (5): Per poter gestire gli pseudonodi è necessario estendere le matrici introdotte (adottando nuove matrici, dette matrici gap): 06-12-2006 Bordignon - Gaglio

Rna’s prediction: Rivas & Eddy Algorithm (6): Le ricorsioni portano all’introduzione di una nuova rappresentazione: 06-12-2006 Bordignon - Gaglio

Grammatica “Crossed-interaction”: Una grammatica G che include pseudonodi (crossed interaction) è la seguente: G = { V, T, S, I, P, R } dove: V= insieme (finito) dei simboli non terminali T= insieme (finito) dei simboli terminali (alfabeto). T* è l’insieme di tutte le stringhe costruite da T, inclusa ε e la stringa Λ S= non terminale iniziale I= insieme (finito) dei simboli extra non terminali P= insieme (finito) delle produzioni R= insieme (finito) delle regole di riarrangiamento 06-12-2006 Bordignon - Gaglio

Linguaggio “Crossed-interaction” (1): Un esempio di linguaggio che include le crossing interactions è il cosiddetto “linguaggio copia”. Ad esempio, per ottenere pattern duplicati correlati (ab, aba, abaaba, ecc.): T = { a, b } L = { ε, W Λ W | W Є (a,b)* } S = { W } I = { (, ), x } Le produzioni associate sono: 06-12-2006 Bordignon - Gaglio

Linguaggio “Crossed-interaction” (2): Ad esempio, la sequenza: può essere analizzata con la seguente grammatica: Sfruttando le parentesi possiamo costruire annidamenti complessi: 06-12-2006 Bordignon - Gaglio

“Crossed-interaction” – definizioni formali: Indichiamo con: l’insieme di tutte le stringhe generabile dall’alfabeto: L’insieme delle produzioni P ha la forma generale: La struttura delle produzioni è simile a quelle delle grammatiche context-free (tipo 2), ad eccezione della presenza dei simboli extra I, che permettono dei riarrangiamenti la cui forma generale è: La grammatica genera perciò il seguente linguaggio: 06-12-2006 Bordignon - Gaglio

“Crossed-interaction” – accorgimenti per il parsing: Il parsing per tale grammatica può essere complesso (in alcuni casi NP-Completo). Un possibile accorgimento è troncare la seguente somma infinita (ad esempio per n=2): Infatti, se n=0 abbiamo una grammatica context-free se n>0 non abbiamo più una grammatica context-free, ma limitando n rendo il parsing un problema trattabile. 06-12-2006 Bordignon - Gaglio

RNA pseudoknot grammar (1): La grammatica per definire le strutture di pseudonodi è una specializzazione della G definita precedentemente. I simboli non-terminali sono: L’alfabeto T rispecchia la struttura dell’RNA: I simboli extra sono: non gapped gapped creano i loop 06-12-2006 Bordignon - Gaglio

RNA pseudoknot grammar (2): Le regole di produzione per W sono le seguenti (si Є T è il nucleotide in posizione i-esima): Vab è il non terminale iniziale trovato dopo l’appaiamento di una coppia a,b. Le regole di produzione sono le seguenti: 06-12-2006 Bordignon - Gaglio

RNA pseudoknot grammar (3): WH è il non terminale che introduce uno pseudonodo e le regole di produzione sono le seguenti: 06-12-2006 Bordignon - Gaglio

Stems, bulge, internal loops RNA pseudoknot grammar (4): VHabcd è il non terminale che si ha dopo la formazione di uno pseudonodo. Le regole di produzione sono le seguenti: Infine i non terminali che creano le “strutture loop” sono così composti: Hairpin loops Stems, bulge, internal loops 06-12-2006 Bordignon - Gaglio

RNA pseudoknot grammar (5): Le regole di riarrangiamento sono applicabili dopo le diverse produzioni e permettono un riordinamento della stringa. Esse sono: 06-12-2006 Bordignon - Gaglio

RNA pseudoknot grammar – esempio pratico: b c d e f W  Wh x Wh  (Wh  Wb Λ  ) x Wh  ((Sa VhSaSeSbSd Se  Sb Λ Sd)  Wb Λ ) x (Sc VhScSfSdSeSf  Sd Λ Se)  ((Sa Λ Se  Sb Λ Sd)  SbVSbScSc Λ ) x (Sc Λ Sf  Sd Λ Se)  ((Sa Λ Se  Sb Λ Sd)  SbSc Λ ) x (Sc Λ Sf  Sd Λ Se) R ((Sa Sb Λ Sd Se)  SbSc Λ ) x (Sc Sd Λ Se Sf) R ((Sa Sb Sb Sc Λ  Sd Se)) x (Sc Sd Λ Se Sf) R Sa Sb Sb Sc Sc Sd Λ Sd Se Se Sf 06-12-2006 Bordignon - Gaglio

Bibliografia: [1] The languages of RNA: a formal grammar that includes pseudoknotes – Rivas & Eddy, Department of Genetics - Washington University August 1999. [2] A dynamic programming algorithm for RNA structure prediction including pseudoknots – Rivas & Eddy, Department of Genetics - Washington University July 1998. [3] Introduzione alla Bioinformatica – Valle, Citterich, Attimonelli, Pesole – Zanichelli. [4] MFOLD web server for nucleic acid folding and hybridization prediction – Zuker, Department of Science Troy USA, April 2003. 06-12-2006 Bordignon - Gaglio