La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi.

Presentazioni simili


Presentazione sul tema: "06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi."— Transcript della presentazione:

1 Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco Bordignon Claudio Gaglio Elia

2 Bordignon - Gaglio 2 Larea di ricerca della Bioinformatica: Si basa sul trattamento e lanalisi di dati biologici con metodi informatici Grande sviluppo negli ultimi decenni, grazie allo sviluppo di Internet Gli obiettivi della Bioinformatica: - Gestione di dati (costruzione di banche dati di informazioni biologiche) - Formulazione di modelli biologici (es. modelli statistici per individuare leggi numeriche e tendenze) - Analisi di sequenze di acidi nucleici (DNA, RNA)

3 Bordignon - Gaglio 3 La composizione dellRNA: RNA: acido ribonucleico, molto simile al DNA. Catena polinucleotidica a singolo filamento contenente 4 nucleotidi differenti: Gruppo fosfato, legato da 2 molecole di ribosio Ribosio, lo zucchero dellRNA Basi azotate,le molecole che trasmettono linformazione genetica

4 Bordignon - Gaglio 4 Le caratteristiche dellRNA (2): Linformazione genetica risiede nel DNA. Il flusso dellinformazione genetica è rappresentata dal dogma centrale: Duplicazione: formazione di copie di molecole di DNA e trasferimento di materiale genetico Trascrizione: trasferimento dellinformazione dal DNA alla molecola di RNA Traduzione: processo attraverso il quale di passa dallRNA alla sintesi delle proteine

5 Bordignon - Gaglio 5 LRNA non è solo un intermediario tra il DNA e la sintesi proteica… Vi sono molti RNA non codificanti che svolgono varie funzioni grazie allacquisizione di strutture precise: Le strutture secondarie dellRNA:

6 Bordignon - Gaglio 6 Tipologie di correlazioni tra coppie di basi: Normalmente gli accoppiamenti di basi sono tra loro annidati (nested) A G U G U C G G C U C A C U Esistono anche accoppiamenti di basi non annidati (unnested o crossed) Sono definiti come pseudonodi e sono funzionalmente molto importanti A G U G U C A C U U C A C U G G A U G U

7 Bordignon - Gaglio 7 Linguaggi formali per la predizione di strutture: Linguaggi formali per modellare stringhe di simboli correlati Idea: LRNA è dominato da coppie di correlazioni annidate Sviluppo di grammatiche context free stocastiche MFOLD (si basa sullutilizzo di parametri termodinamici) descrivibili da grammatiche context-free (tipo 2) Predizione di strutture secondarie

8 Bordignon - Gaglio 8 Rnas prediction: MFOLD (1): MFOLD = multiple web server Predizione di strutture secondarie sfruttando il calcolo dellenergia libera

9 Bordignon - Gaglio 9 Rnas prediction: MFOLD (2): La stabilità di una molecola ripiegata di RNA può essere misurato in termini di variazioni di energia libera (ΔG) tra la molecola a singolo filamento e quella ripiegata in una struttura secondaria Struttura ottimale = struttura a minima energia Possibilità di ottenere strutture alternative, attraverso l Energy Plot:

10 Bordignon - Gaglio 10 Rnas prediction: Rivas & Eddy Algorithm (1): Soluzione: Algoritmo di Rivas & Eddy Algoritmo di programmazione dinamica Permette la predizione di strutture secondarie sfruttando parametri termodinamici, cercando strutture ad energia minima (folding ottimale) Funziona correttamente anche per strutture pseudo-knotted Complessità (caso peggiore): tempo: O(n 6 ) spazio: O(n 4 ) Problema: la tecnica precedente non tratta gli pseudonodi…

11 Bordignon - Gaglio 11 Rnas prediction: Rivas & Eddy Algorithm (2): wx e vx: matrici che riportano i punteggi del miglior folding tra le posizioni i e j Per determinare i pesi corretti per le matrici wx e vx si sfruttano delle relazioni ricorsive (sintetizzate dalla rappresentazione grafica)

12 Bordignon - Gaglio 12 Rnas prediction: Rivas & Eddy Algorithm (3): paireddangles single strandedbifurcations

13 Bordignon - Gaglio 13 Rnas prediction: Rivas & Eddy Algorithm (4): Necessità di troncare lespansione interna per avere una grammatica trattabile in quanto la complessità rende intrattabile lalgoritmo ad esempio, O(IS 2 ) hairpininternal loop multiloop

14 Bordignon - Gaglio 14 Rnas prediction: Rivas & Eddy Algorithm (5): Per poter gestire gli pseudonodi è necessario estendere le matrici introdotte (adottando nuove matrici, dette matrici gap):

15 Bordignon - Gaglio 15 Rnas prediction: Rivas & Eddy Algorithm (6): Le ricorsioni portano allintroduzione di una nuova rappresentazione:

16 Bordignon - Gaglio 16 Grammatica Crossed-interaction: Una grammatica G che include pseudonodi (crossed interaction) è la seguente: G = { V, T, S, I, P, R } dove: V= insieme (finito) dei simboli non terminali T= insieme (finito) dei simboli terminali (alfabeto). T* è linsieme di tutte le stringhe costruite da T, inclusa ε e la stringa Λ S= non terminale iniziale I= insieme (finito) dei simboli extra non terminali P= insieme (finito) delle produzioni R= insieme (finito) delle regole di riarrangiamento

17 Bordignon - Gaglio 17 Linguaggio Crossed-interaction (1): Ad esempio, per ottenere pattern duplicati correlati (ab, aba, abaaba, ecc.): T = { a, b } L = { ε, W Λ W | W Є (a,b)* } S = { W } I = { (, ), x } Le produzioni associate sono: Un esempio di linguaggio che include le crossing interactions è il cosiddetto linguaggio copia.

18 Bordignon - Gaglio 18 Linguaggio Crossed-interaction (2): Ad esempio, la sequenza: può essere analizzata con la seguente grammatica: Sfruttando le parentesi possiamo costruire annidamenti complessi:

19 Bordignon - Gaglio 19 Crossed-interaction – definizioni formali: Indichiamo con: linsieme di tutte le stringhe generabile dallalfabeto: Linsieme delle produzioni P ha la forma generale: La struttura delle produzioni è simile a quelle delle grammatiche context-free (tipo 2), ad eccezione della presenza dei simboli extra I, che permettono dei riarrangiamenti la cui forma generale è: La grammatica genera perciò il seguente linguaggio:

20 Bordignon - Gaglio 20 Crossed-interaction – accorgimenti per il parsing: Il parsing per tale grammatica può essere complesso (in alcuni casi NP- Completo). Un possibile accorgimento è troncare la seguente somma infinita (ad esempio per n=2): Infatti, se n=0 abbiamo una grammatica context-free se n>0 non abbiamo più una grammatica context-free, ma limitando n rendo il parsing un problema trattabile.

21 Bordignon - Gaglio 21 RNA pseudoknot grammar (1): La grammatica per definire le strutture di pseudonodi è una specializzazione della G definita precedentemente. I simboli non-terminali sono: Lalfabeto T rispecchia la struttura dellRNA: I simboli extra sono: non gappedgapped creano i loop

22 Bordignon - Gaglio 22 Le regole di produzione per W sono le seguenti (s i Є T è il nucleotide in posizione i-esima): V ab è il non terminale iniziale trovato dopo lappaiamento di una coppia a,b. Le regole di produzione sono le seguenti: RNA pseudoknot grammar (2):

23 Bordignon - Gaglio 23 RNA pseudoknot grammar (3): W H è il non terminale che introduce uno pseudonodo e le regole di produzione sono le seguenti:

24 Bordignon - Gaglio 24 RNA pseudoknot grammar (4): V H abcd è il non terminale che si ha dopo la formazione di uno pseudonodo. Le regole di produzione sono le seguenti: Infine i non terminali che creano le strutture loop sono così composti: Hairpin loops Stems, bulge, internal loops

25 Bordignon - Gaglio 25 RNA pseudoknot grammar (5): Le regole di riarrangiamento sono applicabili dopo le diverse produzioni e permettono un riordinamento della stringa. Esse sono:

26 Bordignon - Gaglio 26 abc d e f W W h x W h (W h W b Λ ) x W h ((S a V h SaSeSbSd S e S b Λ S d ) W b Λ ) x (S c V h ScSfSdSe S f S d Λ S e ) ((S a Λ S e S b Λ S d ) S b V SbSc S c Λ ) x (S c Λ S f S d Λ S e ) ((S a Λ S e S b Λ S d ) S b S c Λ ) x (S c Λ S f S d Λ S e ) R ((S a S b Λ S d S e ) S b S c Λ ) x (S c S d Λ S e S f ) R ((S a S b S b S c Λ S d S e )) x (S c S d Λ S e S f ) R S a S b S b S c S c S d Λ S d S e S e S f RNA pseudoknot grammar – esempio pratico:

27 Bordignon - Gaglio 27 Bibliografia: [1] The languages of RNA: a formal grammar that includes pseudoknotes – Rivas & Eddy, Department of Genetics - Washington University August [2] A dynamic programming algorithm for RNA structure prediction including pseudoknots – Rivas & Eddy, Department of Genetics - Washington University July [3] Introduzione alla Bioinformatica – Valle, Citterich, Attimonelli, Pesole – Zanichelli. [4] MFOLD web server for nucleic acid folding and hybridization prediction – Zuker, Department of Science Troy USA, April 2003.


Scaricare ppt "06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi."

Presentazioni simili


Annunci Google