La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco

Presentazioni simili


Presentazione sul tema: "Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco"— Transcript della presentazione:

1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy
Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco Bordignon Claudio Gaglio Elia Bordignon - Gaglio

2 L’area di ricerca della Bioinformatica:
Si basa sul trattamento e l’analisi di dati biologici con metodi informatici Grande sviluppo negli ultimi decenni, grazie allo sviluppo di Internet Gli obiettivi della Bioinformatica: - Gestione di dati (costruzione di banche dati di informazioni biologiche) - Formulazione di modelli biologici (es. modelli statistici per individuare leggi numeriche e tendenze) - Analisi di sequenze di acidi nucleici (DNA, RNA) Bordignon - Gaglio

3 La composizione dell’RNA:
RNA: acido ribonucleico, molto simile al DNA. Catena polinucleotidica a singolo filamento contenente 4 nucleotidi differenti: Gruppo fosfato, legato da 2 molecole di ribosio Ribosio, lo zucchero dell’RNA Basi azotate,le molecole che trasmettono l’informazione genetica Bordignon - Gaglio

4 Le caratteristiche dell’RNA (2):
L’informazione genetica risiede nel DNA. Il flusso dell’informazione genetica è rappresentata dal “dogma centrale”: Duplicazione: formazione di copie di molecole di DNA e trasferimento di materiale genetico Trascrizione: trasferimento dell’informazione dal DNA alla molecola di RNA Traduzione: processo attraverso il quale di passa dall’RNA alla sintesi delle proteine Bordignon - Gaglio

5 Le strutture secondarie dell’RNA:
L’RNA non è solo un intermediario tra il DNA e la sintesi proteica… Vi sono molti RNA non codificanti che svolgono varie funzioni grazie all’acquisizione di strutture precise: Bordignon - Gaglio

6 A G U G U C G G C U C A C U A G U G U C A C U U C A C U G G A U G U
Tipologie di correlazioni tra coppie di basi: Normalmente gli accoppiamenti di basi sono tra loro annidati (nested) A G U G U C G G C U C A C U Esistono anche accoppiamenti di basi non annidati (unnested o crossed) Sono definiti come “pseudonodi” e sono funzionalmente molto importanti A G U G U C A C U U C A C U G G A U G U Bordignon - Gaglio

7 Linguaggi formali per la predizione di strutture:
Linguaggi formali per modellare stringhe di simboli correlati Idea: L’RNA è dominato da coppie di correlazioni annidate descrivibili da grammatiche context-free (tipo 2) Predizione di strutture secondarie Sviluppo di grammatiche context free stocastiche MFOLD (si basa sull’utilizzo di parametri termodinamici) Bordignon - Gaglio

8 Rna’s prediction: MFOLD (1):
MFOLD = “multiple web server” Predizione di strutture secondarie sfruttando il calcolo dell’energia libera Bordignon - Gaglio

9 Rna’s prediction: MFOLD (2):
La stabilità di una molecola ripiegata di RNA può essere misurato in termini di variazioni di energia libera (ΔG) tra la molecola a singolo filamento e quella ripiegata in una struttura secondaria Struttura ottimale = struttura a minima energia Possibilità di ottenere strutture alternative, attraverso l’ “Energy Plot”: Bordignon - Gaglio

10 Rna’s prediction: Rivas & Eddy Algorithm (1):
Problema: la tecnica precedente non tratta gli pseudonodi… Soluzione: Algoritmo di Rivas & Eddy Algoritmo di programmazione dinamica Permette la predizione di strutture secondarie sfruttando parametri termodinamici, cercando strutture ad energia minima (folding ottimale) Funziona correttamente anche per strutture pseudo-knotted Complessità (caso peggiore): tempo: O(n6) spazio: O(n4) Bordignon - Gaglio

11 Rna’s prediction: Rivas & Eddy Algorithm (2):
wx e vx: matrici che riportano i punteggi del miglior folding tra le posizioni i e j Per determinare i pesi corretti per le matrici wx e vx si sfruttano delle relazioni ricorsive (sintetizzate dalla rappresentazione grafica) Bordignon - Gaglio

12 Rna’s prediction: Rivas & Eddy Algorithm (3):
paired dangles single stranded bifurcations Bordignon - Gaglio

13 Rna’s prediction: Rivas & Eddy Algorithm (4):
hairpin internal loop multiloop Necessità di troncare l’espansione interna per avere una grammatica trattabile in quanto la complessità rende intrattabile l’algoritmo  ad esempio, O(IS2) Bordignon - Gaglio

14 Rna’s prediction: Rivas & Eddy Algorithm (5):
Per poter gestire gli pseudonodi è necessario estendere le matrici introdotte (adottando nuove matrici, dette matrici gap): Bordignon - Gaglio

15 Rna’s prediction: Rivas & Eddy Algorithm (6):
Le ricorsioni portano all’introduzione di una nuova rappresentazione: Bordignon - Gaglio

16 Grammatica “Crossed-interaction”:
Una grammatica G che include pseudonodi (crossed interaction) è la seguente: G = { V, T, S, I, P, R } dove: V= insieme (finito) dei simboli non terminali T= insieme (finito) dei simboli terminali (alfabeto). T* è l’insieme di tutte le stringhe costruite da T, inclusa ε e la stringa Λ S= non terminale iniziale I= insieme (finito) dei simboli extra non terminali P= insieme (finito) delle produzioni R= insieme (finito) delle regole di riarrangiamento Bordignon - Gaglio

17 Linguaggio “Crossed-interaction” (1):
Un esempio di linguaggio che include le crossing interactions è il cosiddetto “linguaggio copia”. Ad esempio, per ottenere pattern duplicati correlati (ab, aba, abaaba, ecc.): T = { a, b } L = { ε, W Λ W | W Є (a,b)* } S = { W } I = { (, ), x } Le produzioni associate sono: Bordignon - Gaglio

18 Linguaggio “Crossed-interaction” (2):
Ad esempio, la sequenza: può essere analizzata con la seguente grammatica: Sfruttando le parentesi possiamo costruire annidamenti complessi: Bordignon - Gaglio

19 “Crossed-interaction” – definizioni formali:
Indichiamo con: l’insieme di tutte le stringhe generabile dall’alfabeto: L’insieme delle produzioni P ha la forma generale: La struttura delle produzioni è simile a quelle delle grammatiche context-free (tipo 2), ad eccezione della presenza dei simboli extra I, che permettono dei riarrangiamenti la cui forma generale è: La grammatica genera perciò il seguente linguaggio: Bordignon - Gaglio

20 “Crossed-interaction” – accorgimenti per il parsing:
Il parsing per tale grammatica può essere complesso (in alcuni casi NP-Completo). Un possibile accorgimento è troncare la seguente somma infinita (ad esempio per n=2): Infatti, se n=0 abbiamo una grammatica context-free se n>0 non abbiamo più una grammatica context-free, ma limitando n rendo il parsing un problema trattabile. Bordignon - Gaglio

21 RNA pseudoknot grammar (1):
La grammatica per definire le strutture di pseudonodi è una specializzazione della G definita precedentemente. I simboli non-terminali sono: L’alfabeto T rispecchia la struttura dell’RNA: I simboli extra sono: non gapped gapped creano i loop Bordignon - Gaglio

22 RNA pseudoknot grammar (2):
Le regole di produzione per W sono le seguenti (si Є T è il nucleotide in posizione i-esima): Vab è il non terminale iniziale trovato dopo l’appaiamento di una coppia a,b. Le regole di produzione sono le seguenti: Bordignon - Gaglio

23 RNA pseudoknot grammar (3):
WH è il non terminale che introduce uno pseudonodo e le regole di produzione sono le seguenti: Bordignon - Gaglio

24 Stems, bulge, internal loops
RNA pseudoknot grammar (4): VHabcd è il non terminale che si ha dopo la formazione di uno pseudonodo. Le regole di produzione sono le seguenti: Infine i non terminali che creano le “strutture loop” sono così composti: Hairpin loops Stems, bulge, internal loops Bordignon - Gaglio

25 RNA pseudoknot grammar (5):
Le regole di riarrangiamento sono applicabili dopo le diverse produzioni e permettono un riordinamento della stringa. Esse sono: Bordignon - Gaglio

26 RNA pseudoknot grammar – esempio pratico:
b c d e f W  Wh x Wh  (Wh  Wb Λ  ) x Wh  ((Sa VhSaSeSbSd Se  Sb Λ Sd)  Wb Λ ) x (Sc VhScSfSdSeSf  Sd Λ Se)  ((Sa Λ Se  Sb Λ Sd)  SbVSbScSc Λ ) x (Sc Λ Sf  Sd Λ Se)  ((Sa Λ Se  Sb Λ Sd)  SbSc Λ ) x (Sc Λ Sf  Sd Λ Se) R ((Sa Sb Λ Sd Se)  SbSc Λ ) x (Sc Sd Λ Se Sf) R ((Sa Sb Sb Sc Λ  Sd Se)) x (Sc Sd Λ Se Sf) R Sa Sb Sb Sc Sc Sd Λ Sd Se Se Sf Bordignon - Gaglio

27 Bibliografia: [1] The languages of RNA: a formal grammar that includes pseudoknotes – Rivas & Eddy, Department of Genetics - Washington University August 1999. [2] A dynamic programming algorithm for RNA structure prediction including pseudoknots – Rivas & Eddy, Department of Genetics - Washington University July 1998. [3] Introduzione alla Bioinformatica – Valle, Citterich, Attimonelli, Pesole – Zanichelli. [4] MFOLD web server for nucleic acid folding and hybridization prediction – Zuker, Department of Science Troy USA, April 2003. Bordignon - Gaglio


Scaricare ppt "Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco"

Presentazioni simili


Annunci Google