La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Presentazioni simili


Presentazione sul tema: "Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011."— Transcript della presentazione:

1 Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011

2 Analisi della struttura dellRNA La struttura dellRNA Struttura dellRNA mediante analisi comparativa Predizione della struttura secondaria: Lalgoritmo di Nussinov Predizione della struttura secondaria: Minimizzazione dellenergia Un tool per la predizione della struttura secondaria: Mfold

3 L'RNA LRNA (Acido Ribonucleico) è un polimero organico costituito da ribonucleotidi. E sintetizzato da enzimi detti RNA polimerasi, solitamente sulla base di uno stampo di DNA. Esistono diversi tipi di RNA, ognuno dei quali svolge una determinata funzione. LmRNA (RNA Messaggero) trasporta linformazione per la sintesi delle proteine dal nucleo al citoplasma. Linformazione principale sta nella sua sequenza, ma studi recenti hanno rivelato limportanza della sua struttura nella regolazione dellespressione genica.

4 tRNA I tRNA (RNA Transfer) sono in grado di riconoscere i codoni nelle sequenze di mRNA e di trasportare gli aminoacidi corrispondenti nei ribosomi, durante la sintesi proteica. La loro struttura secondaria è ben determinata ed è fondamentale per la loro funzione.

5 rRNA e ribozimi LrRNA (RNA Ribosomiale) è un costituente dei ribosomi ed ha funzione catalitica assieme alle proteine ribosomiali. Gli RNA con funzione di catalizzatore sono generalmente chiamati Ribozimi (RNA-Enzimi) e tale funzione gli viene conferita dalla loro struttura tridimensionale. Quindi questo tipo di RNA sono simili alle proteine, in quanto devono assumere una struttura particolare per poter svolgere la loro funzione. Data la loro capacità di immagazzinare informazione e di partecipare alle reazioni chimiche, gli RNA sono considerati tra le molecole più antiche, ancor più di DNA e proteine.

6 Il Backbone dellRNA La catena di RNA ha un backbone (scheletro) formato da gruppi zucchero-fosfato aventi come catene laterali le basi Adenina (A), Guanina (G), Citosina (C) e Uracile (U). Le catene di RNA hanno lunghezza che varia solitamente tra le 100 e le basi, molto inferiore quindi a quella del DNA. Esistono RNA a doppio e a singolo filamento; questi ultimi sono particolarmente interessanti, data la loro capacità di assumere strutture tridimensionali anche molto complesse.

7 Lappaiamento delle basi Appaiamenti canonici di Watson-Crick –Legami idrogeno A=U e GC Wobbles –Legami idrogeno G=U (virtualmente stabili come A=U)

8 I Wobble G=U I legami G=U introducono una deformazione nella struttura dellRNA. Tale deformazione produce un adattamento della struttura che promuove lattività catalitica. Esperimenti effettuati su molecole di tRNA, mostrano come i legami G=U siano indispensabili per lo svolgimento della funzione. Infatti, la correzione di tali appaiamenti ad appaiamenti canonici di W/C, inattiva il tRNA impedendogli di funzionare correttamente. Le coppie G=U sono meno stabili delle coppie canoniche e questo rende le molecole più reattive.

9 La struttura secondaria dellRNA Si definisce struttura secondaria di una molecola di RNA il preciso ripiegamento bidimensionale adottato in seguito alla formazione di legami idrogeno tra coppie di basi complementari. La struttura secondaria dellRNA è considerata come una combinazione di diversi elementi strutturali, ciascuno dei quali contribuisce in modo indipendente allenergia libera della struttura complessiva. La struttura secondaria di una molecola di RNA è definita come linsieme di appaiamenti di basi, s ij, tra i nucleotidi i e j, sempre con i3, ovvero ci sono sempre tre basi tra una coppia di basi appaiate. Questo perché lo scheletro dellRNA non può ripiegarsi e tornare indietro in meno di 3 basi.

10 La struttura secondaria dellRNA

11 Due coppie di basi (i,j) e (h,k) con i

12 La struttura secondaria dellRNA Una struttura secondaria di RNA è un insieme di coppie di basi annidate o non correlate, privo quindi di basi collegate (pseudoknot). Quindi una struttura secondaria di RNA può essere rappresentata mediante un grafo lineare senza intersezioni tra archi: Ovviamente non tutti gli insiemi di coppie di basi rappresentano una struttura secondaria valida dal punto di vista dei vincoli chimico-fisici.

13 Elementi strutturali Oltre alle regioni duplex (a doppio filamento) dette stem, gli elementi base della struttura di un RNA sono: –Regioni a singolo filamento –Hairpins (forcine) –Bulge loops (protuberanze) –Mismatch –Internal loops –Giunzioni

14 Le regioni single-stranded Le regioni a singolo filamento consistono di nucleotidi non appaiati, alle estremità 5 o 3 della molecola o tra regioni duplex della struttura secondaria.

15 Hairpins Una forcina consiste in un duplex collegato da un loop. Gli hairpin sono spesso siti di legame per le proteine e sono coinvolti nelle strutture terziarie di RNA. La dimensione minima di un loop è di 3 basi, ma i loop di 4 o 5 nucleotidi sono i più stabili. E possibile avere loop anche molto grandi.

16 Bulge loops Una protuberanza consiste di nucleotidi non appaiati su un filamento di un duplex nel quale il filamento opposto ha tutti i nucleotidi appaiati. I bulge loops creano delle pieghe nella struttura della doppia elica del duplex, che dipendono dal tipo di nucleotidi coinvolti e da quelli nelle immediate vicinanze. La distorsione introdotta dalle protuberanze può estendersi alle regioni duplex vicine.

17 Mismatches I mismatch consistono di due nucleotidi che non possono formare un legame canonico ma che instaurano un qualche tipo di legame o formano un loop di due nucleotidi (si respingono). I wobble G=U possono essere classificati come dei mismatch. Tuttavia le deformazioni introdotte da tali legami non formano pieghe significative nello scheletro.

18 Internal loops I loop interni contengono 3 o più nucleotidi che non sono in grado di formare legami di W/C e contengono almeno un nucleotide spaiato su ciascun filamento. I loop possono chiudersi instaurando legami non canonici o restare aperti, permettendo la formazione di interazioni terziarie con altre parti della molecola. I loop possono essere simmetrici o asimmetrici; questi ultimi sono termodinamicamente meno stabili.

19 Giunzioni Le giunzioni contengono 3 o più regioni duplex con un numero variabile di nucleotidi spaiati che congiungono le eliche. I nucleotidi spaiati nelle giunzioni controllano i legami tra le eliche e determinano la struttura tridimensionale della molecola.

20 Rappresentazione a parentesi La struttura secondaria di RNA può essere rappresentata attraverso stringhe nellalfabeto {(,., )}: Nel caso evidenziato si avrà: UCCUAACAAGAGGA ((((......))))

21 Rappresentazione a parentesi Sia dato: UCCUAACAAGAGGA ((((......)))) Ogni parentesi aperta corrisponde ad una parentesi chiusa, secondo una logica a stack. Le parentesi più interne si chiudono prima di quelle più esterne. La parentesi relativa alla quarta base U si chiude con la parentesi relativa alla quartultima base C, e così via. I punti indicano nucleotidi non appaiati.

22 Analisi della struttura dellRNA La struttura dellRNA Struttura dellRNA mediante analisi comparativa Predizione della struttura secondaria: Lalgoritmo di Nussinov Predizione della struttura secondaria: Minimizzazione dellenergia Un tool per la predizione della struttura secondaria: Mfold

23 LEvoluzione dellRNA è vincolata dalla struttura Molti RNA omologhi possiedono strutture simili senza tuttavia condividere una similarità di sequenza significativa. Cambiamenti nella sequenza sono spesso tollerati purché delle mutazioni compensatorie mantengano la complementarietà delle basi appaiate. La struttura rappresentata in figura è il consenso di un sito di legame per una proteina del fago R17. Nella struttura rappresentata in figura, solo 4 nucleotidi sono specificati e 2 di essi sono degenerati (R = Purina, Y = Pirimidina).

24 LEvoluzione dellRNA è vincolata dalla struttura (2) Se volessimo ricercare tale regione in sequenze nucleotidiche, non avrebbe senso utilizzare un metodo di allineamento di sequenze standard. Se cercassimo infatti la sequenza NNNNNNNRNNANYANNNNNNN nel genoma del fago MS2 (correlato ad R17) troveremmo ben 38 corrispondenze! Tuttavia, aggiungendo informazioni sulle coppie appaiate nella struttura secondaria, troveremmo un solo match, nella regione di legame autentica.

25 Ricavare la struttura dal confronto di sequenze In un allineamento multiplo di RNA strutturalmente corretto, le coppie di basi conservate sono spesso rivelate dalla presenza di mutazioni compensatorie correlate frequenti. E pertanto possibile predire in maniera abbastanza affidabile la struttura secondaria mediante analisi comparativa di sequenze correlate. Le due posizioni evidenziate covariano mantenendo la complementarietà. Questa covariazione implica una coppia di basi.

26 Raffinamenti iterativi Ricavare la struttura corretta attraverso analisi comparativa richiede un allineamento multiplo strutturalmente corretto. Ma ricavare un allineamento multiplo strutturalmente corretto richiede la conoscenza della struttura corretta! La struttura viene dunque determinata mediante un processo di raffinamento iterativo. Inizialmente viene eseguito un allineamento di sequenze senza informazioni strutturali e tale allineamento viene utilizzato per ricavare una struttura. Tale struttura viene dunque utilizzata per riallineare le sequenze e ricavare una nuova struttura. Il processo viene iterato finché la struttura si stabilizza.

27 Analisi della struttura dellRNA La struttura dellRNA Struttura dellRNA mediante analisi comparativa Predizione della struttura secondaria: Lalgoritmo di Nussinov Predizione della struttura secondaria: Minimizzazione dellenergia Un tool per la predizione della struttura secondaria: Mfold

28 Predizione della struttura secondaria dellRNA A partire da una certa sequenza di RNA, si possono ricavare molte strutture secondarie plausibili, ed il numero di possibili strutture cresce esponenzialmente con la lunghezza della sequenza. Una sequenza di sole 200 basi ha circa possibili strutture! Occorre dunque distinguere tra strutture biologicamente corrette e strutture non corrette: –Attraverso una funzione di scoring che assegni alle strutture corrette il punteggio più alto; –Attraverso un algoritmo che permetta di valutare gli score di tutte le strutture possibili.

29 Lalgoritmo di Nussinov per la massimizzazione delle coppie di basi Lalgoritmo di Nussinov è un algoritmo di programmazione dinamica che determina la struttura con il maggior numero di basi appaiate. Si tratta di un criterio troppo semplicistico in quanto non è detto che la struttura reale sia quella con il maggior numero di basi appaiate, tuttavia questo algoritmo è alla base di altri algoritmi più sofisticati di minimizzazione energetica e basati su probabilità. Lalgoritmo di Nussinov è ricorsivo; esso calcola la struttura migliore della sequenza in input a partire dalle strutture migliori di piccole sottosequenze.

30 Lalgoritmo di Nussinov Lidea chiave dellalgoritmo è basata sullosservazione che ci sono solo 4 possibili modi di ottenere la migliore struttura per la sequenza i, j a partire dalle migliori strutture delle sottosequenze più piccole: –Aggiungi la posizione non appaiata i alla struttura migliore per la sottosequenza i+1, j; –Aggiungi la posizione non appaiata j alla struttura migliore per la sottosequenza i, j-1; –Aggiungi la coppia i,j alla struttura migliore per la sottosequenza i+1, j-1; –Combina due sottostrutture ottimali i, k e k+1, j.

31 Lalgoritmo di Nussinov (2) Sia data una sequenza x di lunghezza L x 1, x 2, …, x L. Si definisce la funzione di scoring (i,j) tale che (i,j)=1 se x i e x j sono basi complementari e (i,j)=0 altrimenti. Si calcolano ricorsivamente gli score (i,j), che rappresentano il numero massimo di coppie di basi possibili per la sottosequenza x i, …, x j.

32 Lalgoritmo di Nussinov (3) Passo iniziale: Passo ricorsivo (a partire dalle sottosequenze di lunghezza 2 fino ad L):

33 Lalgoritmo di Nussinov: Esempio (1) Applichiamo lalgoritmo di Nussinov alla sequenza GGGAAAUCC. Consideriamo una matrice LxL, in questo caso 9x9: GGGAAAUCC G0 G00 G00 A00 A00 A00 U00 C00 C00

34 Lalgoritmo di Nussinov: Esempio (2) GGGAAAUCC G00 G00 G00 A00 A00 A00 U00 C00 C00

35 Lalgoritmo di Nussinov: Esempio (3) GGGAAAUCC G00 G000 G00 A00 A00 A00 U00 C00 C00

36 Lalgoritmo di Nussinov: Esempio (4) GGGAAAUCC G00 G000 G000 A000 A000 A001 U00 C00 C00

37 Lalgoritmo di Nussinov: Esempio (5) Gli score per sottosequenze di lunghezza 2: GGGAAAUCC G00 G000 G000 A000 A000 A001 U000 C000 C00

38 Lalgoritmo di Nussinov: Esempio (6) GGGAAAUCC G0000 G00000 G00000 A00001 A0001 A0011 U0000 C000 C00

39 Lalgoritmo di Nussinov: Esempio (7) GGGAAAUCC G G G A A A00111 U0000 C000 C00

40 Lalgoritmo di Nussinov: Esempio (8) Il valore in posizione (1,L), in questo caso (1,9)=3 è lo score massimo, ovvero il numero di coppie di basi nella struttura col maggior numero di basi appaiate. GGGAAAUCC G G G A A A00111 U0000 C000 C00 Ci sono spesso diverse strutture con lo stesso numero di basi appaiate. Per trovarle eseguiamo il traceback a partire dalla entry (1,L).

41 Lalgoritmo di Nussinov: Traceback (1) Inizializzazione: –Push (1,L) onto stack (pila); GGGAAAUCC G G G A A A00111 U0000 C000 C00 Ricorsione – Ripeti finchè lo stack non è vuoto: pop (i,j) (Estrai dalla pila) if i>=j continue; else if (i+1,j)= (i,j) push(i+1,j) else if (i,j-1)= (i,j) push(i,j-1); else if (i+1,j-1)+ i,j = (i,j): record i,j base pair; push (i+1,j-1); else for k=i+1 to j-1: if (i,k)+ (k+1,j)= (i,j): push (k+1,j); push (i,k); break.

42 Lalgoritmo di Nussinov: Traceback (2) Inizializzazione: –Push (1,L) onto stack (pila); GGGAAAUCC G G G A A A00111 U0000 C000 C00 pop (i,j) (Estrai dalla pila) if i>=j continue; else if (i+1,j)= (i,j) push(i+1,j) else if (i,j-1)= (i,j) push(i,j-1); else if (i+1,j-1)+ i,j = (i,j): record i,j base pair; push (i+1,j-1); else for k=i+1 to j-1: if (i,k)+ (k+1,j)= (i,j): push (k+1,j); push (i,k); break. (1,9)=3

43 Lalgoritmo di Nussinov: Traceback (3) Inizializzazione: –Push (1,L) onto stack (pila); GGGAAAUCC G G G A A A00111 U0000 C000 C00 pop (i,j) (Estrai dalla pila) if i>=j continue; else if (i+1,j)= (i,j) push(i+1,j) else if (i,j-1)= (i,j) push(i,j-1); else if (i+1,j-1)+ i,j = (i,j): record i,j base pair; push (i+1,j-1); else for k=i+1 to j-1: if (i,k)+ (k+1,j)= (i,j): push (k+1,j); push (i,k); break. (2,9)=3 (i,j)=(1,9)=3

44 Lalgoritmo di Nussinov: Traceback (4) Inizializzazione: –Push (1,L) onto stack (pila); GGGAAAUCC G G G A A A00111 U0000 C000 C00 pop (i,j) (Estrai dalla pila) if i>=j continue; else if (i+1,j)= (i,j) push(i+1,j) else if (i,j-1)= (i,j) push(i,j-1); else if (i+1,j-1)+ i,j = (i,j): record i,j base pair; push (i+1,j-1); else for k=i+1 to j-1: if (i,k)+ (k+1,j)= (i,j): push (k+1,j); push (i,k); break. (3,8)=2 (i,j)=(2,9)=3 2::G-C::9

45 Lalgoritmo di Nussinov: Traceback (5) Inizializzazione: –Push (1,L) onto stack (pila); GGGAAAUCC G G G A A A00111 U0000 C000 C00 pop (i,j) (Estrai dalla pila) if i>=j continue; else if (i+1,j)= (i,j) push(i+1,j) else if (i,j-1)= (i,j) push(i,j-1); else if (i+1,j-1)+ i,j = (i,j): record i,j base pair; push (i+1,j-1); else for k=i+1 to j-1: if (i,k)+ (k+1,j)= (i,j): push (k+1,j); push (i,k); break. (4,7)=1 (i,j)=(3,8)=2 3::G-C::8 2::G-C::9

46 Lalgoritmo di Nussinov: Traceback (6) Inizializzazione: –Push (1,L) onto stack (pila); GGGAAAUCC G G G A A A00111 U0000 C000 C00 pop (i,j) (Estrai dalla pila) if i>=j continue; else if (i+1,j)= (i,j) push(i+1,j) else if (i,j-1)= (i,j) push(i,j-1); else if (i+1,j-1)+ i,j = (i,j): record i,j base pair; push (i+1,j-1); else for k=i+1 to j-1: if (i,k)+ (k+1,j)= (i,j): push (k+1,j); push (i,k); break. (5,6)=0 (i,j)=(4,7)=1 4::A-U::7 3::G-C::8 2::G-C::9

47 Lalgoritmo di Nussinov: Traceback (7) Inizializzazione: –Push (1,L) onto stack (pila); GGGAAAUCC G G G A A A00111 U0000 C000 C00 pop (i,j) (Estrai dalla pila) if i>=j continue; else if (i+1,j)= (i,j) push(i+1,j) else if (i,j-1)= (i,j) push(i,j-1); else if (i+1,j-1)+ i,j = (i,j): record i,j base pair; push (i+1,j-1); else for k=i+1 to j-1: if (i,k)+ (k+1,j)= (i,j): push (k+1,j); push (i,k); break. (6,6)=0 (i,j)=(5,6)=0 4::A-U::7 3::G-C::8 2::G-C::9

48 Lalgoritmo di Nussinov: Traceback (8) Inizializzazione: –Push (1,L) onto stack (pila); GGGAAAUCC G G G A A A00111 U0000 C000 C00 pop (i,j) (Estrai dalla pila) if i>=j continue; else if (i+1,j)= (i,j) push(i+1,j) else if (i,j-1)= (i,j) push(i,j-1); else if (i+1,j-1)+ i,j = (i,j): record i,j base pair; push (i+1,j-1); else for k=i+1 to j-1: if (i,k)+ (k+1,j)= (i,j): push (k+1,j); push (i,k); break. (i,j)=(6,6)=0 4::A-U::7 3::G-C::8 2::G-C::9

49 Lalgoritmo di Nussinov: Traceback (9) Inizializzazione: –Push (1,L) onto stack (pila); GGGAAAUCC G G G A A A00111 U0000 C000 C00 pop (i,j) (Estrai dalla pila) if i>=j continue; else if (i+1,j)= (i,j) push(i+1,j) else if (i,j-1)= (i,j) push(i,j-1); else if (i+1,j-1)+ i,j = (i,j): record i,j base pair; push (i+1,j-1); else for k=i+1 to j-1: if (i,k)+ (k+1,j)= (i,j): push (k+1,j); push (i,k); break. 5::A A::6 4::A-U::7 3::G-C::8 2::G-C::9 1::G

50 Analisi della struttura dellRNA La struttura dellRNA Struttura dellRNA mediante analisi comparativa Predizione della struttura secondaria: Lalgoritmo di Nussinov Predizione della struttura secondaria: Minimizzazione dellenergia Un tool per la predizione della struttura secondaria: Mfold

51 Folding dellRNA e minimizzazione dellenergia libera Il folding dellRNA è determinato dalla biofisica piuttosto che dal conteggio e dalla massimizzazione delle coppie di basi. La stabilità termodinamica di una molecola di RNA ripiegata in una particolare struttura secondaria può essere misurata in termini di Energia Libera G che viene liberata passando da una molecola lineare a singolo filamento a una molecola che ha assunto la sua struttura secondaria più stabile. Molecole di RNA di piccole dimensioni si ripiegano con alta probabilità nella struttura di minima energia, ma non è noto se molecole di dimensioni maggiori, a causa del numero elevato di strutture possibili, adottino una struttura di minimo energetico locale piuttosto che assoluto.

52 Folding dellRNA Secondo Tinoco et al., la diminuzione complessiva di energia libera è pari alla somma dei contributi indipendenti di ogni motivo elementare presente nella struttura. Quindi, se è noto il valore di energia libera di ogni motivo elementare di struttura secondaria, è possibile calcolare con buona approssimazione il valore globale di energia libera. La diminuzione di energia libera prodotta dallappaiamento delle basi può essere calcolata sommando i contributi indipendenti di ogni possibile coppia di basi, G-C, A-U o G-U, dove G GC < G AU < G GU

53 Folding dellRNA In realtà è stato osservato che la stabilizzazione energetica della doppia elica è dovuta in gran parte alle interazioni delle basi adiacenti impilate lungo lasse dellelica (energia di stacking). Per questa ragione, dato che il contributo energetico di ciascuna coppia di basi dipende dalla coppia di basi adiacenti, la diminuzione di energia libera può essere stabilita più correttamente per ciascuna combinazione di coppie di paia di basi. In questo modo lenergia libera di uno stem di N basi può essere calcolato dalla somma dei contributi delle N-1 coppie di basi appaiate.

54 Tabelle di Freier dei contributi energetici Stacking Bulge loop (in funzione della lunghezza) 5-GUAUUACGGC 3- GU-0,5 -0,7-1,5-1,3 AU-0,5-0,9-1,1-1,8-2,3 UA-0,7-0,9 -1,7-2,1 CG-1,9-2,1-2,3-2,9-3,4 GC-1,5-1,7-1,8-2-2, ,25,266,77,48,29,11010,51111,812,51313, ,8

55 Tabelle di Freier dei contributi energetici Hairpin loop (in funzione della lunghezza) Internal loop (in funzione della lunghezza) Gli appaiamenti closing sono quelli alla base del loop. Closing CG 99,9 7,45,94,44,34,1 4,24,34,95,66,16,77,18,1 AU 99,9 7,45,94,44,34,1 4,24,34,95,66,16,77,18,1 Closing CG-CG 99,90,8 1,31,72,12,52,62,83,13,64,45,15,66,26,67,6 CG-AU 99,90,8 1,31,72,12,52,62,83,13,64,45,15,66,26,67,6 AU-AU 99,90,8 1,31,72,12,52,62,83,13,64,45,15,66,26,67,6

56 Calcolo dellenergia libera Utilizzando i valori riportati nelle tabelle di Freier, calcoliamo lenergia libera della struttura in figura, relativa alla sequenza: 5- AAGAUGCUACGGUGAAGCAUCA -3 G = G GC/AU + G AU/UA + G UA/GC + G GC/CG + G CG/UA + G hairpin_loop = (-2,3) + (-0,9) + (-1,8) + (-3,4) + (-1,7) + 4,1 = -6.0 Kcal/mol

57 Lalgoritmo di Zuker ed Mfold La struttura a minima energia può essere calcolata ricorsivamente mediante lalgoritmo di Zuker, un algoritmo di programmazione dinamica molto simile a quello di Nussinov. Una variante efficiente dellalgoritmo di Zuker è implementata allinterno del pacchetto Mfold, disponibile su web e in versione scaricabile per luso locale. Data una sequenza di RNA, Mfold restituisce le strutture secondarie a minima energia più probabili, dato che la struttura biologicamente corretta è di solito sub-ottimale, piuttosto che quella a minima energia.

58 Analisi della struttura dellRNA La struttura dellRNA Struttura dellRNA mediante analisi comparativa Predizione della struttura secondaria: Lalgoritmo di Nussinov Predizione della struttura secondaria: Minimizzazione dellenergia Un tool per la predizione della struttura secondaria: Mfold

59 Mfold Il tool Mfold è disponibile allindirizzo: bin/rna-form1.cgi

60 Output di Mfold


Scaricare ppt "Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011."

Presentazioni simili


Annunci Google