An annealing mutation operator in the genetic algorithms for RNA folding Bruce A.Shapiro and Jin Chu Wu.

Slides:



Advertisements
Presentazioni simili
FUNZIONI REALI DI DUE VARIABILI REALI
Advertisements

Prof. Salvatore Di Gregorio Dr. William Spataro Dr. Donato D’Ambrosio
Ricorrenze Il metodo di sostituzione Il metodo iterativo
Politecnico di Torino Tesi di Laurea
RICERCA DI SIMILARITA’ IN BANCHE DATI
Il campo elettrico - Lo chiamiamo campo elettrico,
Lez. 3 - Gli Indici di VARIABILITA’
Progetto Pilota 2 Lettura e interpretazione dei risultati
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Selezione stabilizzatrice per alcune mutazioni cromosomiche
Politecnico di Milano Algoritmi e Architetture per la Protezione dellInformazione Multichannel Adaptive Information Systems Paolo Maistri Dipartimento.
Identificazione delle attività
Algoritmo di Ford-Fulkerson
laboratorio epistemologia Marcello Sala
“cassetta degli arnesi”
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie.
Algoritmi e Strutture Dati (Mod. B)
Ricerca della Legge di Controllo
ESERCITAZIONE 2.
CONTROLLO DI SUPPLY CHAIN MEDIANTE TECNICHE H-INFINITO E NEGOZIAZIONE
Algoritmi Genetici Prof. Salvatore Di Gregorio Dr. William Spataro Dr. Donato DAmbrosio Modelli Computazionali per Sistemi Complessi A.A. 2003/2004 Università
Algoritmi e Strutture Dati
Metodi basati sulle similitudini per dedurre la funzione di un gene
SPECIFICITA’ E MECCANISMI DI REVISIONE.
Analisi delle corrispondenze
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Intelligenza Artificiale Algoritmi Genetici
CALCOLO EVOLUZIONISTICO. In ogni popolazione si verificano delle mutazioni. Le mutazioni possono generare individui che meglio si adattano allambiente.
Apprendimento Automatico Calcolo Evoluzionistico Stefano Cagnoni.
Parte I (introduzione) Taratura degli strumenti (cfr: UNI 4546) Si parla di taratura in regime statico se lo strumento verrà utilizzato soltanto per misurare.
Algoritmi Genetici Alessandro Bollini
Modelli del colore 2 Daniele Marini.
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Elementi di Informatica di base
Esercizio 10.* Un cassiere vuole dare un resto di n centesimi di euro usando il minimo numero di monete. a) Descrivere un algoritmo goloso per fare ciò.
POPOLAZIONE E STRUTTURA
TRATTAMENTO DEI DATI ANALITICI
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco
COVARIANZA e CORRELAZIONE.
Cenni teorici. La corrente elettrica dal punto di vista microscopico
ALGORITMI a.
MUTAZIONE: cambio di un bit Viene effettuata con bassa frequenza, ad es. 1bit ogni 1000 Ha la funzione di recupero di eventuali perdite di informazione.
Carica e scarica di un Condensatore
Matematica I: Calcolo differenziale, Algebra lineare, Probabilità e statistica Giovanni Naldi, Lorenzo Pareschi, Giacomo Aletti Copyright © The.
Metodi matematici per economia e finanza. Prof. F. Gozzi
Algoritmi CHE COS’è UN ALGORITMO di ORDINAMENTO?
Ugo de'Liguoro - Informatica 2 a.a. 03/04 Lez. 1 Cicli ed asserzioni Corso di Informatica 2 a.a. 2003/04 Lezione 1.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
I FRATTALI Frattale di Mandebrot
Array (ordinamento) CORDA – Informatica A. Ferrari.
Analisi Bivariata: Test Statistici
Regressione Lineare parte 1
3/31/2015E. Giovannetti -- OI09.1 Olimpiadi di Informatica 2010 Giornate preparatorie Dipartimento di Informatica Università di Torino marzo – Algoritmi.
Gli algoritmi genetici (GA)1 Si ispirano al meccanismo dell’evoluzione Viene creata una popolazione di individui che si riproduce ed evolve, di generazione.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Allineamento di sequenze
Ricerca locale M. Simi, Algoritmi di ricerca locale  Efficienti in occupazione di memoria  tengono traccia solo dello stato corrente (non.
“La cassetta degli arnesi”
Ricerca locale Maria Simi Assunzioni sui problemi  Gli algoritmi visti esplorano gli spazi di ricerca alla ricerca di un goal e restituiscono.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Proprietà macromolecolari Il calcolo delle proprietà macromolecolari implica l’utilizzo della statistica della catena polimerica in termini di distanze.
Concetti di base. Per biodiversità si intende l'insieme di tutte le forme viventi geneticamente diverse e degli ecosistemi ad esse correlati Il termine.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Transcript della presentazione:

An annealing mutation operator in the genetic algorithms for RNA folding Bruce A.Shapiro and Jin Chu Wu

RNA Struttura secondaria Stem :coppie contigue di nucleotidi complementari Loop :sottosequenze singole racchiuse da stem

Struttura secondaria -l’RNA tende a “conservare” nel tempo la struttura secondaria più che la struttura primaria in se; è relativamente comune trovare esempi di RNA omologhi che hanno una struttura secondaria molto simile ma la cui sequenza non è simile per nulla. Cambiamenti drastici della sequenza sono quindi tollerati, purchè venga mantenuta la complementarietà delle basi accoppiate; -se ne deduce che l’evoluzione di una sequenza di RNA è vincolata dalla struttura. Questo rende l’analisi delle sequenze di RNA più difficile, rispetto all’analisi del DNA o delle proteine. Infatti, per la ricerca di RNA omologhi è necessario analizzare la similarità in termini di struttura secondaria conservata oltre che di sequenza.

Problema biologico L’obbiettivo primario è riuscire a trovare una struttura stabile e biologicamente funzionale La stabilità è data dall’energia di legame degli stem in maniera opposta i loop destabilizano la struttura per la repulsione delle basi non complementari

Algoritmo genetico Utilizzando una architettura parallela (mas par 2) con 16384 processori si è implementato un algoritmo genetico per la predizione del folding del RNA Che utilizza come parametro di fitness la energia libera procedendo attraverso 4 fasi Preprocessing Selezione Mutazione Crossing over

Preprocessing L’algoritmo Genera una popolazione iniziale di possibili stem dalla sequenza data

Selezione Ad ogni generazione ogni processore seleziona 2 sequenze da se stesso e dai suoi 8 processori vicini usando come parametro di selezione l’energia libera P1 x P2

Mutazione Delle 2 sequenze selezionate, l’algoritmo genera delle mutazioni nelle strutture selezionando stem random in accordo con l’operatore di mutazione dalle sequenze generate inizialmente formando 2 strutture figlie P1 x P2 Esludendo stem in conflitto es strutture terziarie e sequenze overlappanti C1 x C2

Crossing over Ultimo passo di ogni iterazione è una funzione di incrocio tra strutture padre e strutture figlie eliminando eventuali interazioni terziarie Da queste due nuove strutture il G.A. sceglie la struttura che ha l’energia libera minore cosi da diventare la struttura della generazione successiva Ottenendo ad ogni iterazione un totale di 16384 nuove strutture in parallelo

Problema computazionale L’algoritmo genetico cosi come progettato non riesce a raggiungere risultati significativi anche dopo migliaia di generazioni in quanto genera molte strutture diverse fra loro specialmente per lunghe sequenze

Problema computazionale Soluzione: si cerca d’implementare un nuovo operatore di mutazione in quanto il vecchio operatore permette poche mutazioni all’inizio del processo aumentandole linearmente al crescere della dimensione della struttura secondaria, rendendo difficile la convergenza delle strutture

Operatore di mutazione Il numero di mutazioni in tutti i processori ad ogni generazione è dato da: N = numero totale di mutazioni ad ogni generazione S = grandezza media della struttura 2° P = probabilità di mutazione N = (16000*s*p)

Vecchio operatore Nel vecchio operatore di mutazione il parametro “p” veniva mantenuto costante cosi che il numero di mutazioni totali ad ogni generazione dipendeva da “s” permetteva poche mutazioni all’inizio del processo e incrementava il numero totale di mutazioni ad ogni generazione al crescere della dimensione della struttura secondaria Ottenendo come risultato per lunghe sequenze strutture secondarie molto diverse fra di loro anche dopo molte generazioni

Vecchio operatore Batteriofago t4 32 con 1340 nucleotidi Dopo 3000 iterazioni solo 3 processori contenevano una struttura con energia minima di -207,2kcal/mol

Nuovo operatore Il nuovo operatore si comporta in modo opposto al vecchio, permettendo un largo numero di mutazioni su tutti i processori all’inizio del processo per poi ridurle ad ogni generazione all’aumentare della dimensione della struttura secondaria Facendolo dipendere quindi dallo stem pool iniziale generato dalla fase di inizializzazione e dalla dimensione della struttura secondaria ad ogni generazione

Nuovo operatore La probabilità di mutazione “p” è stata progettata per discendere lungo una curva iperbolica al crescere della struttura secondaria secondo la relazione S1= 1 stem all’inizio del processo P1= dipende dalla popolazione iniziale generata dalla sequenza p =(α/s)+β α = P1-s1 β S1<S2 e P1>P2 β = P1-P2/s1-s2 P = rapporto tra numero totale di mutazioni fratto i processori totali P = N/16000 P=s*p

Operatori a confronto Sono prese in esame vari stem pool iniziali Il numero totale di mutazioni è sostanzialmente più alto usando il vecchio operatore di mutazione rispetto al nuovo cosi come il numero di mutazioni ad ogni generazione con grandi struttura secondarie

Relazioni quantitative alla fine del processo minori mutazioni sono permesse alle lunghe sequenze rispetto alle corte ciò perché maggiori mutazioni potrebbero provocare molta differenza tra le popolazioni e portare conseguentemente la perdita di sequenze importanti La relazione empirica tra la lunghezza di sequenza e lo stem pool è di 0.026n2 cosi che avendo lo stem pool iniziale e la grandezza della struttura secondaria dal quale dipendono il numero totale di mutazioni permesse si ottiene un comportamento differenziale per sequenze corte e sequenze lunghe

Terminazione Per una rapida convergenza su lunghe sequenze è stato implementato un criterio di terminazione basato su metodi statistici che usa come indice la distribuzione dell’energia libera su tutti i processori viene presa in considerazione l’energia il cui rapporto fra i processori che la posseggono fratto il totale dei processori supera una certa soglia fissata

Terminazione Da questa energia ottenuta si calcola la media ponderata usata poi per il calcolo dell’errore relativo ottenuto dal rapporto tra la deviazione standard fratto il valore assoluto della media ponderata cosi che ad ogni generazione la media dell’energia diventerà stabile Il programma termina quando l’errore relativo diviene minore d’un valore di incertezza empiricamente fissato come 10-4 I valori d’incertezza è fissato a 0,0001 mentre il valore del rapporto incrementa da o.00305 a 0.0061 Il valore di terminazione viene calcolato sui 25 ultimi processi I valori delle soglie fissati possono variare come anche la dimensione della finestra di calcolo

Comparazione sul batteriofago t4 Su 5 processi di una sequenza lunga 1340 nucleotidi il nuovo operatore di mutazione termina con un massimo di 937 iterazioni contro le 3000 fissate come limite superiore di terminazione per la vecchia versione dell’algoritmo Su questa slide è da notare il numero di iterazioni per arrivare a diversi risultati tra i quali il vecchio operatore con 3000 iterazioni trova un energia piu bassa rispetto al nuovo che fa 739 generazioni con un energia migliore convergente nella maggior parte dei processori

Comparazione sul 16s Con una sequenza di 1542 nucleotidi il numero di generazioni decresce

Struttura del 16s Dalla struttura pubblicata il 16s conta 4 domini e 1542 nucleotidi, 98 stem totali che coinvolgono 448 coppie di basi 1° con 40 stem 1-560 2° con 20 stem 561-920 3° con 31 stem 921-1400 4° con 7 stem 1401-1542 Tra gli stem si conta uno psedoknots Pseudoknot è un legame atipico formato tra strutture a forcina e catene libere

Algoritmi a confronto I risultati del algoritmo genetico con il vecchio e nuovo operatore e un algoritmo deterministico DPA(dinamic programming algorithm Zuker e Stiegler 1989) che da un risultato univoco, vengono messi a confronto con la struttura pubblicata Ottenendo un energia libera dal G.A. di -359.9 kcal/mol Mentre il risultato del DPA è di -443.4 kcal/mol La struttura pubblicata ha un energia libera di -307.4 kcal/mol

Algoritmi a confronto Nel trattare i risultati si devono eliminare gli stem che non sono considerati dagli algoritmi come quelli formati da una sola coppia di basi o gli pseudoknots G.A. con il nuovo operatore ha il 28% di 93 stem G.A. con il vecchio operatore ha il 25% di 93 stem DPA non trovando singole coppie e pseudoknots ha una percentuale del 20 % La comparazione è valutata considerando anche le paia di basi corrispondenti tra la struttura pubblicata e i risultati Per il g.a. sono considerate le coppie che compaiono piu del 50 % delle volte Ottenendo le seguenti percentuali New : 35% Old: 31% DPA: 25%

Distribuzione degli stem Distribuzione degli stem positivi e dei 26 corrispondenti alla struttura pubblicata è da notare che i risultati del G.A. sono un sottoinsieme degli stem trovati dagli altri algoritmi con in più strutture ramificate su più domini

Risultati e discussioni L’algoritmo genetico con il nuovo operatore di annealing migliora le prestazioni in termini di tempo d’esecuzione e convergenza migliorando anche la predizione in termini di struttura secondaria

Ulteriori variazioni Si prova a variare il numero di mutazioni ad ogni generazione rispetto alla dimensione della struttura secondaria non più con una relazione lineare come descritto precedentemente ma utilizzando funzioni che descrivono parabole concave e convesse su strutture con diversa dimensione 26 sequenze corte batteriofago T4 16s

Risultati Comparando i risultati per il 16s non si sono riscontrate differenze sostanziali differentemente dal T4 e le sequenze corte predette meglio dalla curva concava

Work in progress Il lavoro si focalizza verso una precisa correlazione tra la lunghezza di sequenza, la dimensione delle strutture generate inizialmente nella fase di preprocessing e la dimensione della struttura secondaria cosi da relazionarle con una nuova funzione che descrive la probabilità di mutazione