Q-Gram Filters for Finding All -Matches Efficient q-Gram Filters for Finding All -Matches over a Given Length Seminario di: Francesca Pratesi Giacomo Righetti.

Q-Gram Filters for Finding All -Matches Efficient q-Gram Filters for Finding All -Matches over a Given Length Seminario di: Francesca Pratesi Giacomo Righetti Kim R. Rasmussen, Jens Stoye, Eugene W. Myers

Q-Gram Filters for Finding All -Matches Sommario Motivazioni biologiche del problema Differenze tra algoritmo esatto, euristiche e filtri Definizione del problema Formulazione semplificata - alcuni esempi - condizioni di filtraggio - algoritmo proposto Formulazione completa - condizioni di filtraggio - algoritmo completo - complessità Applicazioni e risultati sperimentali

Q-Gram Filters for Finding All -Matches Comparare sequenze biomolecolari A, B * È interessante ricercare sequenze omologhe Lomologia (carattere qualitativo) fa riferimento ad una relazione evolutiva presente o assente. La similarità (carattere quantitativo) fa riferimento al grado di similitudine che viene misurato tra due sequenze precedentemente allineate. Allineare due o più sequenze vuol dire determinare una relazione tra le sequenze in modo da rendere massimo il grado di similarità Lallineamento può essere globale oppure locale Motivazioni biologiche

Q-Gram Filters for Finding All -Matches Si possono identificare delle regioni funzionali (ad esempio siti, geni o proteine) in sequenze biologiche –Da queste regioni è possibile ricavare altre informazioni; ad esempio, attraverso la ricerca di similarità tra siti di restrizione è possibile localizzare potenziali enzimi di restrizione (Rebase software di R. Roberts) –C'è un algoritmo derivato da Smith-Waterman che serve per trovare potenziali geni gRNA (che guida la modifica del criptogene) da un dato criptogene (gene originale) –Le trascriptasi inverse sono proteine omologhe, usate da alcuni tipi di retrovirus (Moloney murine leukemia e HIV Type I) per replicare la propria informazione genetica che è conservata nell'RNA Motivazioni biologiche Sequence similarity

Q-Gram Filters for Finding All -Matches Motivazioni biologiche Sequence similarity Methanocaldococcus Jannaschii: ha delle caratteristiche degli eucarioti (proteine coinvolte nella trascrizione, traduzione e regolazione) e altre dei procarioti (assenza di membrana nucleare, proteine del metabolismo) Ricerca degli effetti della sclerosi multipla: la sclerosi multipla è una malattia autoimmune nella quale il sistema immunitario attacca le cellule nervose del paziente È stato ipotizzato che le proteine delle guaine di mielina identificate dalle T-cellule siano simili quelle di alcuni virus o batteri Sono state effettuate delle ricerche che hanno portato allidentificazione di certi epitopi (di batteri e di virus) che potevano essere confuse con le proteine delle guaine protettive di mielina

Q-Gram Filters for Finding All -Matches Motivazioni biologiche Sequence assembly Un programma (assemblatore) allinea i frammenti e, sfruttando le parti che essi hanno in comune, li mette insieme. Viene ricostruita così la sequenza originale I frammenti sono generati: tramite shotgun sequencing: il DNA viene diviso in modo casuale in milioni di frammenti (che possono essere letti) dalla trascrizione di geni (ESTs)

Q-Gram Filters for Finding All -Matches Le Expressed Sequence Tag sono dei brevi frammenti di DNA trascritti e sequenziati da una sequenza di cDNA (mRNA risultante dopo il processo di splicing) più lunga Le EST sono strutture indispensabili per la scoperta di geni e lo studio del genoma Un singolo EST rappresenta una sequenza parziale di un gene Lobiettivo è raggruppare EST appartenenti allo stesso gene; per poterli raggruppare, questi si devono sovrapporre e la distanza tra i frammenti non deve superare una certa soglia Motivazioni biologiche EST clustering

Q-Gram Filters for Finding All -Matches Come risolvere il problema? Tipologie di algoritmo: esatto euristico filtro

Q-Gram Filters for Finding All -Matches Che cosè un filtro Serve per ridurre larea di ricerca Elimina le sottostringhe che sicuramente non soddisfano il problema Può restituire dei falsi positivi È necessario applicare un algoritmo esatto sul risultato restituito (la dimensione dellinput è ridotta) Si basa su una condizione necessaria

Q-Gram Filters for Finding All -Matches Che cosè un filtro (2) Fase di filtraggio Fase di verifica AB Match potenziali Falsi positivi Match reali

Q-Gram Filters for Finding All -Matches Che cosè un filtro (2) Fase di filtraggio Fase di verifica AB Match potenziali Falsi positivi Match reali Preprocessing Indice

Q-Gram Filters for Finding All -Matches Lavori precedenti Linefficienza di Smith-Waterman ha motivato lo sviluppo di euristiche quali FASTA (1988) e BLAST (1990-97) Il primo algoritmo di filtraggio è stato quello di Ukkonen (1992) QUASAR (Burkhardt 1999) basato sul precedente SSAHA (Ning 2001) e BLAT (Kent 2002) FLASH (Califano, Rigoutos 1993)

Q-Gram Filters for Finding All -Matches Definizione del problema allineamento (L) sequenza di operazioni (inserzione, cancellazione, sostituzione) per far sì che B sia uguale ad A δ(L) numero di operazioni in L dist δ (A,B) min{δ(L)} error rate ( ) q-gram sottostringa di lunghezza q q-hit coppia (i,j) tale che A[i, i+q-1]=B[j, j+q-1]

Q-Gram Filters for Finding All -Matches Alcuni esempi 5-gram: A B {ACCTT,CCTTT,CTTTG,TTTGC,TTGCA,TGCAA, GCAAA,CAAAC,AAACG,AACGT,ACGTA} {CGCAA,GCAAA,CAAAC,AAACC,AACCG,ACCGT,C CGTT,CGTTT,GTTTG,TTTGC} A = ACC T T T GCAAACGTA B = CGCAAACCGT T T GC 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Q-Gram Filters for Finding All -Matches Alcuni esempi A = ACC T T T GCAAACGTA B = CGCAAACCGT T T GC 5-gram: A B {ACCTT,CCTTT,CTTTG,TTTGC,TTGCA,TGCAA, GCAAA,CAAAC,AAACG,AACGT,ACGTA} {CGCAA,GCAAA,CAAAC,AAACC,AACCG,ACCGT,C CGTT,CGTTT,GTTTG,TTTGC} 5-hit: { (CAAAC,7,2), (TTTGC,3,9) } 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Q-Gram Filters for Finding All -Matches Trovare gli -match (allineamento locale con error rate al più ) Input: due stringhe A e B, una lunghezza minima n 0 ed un error rate massimo Output: tutti gli -match(α,β) dove α e β sono sottostringhe di A e B e |β|n 0 e dist δ (α,β)β Definizione del problema

Q-Gram Filters for Finding All -Matches Idea di base Cercare tutti i q-hit tra le due stringhe Identificare le regioni contenenti abbastanza q-hit Esaminare più attentamente queste regioni

Q-Gram Filters for Finding All -Matches Formulazione iniziale Caso più semplice: |β|=n 0 La struttura di base usata per risolvere il problema è il parallelogramma, associata alluso della matrice di edit

Q-Gram Filters for Finding All -Matches Trovare i parallelogrammi Esempio: date le stringhe GATCT e ACGTC A B Supponiamo di ricercare regioni contenenti 2 q-hit

Q-Gram Filters for Finding All -Matches Trovare i parallelogrammi A B Esempio: date le stringhe GATCT e ACGTC Supponiamo di ricercare regioni contenenti 2 q-hit

Q-Gram Filters for Finding All -Matches... Trovare i parallelogrammi A B Esempio: date le stringhe GATCT e ACGTC Supponiamo di ricercare regioni contenenti 2 q-hit

Q-Gram Filters for Finding All -Matches Trovare i parallelogrammi e+1 diagonali n 0 caratteri Parallelogramma n 0 · e Supponiamo di ricercare regioni contenenti 2 q-hit

Q-Gram Filters for Finding All -Matches Trovare i parallelogrammi A B A T CA - CA T CA - C Esempio: date le stringhe GATCT e ACGTC Supponiamo di ricercare regioni contenenti 2 q-hit

Q-Gram Filters for Finding All -Matches Trovare i parallelogrammi e+1 diagonali A B Esempio: date le stringhe GATCT e ACGTC Supponiamo di ricercare regioni contenenti 2 q-hit

Q-Gram Filters for Finding All -Matches Trovare i parallelogrammi A T CT A CGT A B Esempio: date le stringhe GATCT e ACGTC Supponiamo di ricercare regioni contenenti 2 q-hit

Q-Gram Filters for Finding All -Matches Trovare i parallelogrammi PAPA PBPB A B Esempio: date le stringhe GATCT e ACGTC Supponiamo di ricercare regioni contenenti 2 q-hit

Q-Gram Filters for Finding All -Matches Lemma 1 Siano α e β sottostringhe di A e B tali che |β|=n 0 e dist δ (α,β) e e = n 0 τ = f(n 0,q,e) = (n 0 +1) – q(e+1) Esiste un parallelogramma n 0 · e tale che: contiene almeno τ q-hit β è la proiezione di B la proiezione di A è contenuta in α

Q-Gram Filters for Finding All -Matches Lemma 1 - Precisazioni τ = f(n 0,q,e) = (n 0 +1) – q(e+1) e = n 0

Q-Gram Filters for Finding All -Matches Trovare i parallelogrammi n 0 =8 e=2 q=2 τ =3

Q-Gram Filters for Finding All -Matches Trovare i parallelogrammi α β PAPA PBPB n 0 =8 e=2 q=2 τ =3

Q-Gram Filters for Finding All -Matches Trovare i parallelogrammi n 0 =8 e=2 q=3 τ =0

Q-Gram Filters for Finding All -Matches Passi dellalgoritmo (1) Preprocessing: Indicizziamo la stringa A, in modo da sapere le occorrenze di ogni q-gram (Morris-Pratt)

Q-Gram Filters for Finding All -Matches Passi dellalgoritmo (2) Si trovano tutti i q-hit Per ogni possibile parallelogramma –Si contano quante occorrenze di q-hit vi sono –Se tale numero supera la soglia τ α e β potrebbero costituire un -match

Q-Gram Filters for Finding All -Matches Formulazione completa In questo caso: |β|n 0 È necessaria una nuova funzione per il calcolo di τ Parallelogramma w x e (di area maggiore rispetto al precedente) β può non coincidere con p B p B può coincidere con B p A può coincidere con α

Q-Gram Filters for Finding All -Matches Formulazione completa - Deriviamo τ U(1, 2, 0.25) = 0 U(2, 2, 0.25) = 0 U(3, 2, 0.25) = 2 U(4, 2, 0.25) = 1 U(5, 2, 0.25) = 2 U(6, 2, 0.25) = 3 U(7, 2, 0.25) = 4 U(8, 2, 0.25) = 3 …

Q-Gram Filters for Finding All -Matches Per, è strettamente crescente Formulazione completa - Deriviamo τ

Q-Gram Filters for Finding All -Matches Formulazione completa - Deriviamo τ Per non perdere soluzioni, la scelta di τ deve essere meno vincolante possibile (quella in cui sono richiesti meno q-hit) È sufficiente calcolare la funzione in n 0 e in n 1

Q-Gram Filters for Finding All -Matches Formulazione completa - Deriviamo τ

Q-Gram Filters for Finding All -Matches Un parallelogramma, per essere considerato valido, deve contenere almeno τ q-hit (distribuiti lungo più diagonali) Dimensionamento del parallelogramma - Calcolo di e

Q-Gram Filters for Finding All -Matches Dimensionamento del parallelogramma - Calcolo di e e deve essere sufficientemente grande, ma non troppo (per non aumentare i falsi positivi) Conoscendo il numero di q-hit richiesti (dato da U) e il numero massimo di q-hit contenuti in una diagonale ( τ -1), si trova il numero di diagonali su cui si distribuiscono i q-hit

Q-Gram Filters for Finding All -Matches Dimensionamento del parallelogramma - Calcolo di e Si stabilisce una relazione tra questo valore e il numero di errori ammessi nel caso dello specifico parallelogramma (di dimensioni ), ottenendo:

Q-Gram Filters for Finding All -Matches Dimensionamento del parallelogramma - Calcolo di w Effettuando vari calcoli, si ottiene una formula per trovare il valore dellaltra dimensione del parallelogramma:

Q-Gram Filters for Finding All -Matches Lemma 2 Sia β una sottostringa di B tale che |β|n 0 che ha un match con una sottostringa α di A Siano,, e Esiste un parallelogramma w · e: contenente almeno τ q-hit le cui proiezioni intersecano α e β Se |β|w allora P B contiene β; altrimenti è una sottostringa di β

Q-Gram Filters for Finding All -Matches Alcuni valori desempio Aumentando τ aumentano anche n0, w ed e Parametri ottenuti con =0,05:

Q-Gram Filters for Finding All -Matches Algoritmo completo Preprocessing Indicizziamo la stringa A, in modo da sapere tutte le occorrenze di ogni possibile q-Gram Iterazione Troviamo tutti i possibili parallelogrammi w · e Sfruttiamo il concetto di bin (insieme di (e+1) diagonali adiacenti) e di sliding window Un bin conta il numero di q-hit contenuti nel parallelogramma definito dalle diagonali del bin e dalle colonne della sliding window

Q-Gram Filters for Finding All -Matches Algoritmo completo (2) B A

Q-Gram Filters for Finding All -Matches Algoritmo completo (2) B A e+Δ

Q-Gram Filters for Finding All -Matches Algoritmo completo (2) B A e+Δ τ q-hit non possono essere dispersi in più di e+1 diagonali

Q-Gram Filters for Finding All -Matches Algoritmo completo (2) B A e+Δ

Q-Gram Filters for Finding All -Matches Algoritmo completo (2) B A

Q-Gram Filters for Finding All -Matches Algoritmo completo (3) Ottimizzazioni in tempo: non si possono avere τ q-hit in una stringa più corta di q+ τ -1 –si rilassa il problema, considerando i parallelogrammi w· e, con w q+ τ -1 due q-hit distanti più di w-q posizioni (in B) non possono stare nello stesso parallelogramma –per ogni bin, si usano gli indici min e max per indicare rispettivamente il minimo e il massimo indice j (riferito a B) dei q-hit trovati –si termina nel momento in cui si trova un q-hit tale per cui j- w+q >max

Q-Gram Filters for Finding All -Matches Algoritmo completo - Precisazioni In seguito a queste ottimizzazioni, lalgoritmo può perdere accuratezza (si creano un maggior numero di falsi positivi). Questo non comporta conseguenze solamente negative perché anche questi casi possono essere interessanti da un punto di vista biologico (Può capitare in casi particolari, in cui i q-hit si trovano esattamente ogni w-q+1 posizioni in B)

Q-Gram Filters for Finding All -Matches Complessità in tempo Preprocessing: Lunghezza liste (pessimo): | A | Lunghezza liste (medio):

Q-Gram Filters for Finding All -Matches Complessità in tempo Complessità (medio): Preprocessing: Lunghezza liste (pessimo): | A | Lunghezza liste (medio): Complessità (pessimo): O(| A |·| B |)

Q-Gram Filters for Finding All -Matches Complessità in spazio Dimensione tabella occorrenze: Totale occorrenze: |A| Numero massimo di entrate:

Q-Gram Filters for Finding All -Matches Complessità in spazio Dimensione tabella occorrenze: Totale occorrenze: |A| Numero massimo di entrate: Parallelogrammi: w·(e+Δ) Δ>0 Ogni bin è associato a: e+Δ diagonali I bin si sovrappongono su e diagonali

Q-Gram Filters for Finding All -Matches Complessità in spazio Dimensione tabella occorrenze: Totale occorrenze: |A| Numero massimo di entrate: Parallelogrammi: w·(e+Δ) Δ>0 Ogni bin è associato a: e+Δ diagonali I bin si sovrappongono su e diagonali Bin richiesti: Di solito: Δ = 2 z, 2 z >e, z

Q-Gram Filters for Finding All -Matches Complessità in spazio Bin e parallelogrammi: 3 interi Totale bin: Totale parallelogrammi: 3p

Q-Gram Filters for Finding All -Matches Complessità in spazio Bin e parallelogrammi: 3 interi Totale bin: Totale parallelogrammi: 3p Tabella occorrenze + bin + parallelogrammi Complessità: 3p

Q-Gram Filters for Finding All -Matches Applicazioni I filtri trovano maggior utilizzo negli allineamenti di sequenze di DNA che non in quelle di aminoacidi Alcuni esempi: Sequence assembly EST clustering

Q-Gram Filters for Finding All -Matches Applicazioni – Sequence assembly Nel contesto biologico del sequence assembly, il filtro è usato per costruire l'overlapper dei frammenti Si costruisce una stringa A concatenando i frammenti Il filtro viene applicato ad A su se stessa, ignorando gli hit sulla diagonale della matrice di edit e sotto di essa

Q-Gram Filters for Finding All -Matches Risultati sperimentali - Sequence assembly Si possono allineare sequenze di 60 Mbp (n 0 =50, =5%) in 90 secondi (Apple PowerBook G4, 1Gb di memoria) Problemi di 1,8 Gbp (D. melanogaster) sono risolti in 18 ore Utilizzando un Intel Itanium II con 16 Gb di memoria il problema può essere risolto in meno di 2 ore

Q-Gram Filters for Finding All -Matches Applicazioni – EST clustering Si utilizza il filtro adottando lidea di BLAST Si trovano i seed

Q-Gram Filters for Finding All -Matches Applicazioni – EST clustering Si utilizza il filtro adottando lidea di BLAST Si trovano i seed I seed vengono estesi

Q-Gram Filters for Finding All -Matches Risultati sperimentali – EST Clustering Si confrontano i risultati ottenuti con: SSEARCH (implementazione di Smith-Waterman) BLAST SWIFT (un algoritmo basato sul filtro)

Q-Gram Filters for Finding All -Matches Risultati sperimentali – EST Clustering (2) Sono selezionate casualmente 40.000 sequenze dal DNA dellH. sapiens (25Mbp) e 5.600 sequenze dal DNA del M. musculus (2Mbp) La lunghezza dei q-gram è 11 Lo score minimo richiesto è 16 SSEARCH è stato eseguito su un cluster di 50 UltraSparcIIe a 500 MHz BLAST e SWIFT sono stati eseguiti su un AMD Athlon-XP a 2 Ghz

Q-Gram Filters for Finding All -Matches Risultati sperimentali – EST Clustering (3) Confrontiamo i risultati ottenuti variando ed n 0 in SWIFT

Q-Gram Filters for Finding All -Matches Risultati sperimentali – EST Clustering (3) Filtration Ratio: rapporto tra area totale dei parallelogrammi restituiti e dimensione totale della matrice di edit

Q-Gram Filters for Finding All -Matches Bibliografia Comincioli, V. Biomatematica: interazioni tra le scienze della vita e la matematica. APOGEO (2005), par. 2.2. Setubal, J., Meidanis, J. Introduction To Computational Molecular Biology. PSW (1997), cap 3 Clote, P., Backofen, R. Computational Molecular Biology An Introduction. WILEY (2000), par 3.1, 3.6 Lesk, Introduzione alla bioinformatica. McGraw-Hill Myers, E., Rasmussen, K.R., Stoye, J., Efficient q-Gram Filters for Finding All Eps-Matches over a Given Length. J. Comp. Biol. (2006) 13(2). Pp 296-308 e relative slides Wikipedia Pop, M., Salzberg, S.L., Shumway, M., Genome Sequence Assembly: Algorithms and Issues. IEEE (2002). Pp 47-54 Genome sequence assembly primer http://www.cbcb.umd.edu/research/assembly_primer.shtml Cerutti, L., EST clustering (2003) www.ch.embnet.org/CoursEMBnet/Pages02/slides/est_clustering.pdf Combinatorial Pattern Matching http://www.dia.unisa.it/~ads/BIOINFORMATICA/CombinatorialPatternMatching/index.htm

Q-Gram Filters for Finding All -Matches Efficient q-Gram Filters for Finding All -Matches over a Given Length Seminario di: Francesca Pratesi Giacomo Righetti.

Presentazioni simili

Presentazione sul tema: "Q-Gram Filters for Finding All -Matches Efficient q-Gram Filters for Finding All -Matches over a Given Length Seminario di: Francesca Pratesi Giacomo Righetti."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Q-Gram Filters for Finding All -Matches Efficient q-Gram Filters for Finding All -Matches over a Given Length Seminario di: Francesca Pratesi Giacomo Righetti.

Presentazioni simili

Presentazione sul tema: "Q-Gram Filters for Finding All -Matches Efficient q-Gram Filters for Finding All -Matches over a Given Length Seminario di: Francesca Pratesi Giacomo Righetti."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back