La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

All-Against-All Sequence Matching Implementazione Mediante Suffix Array e Analisi Prestazionale Comparata Corelatori: Dott. Federica Mandreoli Ing. Riccardo.

Presentazioni simili


Presentazione sul tema: "All-Against-All Sequence Matching Implementazione Mediante Suffix Array e Analisi Prestazionale Comparata Corelatori: Dott. Federica Mandreoli Ing. Riccardo."— Transcript della presentazione:

1 All-Against-All Sequence Matching Implementazione Mediante Suffix Array e Analisi Prestazionale Comparata Corelatori: Dott. Federica Mandreoli Ing. Riccardo Martoglia Relatore: Prof. Paolo Tiberio Tesi di: Dario Gelmini

2 Dati due insiemi di sequenze A e B Confrontare tutte le sotto-sequenze di A con tutte le sotto-sequenze di B indicandone il grado di Similitudine Problema …A A A C T G T T A … …A A A C T G T T A … …C T A G T A T A G… …C T A G T A T A G… Sequenza A Sequenza B CT GT TA Sottosequenze Comuni

3 Come Procedere Scansione delle sequenzeScansione delle sequenze Valutazione delle CoppieValutazione delle Coppie Coppie di Sottosequenze DistanzaeLunghezzaMinima

4 Edit Distance A C T G T A C T T T G T A A C T T T G T A ACTTTGTA 012345678 A101234567 C210123456 T321012345 G432112234 T543211223 C i-1,j-1 se lettera uguale C i-1,j-1 se lettera uguale C i,j = 1 + Max(C i-1,j-1, C i-1,j, C i,j-1 ) altrimenti 1 + Max(C i-1,j-1, C i-1,j, C i,j-1 ) altrimenti

5 D B D BSequenze ACT 0123 A1012 C2101 A C T T G : G C T T A A C T T G : T T A A C T T G : T A A C T T G : A C T T G : C T T A C T T G : T T A C T T G : T A C T T G : A 22345212 Creazione Indice sul DB delle Sequenze Esplorazione Ricorsiva dei due Indici Calcolo della distanza per ogni Coppia Filtro sulle Distanze [Baeza-Yates, Gonnet, 1999] (Sequenze Genetiche)

6 Suffix Tree A C T T T G T A A C T T T G T A 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 8 2 6 3 4 5 7 A A G T T T C G GC$ 1 2 3 / A C $ T TT

7 Algoritmo [Baeza-Yates, Gonnet, 1999] 12 5 3 4 A T T C G G 1 / 12 5 3 4 G T T C A A 1 / A C T T G G C T T A 1 2 3 4 5 1 2 3 4 5 A C T T G : G C T T A A C T T G : C T T A A C T T G : T T A A C T T G : T A A C T T G : A C T T G : G C T T A C T T G : C T T A C T T G : T T A C T T G : T A C T T G : A 2234521234

8 A C T T T G T A C T T T G T A T T T G T A T T G T A T G T A G T A T A A A A C T T T G T A C T T T G T A G T A T A T G T A T T G T A T T T G T A 81267543 Implementazione (Suffix Tree con Suffix Array) 1 8 2 6 3 4 5 7 A A G T T T C G GC$ 1 2 3 / A C T T T G T A A C T T T G T A 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 C T T T G T A T T T G T A T T G T A T G T A G T A T A A Suffix Tree Suffix Array

9 [Baeza-Yates, Gonnet] con Suffix Array T T C C T T C C 1 2 3 4 C C C T C C T T C C 4321 C : G C : G G C : T G G C : T T G G C C : G C C : G G C C : T G G C C : T T G G T C C : G T C C : G G T C C : T G G T C C : T T G G T T C C : G T T C C : G G T T C C : T G G T T C C : T T G G T T G G T T G G 1 2 3 4 G G G T G G T T G G 4321

10 T 2 2 2 C 2 2 1 C 2 2 T 2 2 T 2 2 2 C 2 2 1 Applicazione dei Filtri A A A C C C C A 1 2 3 4 A A C A A C A A A C 4321 T T T C T T T C C C C T C C C T 1 2 3 4 C C T C C T C C C T 4321 C C A C C A C C C A 4321 T T C T T C T T T C 4321 Massima Distanza = 1 1222 2111 2111 122212 12 A 0 1 0 1 C 1 1 A 0 1 0 1 T 1 1 T 1 1 C 2 2 A C A C 0 1 2 0 1 2 C 1 1 1 T 2 2 T 3 3 2 C 3 3 2 A C A C 0 1 2 0 1 2 T 1 1 2 Minima Lunghezza = 2 Lunghezza Minima

11 [Mandreoli, Martoglia, Tiberio, 2002] (Sequenze Testuali) D B D BSequenze ACT 0123 A1012 C2101 A C T T G : G C T T A A C T T G : T T A A C T T G : T A A C T T G : A C T T G : C T T A C T T G : T T A C T T G : T A C T T G : A 22345212 Impostazione Parametri di minima Lunghezza e di massima Distanza dei filtri Filtraggio delle sequenze ed estrapolazione coppie potenzialmente simili Calcolo della distanza per ogni coppia Filtro sulle Distanze Sub 2 Position Sub 2 Count Filtri

12 Prestazioni (Analisi dei Risultati) Filtro sulla Massima Distanza Aumento Sopralineare dei tempi allaumentare della massima distanza consentita Conseguenza dellapplicazione della funzione di Edit Distance a tutte le coppie Filtro sulla Minima Lunghezza Diminuzione lineare dei tempi al Aumentare della lunghezza minima richiesta Conseguenza delloperazione di filtro eseguita senza il calcolo della distanza

13 Confronto [Baeza-Yates, Gonnet] - [Mandreoli, Martoglia, Tiberio] Scarse Prestazioni su sequenze Testuali Prestazioni Interessanti su sequenze Genetiche

14 Conclusioni Implementazione Suffix Tree con Suffix Array (Modificato) Suffix Tree con Suffix Array (Modificato) Edit Distance con Corner (Modificato) Edit Distance con Corner (Modificato) Algoritmo di [Baeza-Yates, Gonnet] con Suffix Array Algoritmo di [Baeza-Yates, Gonnet] con Suffix Array Analisi delle Prestazioni Discrete Prestazioni su Insiemi di Sequenze Genetiche Discrete Prestazioni su Insiemi di Sequenze Genetiche Pessime Prestazioni su Insiemi di Sequenze Testuali Pessime Prestazioni su Insiemi di Sequenze Testuali Verifica di validita delle tecniche di Pre-Filtering Verifica di validita delle tecniche di Pre-Filtering


Scaricare ppt "All-Against-All Sequence Matching Implementazione Mediante Suffix Array e Analisi Prestazionale Comparata Corelatori: Dott. Federica Mandreoli Ing. Riccardo."

Presentazioni simili


Annunci Google