All-Against-All Sequence Matching Implementazione Mediante Suffix Array e Analisi Prestazionale Comparata Corelatori: Dott. Federica Mandreoli Ing. Riccardo.

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

Obiettivo della tesi Percorso
Università degli studi di Modena e Reggio Emilia
Tecniche di segmentazione delle patologie morfologiche dell’encefalo
Esercizi su alberi binari
ITERAZIONE e RICORSIONE (eseguire uno stesso calcolo ripetutamente)
Interrogazione Efficiente di Documenti XML Temporali e una sua Applicazione in Ambito Normativo Enrico Ronchetti Enrico Ronchetti Università degli Studi.
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
Grafi Rappresentazione mediante liste di adiacenza:
Esercizi La distanza di hamming tra due interi x e y si definisce come il numero di posizioni nella rappresentazione binaria di x e y aventi bit differenti.
Calcolo di Modelli Stabili Attraverso la Semplificazione di Programmi Logici Fabrizio Magni Relatore: Prof.ssa Stefania Costantini Corelatore: Dott. Alessandro.
Calcolo di Modelli Stabili Attraverso la Semplificazione di Programmi Logici Fabrizio Magni Relatore: Prof.ssa Stefania Costantini Corelatore: Dott. Alessandro.
Università degli Studi di Cagliari
ALGORITMI a.
Algoritmo che viene utilizzato per elencare gli elementi di un insieme secondo una sequenza stabilita da una relazione d'ordine, in modo che ogni elemento.
Array (ordinamento) CORDA – Informatica A. Ferrari.
GLI ALGORITMI VISIBILE SUL BLOG INFORMATICA ANNO SCOLASTICO 2013 / 2014 GABRIELE SCARICA 2°T.
Paola Disisto, Erika Griffini, Yris Noriega.  Insieme ordinato di operazioni non ambigue ed effettivamente computabili che, quando eseguito, produce.
Lo strano mondo degli algoritmi di ordinamento Algoritmi.
XXXII CONVEGNO NAZIONALE Società Italiana di Chimica Agraria
ECONOMIA DELLE ISTITUZIONI FINANZIARIE
…. modello di Solow?.
“BLAISE PASCAL”- Voghera-
Classificazione e Predizione
L’economia monetaria Corso di Economia delle Istituzioni Finanziarie
Ricerca e innovazione:
Piano di formazione Docenti neoassunti a.s. 2016/2017
PROGETTO RELAZIONI PREPOTENTI
La misurazione e la valutazione della performance
L’evoluzione del Diritto delle Assicurazioni Continuità o rottura con il passato? Avv. Giuseppe Ranieri Studio Legale Tributario Ranieri Comitato Esecutivo.
Associazione Sindrome X Fragile Puglia
La politica dei dividendi
Università di Roma Tor Vergata
Art 6 comma 2 Legge regionale N.19 del 25 novembre 2016 (vaccinazioni)
BIOLOGIA IL CORPO UMANO
Materiali. Logica: tutorials e slides power point in rete.
Valutazione Antropologica Registrazione In Anagrafe Donazione Organi
SSS «BLAISE PASCAL» Voghera
Le vittime della criminalità predatoria: un’esperienza di integrazione dei dati amministrativi con i dati campionari Isabella Corazziari | Istat SAPIENZA.
Assistenza infermieristica in Germania
La stima del costo del capitale
Una Questione di … Sguardi
Consistenza, distribuzione e qualità in Liguria dicembre 2013
La crisi del Trecento.
Modellazione Off-Design di un Compressore per Applicazioni AA-CAES
CESSIONE AZIENDA Casi pratici.
DEI DIRITTI DEI DANNEGGIATI
Il progetto pilota DELL' AZIENDA NON SI BUTTA VIA NIENTE
La città del novecento Laboratorio di storia, territorio
COSCHE PROVENIENTI DA ALTRE REGIONI segnalate sul territorio del Lazio
Università degli Studi di Pavia Anno Accademico 2016/2017
Tip-Tilt flessibile con attuazione
Liceo delle Scienze Umane «BLAISE PASCAL» Voghera
Fotometria di un ammasso stellare aperto
Le equazioni di grado superiore al secondo.
Le Funzioni Goniometriche
Una proteina di legame non è sempre un recettore
Dati conosciuti e dato incognito
Educazione Razionale-Emotiva
ILLUSIONI OTTICHE ED ESPERIMENTI
Il ruolo delle cellule nello sviluppo
Laura Resmini a.a (tranne par )
Bistacchi S. Casconi S. Ermini A. Francini I.
LA MATEMATICA DIVERTENTE Ma…a che gioco giochiamo?
BERILLIO Adotta un elemento Morici Martino
A cura dell’Ing. Marco Buttolo
Esercitazione di Statistica Economica
Panoramica su envi_met
1.ECONOMIA POLITICA definizioni.
Transcript della presentazione:

All-Against-All Sequence Matching Implementazione Mediante Suffix Array e Analisi Prestazionale Comparata Corelatori: Dott. Federica Mandreoli Ing. Riccardo Martoglia Relatore: Prof. Paolo Tiberio Tesi di: Dario Gelmini

Dati due insiemi di sequenze A e B Confrontare tutte le sotto-sequenze di A con tutte le sotto-sequenze di B indicandone il grado di Similitudine Problema …A A A C T G T T A … …A A A C T G T T A … …C T A G T A T A G… …C T A G T A T A G… Sequenza A Sequenza B CT GT TA Sottosequenze Comuni

Come Procedere Scansione delle sequenzeScansione delle sequenze Valutazione delle CoppieValutazione delle Coppie Coppie di Sottosequenze DistanzaeLunghezzaMinima

Edit Distance A C T G T A C T T T G T A A C T T T G T A ACTTTGTA A C T G T C i-1,j-1 se lettera uguale C i-1,j-1 se lettera uguale C i,j = 1 + Max(C i-1,j-1, C i-1,j, C i,j-1 ) altrimenti 1 + Max(C i-1,j-1, C i-1,j, C i,j-1 ) altrimenti

D B D BSequenze ACT 0123 A1012 C2101 A C T T G : G C T T A A C T T G : T T A A C T T G : T A A C T T G : A C T T G : C T T A C T T G : T T A C T T G : T A C T T G : A Creazione Indice sul DB delle Sequenze Esplorazione Ricorsiva dei due Indici Calcolo della distanza per ogni Coppia Filtro sulle Distanze [Baeza-Yates, Gonnet, 1999] (Sequenze Genetiche)

Suffix Tree A C T T T G T A A C T T T G T A A A G T T T C G GC$ / A C $ T TT

Algoritmo [Baeza-Yates, Gonnet, 1999] A T T C G G 1 / G T T C A A 1 / A C T T G G C T T A A C T T G : G C T T A A C T T G : C T T A A C T T G : T T A A C T T G : T A A C T T G : A C T T G : G C T T A C T T G : C T T A C T T G : T T A C T T G : T A C T T G : A

A C T T T G T A C T T T G T A T T T G T A T T G T A T G T A G T A T A A A A C T T T G T A C T T T G T A G T A T A T G T A T T G T A T T T G T A Implementazione (Suffix Tree con Suffix Array) A A G T T T C G GC$ / A C T T T G T A A C T T T G T A C T T T G T A T T T G T A T T G T A T G T A G T A T A A Suffix Tree Suffix Array

[Baeza-Yates, Gonnet] con Suffix Array T T C C T T C C C C C T C C T T C C 4321 C : G C : G G C : T G G C : T T G G C C : G C C : G G C C : T G G C C : T T G G T C C : G T C C : G G T C C : T G G T C C : T T G G T T C C : G T T C C : G G T T C C : T G G T T C C : T T G G T T G G T T G G G G G T G G T T G G 4321

T C C 2 2 T 2 2 T C Applicazione dei Filtri A A A C C C C A A A C A A C A A A C 4321 T T T C T T T C C C C T C C C T C C T C C T C C C T 4321 C C A C C A C C C A 4321 T T C T T C T T T C 4321 Massima Distanza = A C 1 1 A T 1 1 T 1 1 C 2 2 A C A C C T 2 2 T C A C A C T Minima Lunghezza = 2 Lunghezza Minima

[Mandreoli, Martoglia, Tiberio, 2002] (Sequenze Testuali) D B D BSequenze ACT 0123 A1012 C2101 A C T T G : G C T T A A C T T G : T T A A C T T G : T A A C T T G : A C T T G : C T T A C T T G : T T A C T T G : T A C T T G : A Impostazione Parametri di minima Lunghezza e di massima Distanza dei filtri Filtraggio delle sequenze ed estrapolazione coppie potenzialmente simili Calcolo della distanza per ogni coppia Filtro sulle Distanze Sub 2 Position Sub 2 Count Filtri

Prestazioni (Analisi dei Risultati) Filtro sulla Massima Distanza Aumento Sopralineare dei tempi allaumentare della massima distanza consentita Conseguenza dellapplicazione della funzione di Edit Distance a tutte le coppie Filtro sulla Minima Lunghezza Diminuzione lineare dei tempi al Aumentare della lunghezza minima richiesta Conseguenza delloperazione di filtro eseguita senza il calcolo della distanza

Confronto [Baeza-Yates, Gonnet] - [Mandreoli, Martoglia, Tiberio] Scarse Prestazioni su sequenze Testuali Prestazioni Interessanti su sequenze Genetiche

Conclusioni Implementazione Suffix Tree con Suffix Array (Modificato) Suffix Tree con Suffix Array (Modificato) Edit Distance con Corner (Modificato) Edit Distance con Corner (Modificato) Algoritmo di [Baeza-Yates, Gonnet] con Suffix Array Algoritmo di [Baeza-Yates, Gonnet] con Suffix Array Analisi delle Prestazioni Discrete Prestazioni su Insiemi di Sequenze Genetiche Discrete Prestazioni su Insiemi di Sequenze Genetiche Pessime Prestazioni su Insiemi di Sequenze Testuali Pessime Prestazioni su Insiemi di Sequenze Testuali Verifica di validita delle tecniche di Pre-Filtering Verifica di validita delle tecniche di Pre-Filtering