Biologia computazionale

Slides:

Advertisements

Presentazioni simili

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA

Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.

I SISTEMI LINEARI.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.

Capitolo 8 Sistemi lineari.

Laboratorio Processi Stocastici

gruppi di amminoacidi in base alle catene laterali

RICERCA DI SIMILARITA’ IN BANCHE DATI

ODE PROBLEMA DI CAUCHY IN 1-D Sia f : I x RR, I  R.

Allineamento di sequenze

Analisi dei dati per i disegni ad un fattore

Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Dynamic Programming Chiara Mocenni Corso di.

Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 2 Chiara Mocenni Corso di laurea L1.

Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Scelte di consumo Chiara Mocenni Corso di laurea.

Hash Tables Indirizzamento diretto Tabelle Hash Risoluzioni di collisioni Indirizzamento aperto.

Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)

Analisi della varianza (a una via)

Processi Aleatori : Introduzione – Parte I

Appunti di inferenza per farmacisti

Alberi di Ricorrenza Gli alberi di ricorrenza rappresentano un modo conveniente per visualizzare i passi di sostituzione necessari per risolvere una.

Sistemi di equazioni lineari

Corso di biomatematica lezione 7-2: Test di significatività

Cenni di teoria degli errori

Metodi basati sulle similitudini per dedurre la funzione di un gene

Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re p5p5 UPGMA C.d.l.

1) Algoritmi di allineamento 2) Algoritmi di ricerca in database

Lezione 8 Numerosità del campione

Num / 36 Lezione 9 Numerosità del campione.

Intelligenza Artificiale Algoritmi Genetici

Lezione 13 Equazione di Klein-Gordon Equazione di Dirac (prima parte)

Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

ALLINEAMENTI GLOBALI E LOCALI

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)

Elementi di Informatica di base

ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,

WORKING WITH BIOSEQUENCES Alignments and similarity search

Ricerca di similarità di sequenza (FASTA e BLAST)

Tipi di allineamenti.

BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.

A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.

La verifica d’ipotesi Docente Dott. Nappo Daniela

Esempio di utilizzo del programma BLAST disponibile all’NCBI

Lezione B.10 Regressione e inferenza: il modello lineare

R. Soncini Sessa, MODSS, L 26 Stima degli effetti Calcolo degli obiettivi (Laplace) Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini.

Calcolo delle probabilità a cura di Maurizio Brizzi

A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.

Allineamento di sequenze

Rappresentazione dell'informazione

ALLINEAMENTO DI SEQUENZE

Conversione binario-ottale/esadecimale

UNIVERSITA’ DEGLI STUDI DI PERUGIA

ANALISI E INTERPRETAZIONE DATI

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.

Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.

Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.

Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)

Analisi matematica Introduzione ai limiti

DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.

Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.

Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:

La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.

Lezione n. Parole chiave: Corso di Laurea: Insegnamento: Docente: A.A Salvatore Cuomo La ricorsione 15 Approccio ricorsivo, esercizi sulla.

1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.

Transcript della presentazione:

Biologia computazionale Docente: Giorgio Valentini Istruttore: Matteo Re Università degli studi di milano C.d.l. Biotecnologie Industriali e Ambientali Biologia computazionale A.A. 2010-2011 semestre II 3 Allineamento veloce (euristiche)

Banche dati primarie e secondarie Esistono due categorie principali di banche dati biologiche: i collettori primari e le banche darti secondarie. Collettori primari: sono 3, GenBank, EMBL e DDBJ. Ogni sequenza sottomessa a ognuna di queste banche dati viene trasferita alle altre due nell’arco di 24 ore. Grande quantità di dati ma di bassa qualità. Banche dati secondarie: contengono meno informazioni. Le sequenze sono curate manualmente (qualità superiore). Spesso sono banche dati tematiche.

Banche dati secondarie (molti tipi) Istituto Dati contenuti Database NCBI Reference Sequences RefSeq SIB (swiss institute of bioinformatics) Sequenze proteiche annotate manualmente SwissProt Sanger institute Annotazione di proteine sulla base dei domini proteici contenuti PFam Annotazioni inerenti a geni (trascritti) Gene Collezioni annotate di dati di espressione GEO … e molte altre

Crescita del numero di sequenze nelle banche dati biologiche Grazie ai progressi nelle tecnologie di sequenziamento il numero di sequenze contenute nelle banche dati biologiche è cresciuto ad un ritmo sempre maggiore negli ultimi anni. Questo crea dei problemi pratici: Gli algoritmi di allinamento NW e SW garantiscono di trovare allineamenti ottimali (confronto pairwise). Purtroppo sono troppo lenti per permettere l’allineamento di una singola sequenza con i milioni di sequenze disponibili nelle banche dati pubbliche.

Genbank : num. seq. e paia di basi (1992-2008)

Scambiare accuratezza con velocità! Possibile soluzione? Scambiare accuratezza con velocità! Quando eseguiamo una ricerca in banca dati mediante un algoritmo di allineamento abbiamo: una sequenza che vogliamo confrontare con il contenuto della banca dati ( sequenza sonda o query) Una collezione di sequenze in banca dati Vogliamo trovare tutti i mach biologicamente significativi tra la query e le sequenze in banca dati. Il confronto è effettuato a coppie. La query è costante, la sequenza del database considerata in un dato momento è detta subject (o target sequence). Cercare TUTTI i match e restituire solo i «migliori» comporterebbe l’applicazione di NW o SW a tutte le possibili coppie (query, subject).

Scambiare accuratezza con velocità Bio CS Scambiare accuratezza con velocità E’ necessario fare alcune assunzioni che permettano di semplificare il problema ( e questo ha dei costi ). Dal punto di vista biologico possiamo assumere che: Nel corso di una ricerca per similarità contro il contenuto di una banca dati otterremo molti match. Ma non tutti sono «buoni» (alcuni sono dovuti al caso). Se un allineamento rappresenta un vero match (esistenza di omologia) allora è attesa la presenza di corte regioni dell’allineamento ad alto punteggio di similarità.

FORMALIZZAZIONE DEL PROBLEMA Bio CS FORMALIZZAZIONE DEL PROBLEMA Data una sequenza Q (query) ed una collezione S (subjects) composta da n sequenze (n molto grande) calcolare gli allineamenti in cui esiste almeno una regione di alta similarità tra Q e Si (i-esima sequenza in banca dati) Ci sono 2 modi di risolvere il problema: Calcolo tutti gli allineamenti e verifico se, all’interno di un dato allineamento esiste una regione con score di similarità > di una soglia T. In caso affermativo restituisco l’allineamento. Spezzo Q e tutte le sequenze S in parole di lunghezza w. Verifico che Q ed Si condividano almeno una parola (regione di elevata similarità) e solo in questo caso allineo e restituisco il risultato. Approccio euristico: FASTA e BLAST

SCHEMA di ricerca in banca dati di biosequenze ( mediante BLAST )

CS FASTA (FAST-All, Lipman, Pearson 1985): Prevede tre fasi: 1. indicizzazione: la query viene divisa in parole di lunghezza ktup e si memorizzano tutte le posizioni di inizio parola. Ad esempio: Di solito per le proteine ktup=2; per il DNA ktup = 4,6. Inizia poi l’analisi di tutte le sequenze subject. Viene costruita una lookup-table per ognuna.

CS FASTA (FAST-All, Lipman, Pearson 1985): 2. Ricerca (I) : Ogni SUBJECT della banca dati viene consultata allo stesso modo (anche queste sono indicizzate) e si confronta l’indice della ktup della query con l’indice della ktup della subject (nel caso in cui esista una corrispondenza). Trovata una corrispondenza ci si sposta di una posizione (1 simbolo) sulla QUERY e si verifica se esiste un match nella SUBJECT. Se c’è verifichiamo che la differenza tra l’indice della ktup QUERY e l’indice della ktup SUBJECT sia uguale a quella osservata tra le ktup del passo precedente. Se è così ci spostiamo avanti di un altro passo (sulla QUERY). Cosa troviamo in questo modo?

CS FASTA (FAST-All, Lipman, Pearson 1985): 2. Ricerca (II) : Se la differenza tra gli indici delle ktup rimane COSTANTE abbiamo trovato una regione di identità estesa, che corrisponde ad una diagonale nella matrice di allineamento! Differenza i-j costante : c’è continuità! (abbiamo trovato una diagonale)

CS FASTA (FAST-All, Lipman, Pearson 1985): 2. Ricerca (III) : Ad ogni diagonale trovata si può assegnare uno score di similarità mediante matrici di sostituzione (qui ciò che varia è il premio per la conservazione dei vari aa presenti nelle diagonali. Il programma ripete queste operazioni per ogni subject della banca dati, identificando le Best Initial Regions i cui punteggi sono chiamati Init1. Con questi fa una graduatoria per decidere su quante e quali sequenze procedere. La scelta delle subject più adatte è stata fatta. Da ora procede con un numero molto minore di sequenze subject.

CS FASTA (FAST-All, Lipman, Pearson 1985): 3. Raffinamento (I): Ora il programma cerca di congiungere ogni best initial region della subject confermata utilizzando i parametri di penalty per i gaps. Le regioni vengono allungate e avranno un nuovo score, detto InitN. Ma come fa a scegliere quali diagonali congiungere (mediante gaps) tra quelle disponibili?

CS FASTA (FAST-All, Lipman, Pearson 1985): 3. Raffinamento (II) : Il programma combina mediante gaps le diagonali NON SOVRAPPOSTE ed il cui ordine è compatibile con il processo di allineamento. Non proverà a congiungere la diagonale c con la diagonale a poiché esiste la diagonale b. b c

CS FASTA (FAST-All, Lipman, Pearson 1985): 3. Raffinamento (III) : Il programma combina mediante gaps le diagonali NON SOVRAPPOSTE ed il cui ordine è compatibile con il processo di allineamento. Non proverà a congiungere la diagonale c con la diagonale a poiché esiste la diagonale b. FASTA cerca il «miglior» percorso (che ora equivale all‘unione di diagonali con score maggiore. E poi elimina le altre diagonali Sub-sequence Edge

CS FASTA (FAST-All, Lipman, Pearson 1985): 3. Raffinamento (VI) : Identificata la miglior combinazione di diagonali (unite mediante gaps) FASTA esegue un allineamento mediante programmazione dinamica (alla SW) tra QUERY e SUBJECT e restituisce il risultato. NB: L’algoritmo di allineamento può essere eseguito più velocemente poiche possiamo restringere l’attenzione alla parte della matrice di programmazione dinamica che SAPPIAMO contenere il miglior allineamento (migliore Unione di diagonali). La larghezza di questa banda è un parametro

Riepilogo algoritmo FASTA (FAST-All, Lipman, Pearson 1985) Lo score finale ottenuto dopo l’allineamento (d) è definito Opt score.

CS BLAST (basic local aligment search tool) Altshul, 1990 E’ ottimizzato per trovare allineamenti locali privi di gap. L’algoritmo prevede tre fasi: 1. leggendo la sequenza QUERY viene formato un elenco di parole di lunghezza W. Per ognuna viene creata una lista di parole affini (W-meri): vengono considerati tutti i W-meri che superano una soglia di similarità fissata T quando viene allineato con la parola della query; 2. vengono esaminate tutte le sequenze SUBJECT, per cercare la presenza di tutti i W-meri dell’elenco. Ogni corrispondenza trovata (hit) viene considerata come parte di un allineamento più esteso; 3. viene considerata la possibilità di estendere ogni hit in entrambe le direzioni, senza aggiunte di gap. Si ottiene un segmento di allineamento locale detto HSP (high-scoring segment pair) e il suo relativo score. http://blast.ncbi.nlm.nih.gov/Blast.cgi

CS BLAST (basic local aligment search tool) Altshul, 1990 1. Inizializzazione: Creazione di un set di parole dalla query sequence: NB: molte più parole che in FASTA

CS BLAST (basic local aligment search tool) Altshul, 1990 2. Ricerca (I): Cercare parole «simili» nelle sequenze presenti in banca dati NB: prima di indicizzare la banca dati vengono mascherate tutte le regioni a bassa complessità (regioni altamente ripetute e poco informative)

CS BLAST (basic local aligment search tool) Altshul, 1990 2. Ricerca (I): Cercare parole «simili» nelle sequenze presenti in banca dati: Ogni sequenza SUBJECT presente nella banca dati viene esaminata alla ricerca di corrispondenze (hit) tra la collezione di W-meri corrispondente alla parola corrente della sequenza QUERY e le parole della sequenza SUBJECT. In caso sia stata trovata una corrispondenza (hit) vengono memorizzate le posizioni delle parole sia nella QUERY che nella sequenza SUBJECT. (es. RQC si trova in posizione 125 nella QUERY ed in posizione 100 nella sequenza SUBJECT). Vengono considerate hit accettabili solo quelle in cui le parole si trovano ad una distanza massima A. Questo equivale ad accettare solo hit che si trovano, presumibilmente, su una buona diagonale (cfr FASTA).

CS BLAST (basic local aligment search tool) Altshul, 1990 3. Estensione : Estensione di ogni hit verso entrambe le direzioni senza inserimento di gap, finchè il loro score non scende sotto S. Si ottengono regioni dette HSP (High-scoring Segment Pair). In realtà anche se lo score scende sotto S solo per alcuni residui, e poi risale, l’HSP può ancora estendersi. Il parametro X dice la quantità di perdita di score massima tollerabile se si prosegue con l’allungamento dell’HSP.

CS BLAST (basic local aligment search tool) Altshul, 1990 Parametri fondamentali: W: word size, maggiore è il numero, minore è il numero di parole generate, minore è il tempo di esecuzione. Ma la sensibilità decresce sensibilmente. T: threshold, minore è il numero, maggiore è il numero di w-mers inclusi nella lista, maggiore è il tempo di esecuzione. Si ha però un incremento di sensibilità. S: score, minore è il numero, maggiore sarà la lunghezza degli HSP X: maggiore è il numero, più estesamente sarà osservato l’intorno di una HSP, aumentando il tempo di esecuzione.

Sensibilità rispetto ad omologie lontane crescente CS BLAST (basic local aligment search tool) Altshul, 1990 QUANTI TIPI DI BLAST ? blastN blastP Sensibilità rispetto ad omologie lontane crescente TblastN blastX TblastX

differenze tra gli allineamenti prodotti FASTA vs BLAST differenze tra gli allineamenti prodotti Bio CS

Bio CS Riepilogo euristiche di allineamento (confronto tra algoritmi) Programmazione dinamica (DP) : 1) Massima sensibilità: DP utilizza, di fatto, TUTTA l’informazione contenuta nelle sequenze confrontate. 2) Tempo di esecuzione elevato: DP calcola tutti i valori nella matrice di programmazione dinamica (anche quelli situati nelle aree inutili) in modo da garantire la produzione di un allineamento ottimale.

Riepilogo euristiche di allineamento (confronto tra algoritmi) Bio CS Riepilogo euristiche di allineamento (confronto tra algoritmi) FASTA: 1) Meno sensibile di DP e BLAST: FASTA utilizza PARTE dell’informazione contenuta nelle sequenze confrontate in modo da accelerare il calcolo. FASTA cerca match ESATTI tra le k-tuple nella fase iniziale di scansione della banca dati FASTA non valuta statisticamente gli allineamenti prodotti 2) Tempo di esecuzione MINORE rispetto a DP: (stessi motivi riportati al punto 1)

Riepilogo euristiche di allineamento (confronto tra algoritmi) Bio CS Riepilogo euristiche di allineamento (confronto tra algoritmi) BLAST: 1) Più sensibile di FASTA: BLAST (come vedremo) valuta statisticamente gli allineamenti prodotti. BLAST utilizza, nella fase iniziale, match tra parole «simili» (collezioni di W-meri). 2) Tempo di esecuzione MINORE rispetto a FASTA: BLAST elimina il rumore (filtro regioni a bassa complessità) prima di iniziare la scansione del database.

EURISTICHE ALLINEAMENTO Sequenze biologiche variano durante l’evoluzione. E’ utile confrontare una sequenza con collezioni di sequenze. NB: E’ attesa la presenza di regioni ad alto score di similarità durante il confronto di sequenze omologhe E’ possibile effettuare una ricerca per similarità in banca dati in maniera veloce ponendo un filtro a monte dell’ allineamento (riduzione numero di confronti) Bio CS BIOLOGIA COMPUTAZIONALE: è possibile confrontare «velocemente» una sequenza ed il contenuto di una banca dati PROBLEMA: se confrontiamo una sequenza contro una banca dati ... lo score ottenuto è SEMPRE statisticamente significativo?

EURISTICHE ALLINEAMENTO (e ricerca in banche dati) Bio CS BIOLOGIA COMPUTAZIONALE: è possibile confrontare «velocemente» una sequenza ed il contenuto di una banca dati E’ NECESSARIO VALUTARE STATISTICAMENTE GLI ALLINEAMENTI OTTENUTI ! Stat BLAST lo fa !

BLAST : analisi statistica (degli allineamenti restituiti) Bio Stat BLAST : analisi statistica (degli allineamenti restituiti) PROBLEMA: Dato un HSP (s,t) avente score σ(s,t) quanto è significativo (statisticamente) questo match (allineamento locale)? SOLUZIONE (statistica): H0 : le sequenze s,t non sono omologhe. L’ipotesi alternativa, quindi, è che s,t siano omologhe. Scegliere un esperimento per produrre HSP (s,t) … usiamo BLAST Calcolare la probabilità del risultato sotto l’ipotesi nulla H0, P(Score≥σ(s,t)|H0) generando una distribuzione di probabilità basata su sequenze random Fissare un livello di rifiuto per H0 Eseguire l’esperimento (otteniamo uno score), calcolare la probabilità di ottenere uno score maggiore o uguale a quello osservato e confrontiamo con il livello di rifiuto di H0

BLAST : analisi statistica (degli allineamenti restituiti) Bio Stat BLAST : analisi statistica (degli allineamenti restituiti) La teoria statistica di Karlin e Altschul per allineamenti locali è basata sulle distribuzioni di Poisson e dei valori estremi. La distribuzione di Poisson (prob. di un evento «raro») con parametro v segue questa formula: notare che v rappresenta sia il valore atteso che la varianza. Dalla formula precedente segue che:

BLAST : analisi statistica Significatività statistica di un HSP Bio Stat BLAST : analisi statistica Significatività statistica di un HSP I) Data una matrice di sostituzione S(a,b) (es. BLOSUM50), l’attesa che una coppia di aminoacidi vengano allineati per caso DEVE essere negativa (altrimenti lunghi allineamenti casuali avrebbero score alto) II) La SOMMA di un grande numero di variabili casuali ed identicamente distribuite ha distribuzione normale ma il MASSIMO di un gran numero di variabili casuali ed identicamente distribuite segue la distribuione dei valori estremi. III) Gli score degli HSP sono caratterizzati da 2 parametri: K e λ . Essi dipendono dalla distribuzione dei simboli da allineare in banca dati e dalla matrice di sostituzione utilizzata. λ è l’unico valore di y che soddisfa la seguente equazione: NBB: K e λ sono fattori di scaling. K (spazio di ricerca), λ scoring matrix

BLAST : analisi statistica Significatività statistica di un HSP Bio Stat BLAST : analisi statistica Significatività statistica di un HSP Il numero di HSP (s,t) «dovuti al caso» aventi score σ(s,t) ≥ S può essere descritto mediante una distribuzione di Poisson con parametro v=Kmne-S (m lunghezza query, n lunghezza totale seq. In banca dati). Il numero di HSP con score ≥ S che ci aspettiamo di vedere per effetto del caso è quindi il parametro v, detto anche E-value: (attesa) Quindi la probabilità di osservare esattamente x HSP con score ≥ S è: La probabilità di trovare esattamente 1 HSP con score ≥ S per effetto del caso è:

BLAST : analisi statistica Significatività statistica di un HSP Bio Stat BLAST : analisi statistica Significatività statistica di un HSP PROBLEMA: Lo score S dipende dai parametri K e λ. Sarebbe meglio «trasformare» lo score S in modo da rendere comparabile il risultato di diverse ricerche effettuate da BLAST con valori diversi di K e λ. bit score: Per un dato HSP (s,t) trasformiamo lo score S in un bit score S’ come segue: I bit score possono essere confrontati anche se derivano da diverse ricerche BLAST in quanto, in essi, l’effetto di K e λ è normalizzato:

BLAST : analisi statistica Significatività statistica di un HSP Bio Stat BLAST : analisi statistica Significatività statistica di un HSP Per determinare la significatività statistica di un bit score S’ , l’unica informazione necessaria è la dimensione dello spazio di ricerca. Dato che S = ( S’ ln 2 / ln K) / λ , possiamo esprimere l’E-value in termini di bit score mediante questa formula: Per ogni match un valore atteso E è calcolato e riportato in notazione scientifica (solo l’esponente). Più piccolo è questo valore ( più vicino a 0 ) più il match è significativo. E-value ci dice quanto spesso possiamo aspettarci un match con questo score (o con score maggiore) dovuto puramente al caso in una ricerca contro una banca dati delle dimensioni di quella considerata durante la ricerca.

Euristiche di allineamento: Bio CS Stat Euristiche di allineamento: FASTA & BLAST RIEPILOGO: I metodi di allineamento pairwise SW e NW garantiscono la possibilità di trovare l’allineamento ottimo (dati un sistema di scoring ed una matrice di sostituzione). Questi metodi sono troppo lenti per effettuare una ricerca di similarità in grandi collezioni di biosequenze. I metodi euristici scambiano accuratezza con velocità di esecuzione : non è garantito che il miglior risultato restituito dal confronto tra una proteina sonda (query) ed una banca dati sia effettivamente la sequenza più simile (è possibile che esistano sequenze che, se allineate con la query mediante metodo SW o NW, producano allineamenti migliori. BLAST è più «sensibile» di FASTA, e valuta statisticamente gli allineamenti prodotti. BLAST è lo standard de facto per le ricerche in banca dati. Esistono diverse versioni specializzate di BLAST.