La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.

Presentazioni simili


Presentazione sul tema: "BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze."— Transcript della presentazione:

1 BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze. In particolare, data una sequenza query di nucleotidi o di amminoacidi, vogliamo trovare le sequenze più simili ad essa tra tutte le sequenze di un database. Il programma che normalmente si usa per questo scopo è BLAST. Noi invece vedremo lesecuzione di BLAST da linea di comando UNIX e in particolare la possibilità di automatizzare, grazie alla scrittura di appositi programmi Perl, lesecuzione di tali ricerche e lanalisi dei risultati prodotti dal programma Nel corso di Bioinformatica2 dovreste avere già visto lalgoritmo di BLAST (Basic Local Alignment Search Tool, Altschul et al., 1990) e tutti i suoi parametri e dovreste aver provato ad usarlo attraverso il WEB, sul sito NCBI.

2 BIOINFO3 - Lezione 362 BLAST Supponiamo che sulla macchina UNIX (LINUX) in cui stiamo lavorando sia già stata installata la versione eseguibile da linea di comando del BLAST. Se foste comunque interessati ad installare lultima versione sul vostro computer, potete sempre scaricarla dal sito http://www.ncbi.nlm.nih.gov/BLAST/. Sul sito trovate anche tutte le istruzioni necessarie per linstallazione. Il programma eseguibile che effettua la ricerca di BLAST si chiama blastall e dovrebbe essere installato in una directory presente nel PATH in modo che da qualunque directory il programma sia eseguibile semplicemente scrivendo blastall e non tutto il path completo della directory in cui è stato effettivamente installato. Proviamo a chiedere dove è installato blastall

3 BIOINFO3 - Lezione 363 REQUISITI DI BLAST Blastall ha bisogno di almeno due parametri: la sequenza query e il database di sequenze, in cui cercare le sequenze più simili alla query. Per effettuare molto velocemente le ricerche, il programma BLAST non le effettua sul DB originale in formato FASTA, ma in una sua versione binaria, preventivamente ottenuta attraverso il programma formatdb (ovviamente fornito anchesso nel pacchetto di installazione di BLAST). formatdb DB di sequenze in formato FASTA blastall Pre-elaborazione sequenza query DB di sequenze in formato binario Risultato di BLAST

4 BIOINFO3 - Lezione 364 FORMATDB Per vedere cosè e come funziona il programma formatdb, quali parametri richiede, ecc. chiediamone la pagina di manuale UNIX relativa, con il comando man formatdb

5 BIOINFO3 - Lezione 365 FORMATDB Tipicamente (se il database è un file di sequenze in formato FASTA) i parametri che si usano con formatdb sono: -i filename -p F Il primo è il nome del file di sequenze da formattare ed il secondo è necessario solo se le sequenze del DB sono nucleotidiche

6 BIOINFO3 - Lezione 366 FORMATDB Proviamo a creare la versione binaria del nostro database (flat-file) di EST Notare il file di log creato (formatdb.log) Notare i file binari creati (.nhr,.nin,.nsq)

7 BIOINFO3 - Lezione 367 BLASTALL E importante che lutente che eseguirà il blast abbia il diritto di leggere i file binari. Se vogliamo eseguire il blast attraverso un programma cgi, e quindi dallutente con cui gira il server web httpd, dovremo esser sicuri che tale utente possa leggere i file. Se comunque anche la creazione dei file binari con il formatdb avviene attraverso un programma cgi e quindi è effettuata sempre dallutente con cui gira httpd, non dovrebbero esserci problemi, sempre che tale utente abbia il permesso di scrivere nella directory. Proviamo a scoprire qualcosa di più su blastall:

8 BIOINFO3 - Lezione 368 BLASTALL E ovviamente anche con man blastall

9 BIOINFO3 - Lezione 369 BLASTALL Anche in questo caso unesecuzione tipica richiede pochi parametri: -p versione-specifica-di-blast -d database -i query La versione specifica di blast da usare (blastn, blastp, blastx,…) dipende dalla nature della sequenza query e delle sequenze del database formattato. Il database sarà il nome originale del database di sequenze in formato FASTA, che dovrà essere stato preventivamente formattato Query è il nome del file contenente la sequenza query Blastall restituisce il risultato della sua elaborazione sullo standard output. Per ottenerlo in un file sarà sufficiente redirezionare lo standard output con il simbolo di > oppure con l`opzione -o

10 BIOINFO3 - Lezione 3610 BLASTALL Supponiamo di aver creato in /local/wwwstud/cgi-bin/bioinfo3-64 un file fasta, chiamato seq, contenente una sequenza query. Tale sequenza potrebbe ad esempio essere stata ricevuta via web: lutente ha immesso nella form tale sequenza desiderando verificarne le similarità contro il nostro database. Proviamo per curiosità a lanciare il blastall di tale sequenza contro un database non formattato (EST.fas anziché EST-ginseng.fas) Il programma si accorge che il database non è formattato!

11 BIOINFO3 - Lezione 3611 BLASTALL Proviamo invece a vedere il risultato di un blast correttamente eseguito sul database formattato di sequenze

12 BIOINFO3 - Lezione 3612 AUTOMATIZZAZIONE DEL BLAST Programma che riceve come argomento una sequenza nucleotidica ed effettua il blast contro il database di EST

13 BIOINFO3 - Lezione 3613 ESECUZIONE

14 BIOINFO3 - Lezione 3614 ESECUZIONE

15 BIOINFO3 - Lezione 3615 ESECUZIONE Una volta terminata lesecuzione del programma proviamo anche a verificare il file temp creato dal programma stesso. Per poter creare tale file lutente che esegue il programma deve poter scrivere nella directory (notare come siano perciò stati settati a 777 i diritti per il file., cioè per la directory corrente. Eventualmente, una volta eseguito il blast, il programma potrebbe anche rimuovere il file temp, di cui non ci sarà più bisogno.

16 BIOINFO3 - Lezione 3616 RIEPILOGO Ricerca di similarità tra sequenze Il BLAST da linea di comando FormatDB Blastall Esecuzione da programma


Scaricare ppt "BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze."

Presentazioni simili


Annunci Google