BANCHE DATI DI SEQUENZE GENOMICHE GenBank deriva dalla collaborazione di diversi database di sequenze tra cui EMBL e DDBJ.

Slides:



Advertisements
Presentazioni simili
Malattie genetiche monogeniche
Advertisements

Equazioni e calcoli chimici
Allineamento Pairwise e Multiplo di Bio-Sequenze.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
GENI HOX Solo in questi ultimissimi anni le indagini filogenetiche molecolari hanno avuto come oggetto i geni Hox. Questi ultimi, presenti in tutti i Metazoi,
Sequenza-struttura-funzione
gruppi di amminoacidi in base alle catene laterali
RICERCA DI SIMILARITA’ IN BANCHE DATI
Allineamento di sequenze
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Esercizio 1 Un condensatore piano di area A=40 cm2 e distanza tra i piatti d=0.1 mm, e` stato caricato collegandolo temporaneamente ad un generatore di.
Lez. 3 - Gli Indici di VARIABILITA’
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.
Iterazione enumerativa (for)
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Progetto di statistica “SIAMO TUTTI STATISTICI”
COMPRESENZA LINGUAGGI NON VERBALI - PSICOLOGIA
Ricerca della Legge di Controllo
Algoritmi e Strutture Dati
Metodi basati sulle similitudini per dedurre la funzione di un gene
1) Algoritmi di allineamento 2) Algoritmi di ricerca in database
Corso di Laurea in Ingegneria per lAmbiente e il Territorio Informatica per lAmbiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.
Intelligenza Artificiale Algoritmi Genetici
Lezione 13 Equazione di Klein-Gordon Equazione di Dirac (prima parte)
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
ALLINEAMENTI GLOBALI E LOCALI
FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)
Elementi di Informatica di base
I principali tipi di grafici
Passo 3: calcolo del costo minimo
SIMILARITA’ ? OMOLOGIA
Informatica e Bioinformatica – A. A
Introduzione alla Regressione Lineare e alla Correlazione.
Ricerca di similarità di sequenza (FASTA e BLAST)
Tipi di allineamenti.
I programmi di ricerca in banche dati possono essere
Alcuni esempi di domande di esame
Tutorial per l’utilizzo di k ScanProsite
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Dip. Scienze Biomolecolari e Biotecnologie
Gli indici di dispersione
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
Purtroppo non esiste un modo univoco per indicare un gene
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
III LEZIONE Allineamento di sequenze
WORKING WITH BIOSEQUENCES Alignments and similarity search.
La parola “Bioinformatica”
Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
ALLINEAMENTO DI SEQUENZE
Problemi risolvibili con la programmazione dinamica Abbiamo usato la programmazione dinamica per risolvere due problemi. Cerchiamo ora di capire quali.
Cloud Tecno V. Percorso didattico per l’apprendimento di Microsoft Access 4 - Le maschere.
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
La Fabbrica delle Proteine
Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Classe II a.s. 2010/2011 Prof.ssa Rita Schettino
Transcript della presentazione:

BANCHE DATI DI SEQUENZE GENOMICHE GenBank deriva dalla collaborazione di diversi database di sequenze tra cui EMBL e DDBJ

What is GenBank? GenBank® is the NIH genetic sequence database, an annotated collection of all publicly available DNA sequences (Nucleic Acids Research 2002 Jan 1;30(1):17-20). There are approximately 22,617,000,000 bases in 18,197,000 sequence records as of August 2002 (see GenBank growth statistics). As an example, you may view the record for a Saccharomyces cerevisiae gene. The complete release notes for the current version of GenBank are available. A new release is made every two months. GenBank is part of the International Nucleotide Sequence Database Collaboration, which comprises the DNA DataBank of Japan (DDBJ), the European Molecular Biology Laboratory (EMBL), and GenBank at NCBI. These three organizations exchange data on a daily basis. Genetic Sequence Data Bank February 15 2003 NCBI-GenBank Flat File Release 134.00: 23035823 loci, 29358082791 bases, from 23035823 reported sequences

BANCHE DATI DI SEQUENZE PROTEICHE SWISS-PROT TrEMBL The TrEMBL database contains the translations of all coding sequences (CDS) present in the EMBL Nucleotide Sequence Database, which are not yet integrated into Swiss-Prot. SP-TrEMBL (Swiss-Prot TrEMBL) Contains the entries which should eventually be incorporated into Swiss-Prot and can be considered as a preliminary section of Swiss-Prot as all SP-TrEMBL entries have been assigned Swiss-Prot accession numbers. REM-TrEMBL (REMaining TrEMBL) Contains the entries that we do not want to include in Swiss-Prot. REM-TrEMBL entries have no accession numbers. Swiss-Prot is a curated protein sequence database which strives to provide a high level of annotations (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases

Release 41.0 of 05-Mar-2003 of Swiss-Prot contains 122564 sequence entries, comprising 44986459 amino acids abstracted from 103486 references. 21133 sequences have been added since release 40, the sequence data of 3251 existing entries has been updated and the annotations of 57525 entries have been revised. This represents an increase of 20%. The growth of the database is summarized below.

Taxonomic distribution of the sequences Kingdom sequences (% of the database) Archaea 7119 ( 6%) Bacteria 46344 ( 38%) Eukaryota 60623 ( 49%) Viruses 8478 ( 7%) Within Eukaryota: Category sequences (% of Eukaryota) (% of the complete database) Human 9172 ( 15%) ( 7%) Other Mammalia 16041 ( 26%) ( 13%) Other Vertebrata 5806 ( 10%) ( 5%) Viridiplantae 9581 ( 16%) ( 8%) Fungi 9337 ( 15%) ( 8%) Insecta 3352 ( 6%) ( 3%) Nematoda 2504 ( 4%) ( 2%) Other 4830 ( 8%) ( 4%)

INTRODUZIONE RICERCA TESTUALE SIMILARITA’ DATABASE DI SEQUENZE RICERCA TESTUALE SIMILARITA’ Ricerca dei record i cui campi soddisfano determinati criteri (hanno certi valori) Ricerca dei record che hanno le sequenze più “simili” ad una sequenza fornita come query

RICERCA PER SIMILARITA’ La ricerca per similarità di una sequenza contro un database di sequenze richiede che sia possibile valutare la similarità della sequenza query contro ciascuna delle sequenza del database. Quindi il problema da risolvere è quello della ricerca delle similarità tra due sequenze DATABASE DI SEQUENZE SEQUENZA QUERY

PERCHE’ CERCARE SEQUENZE SIMILI? Quando si ottiene (in qualche modo) una sequenza di DNA o Aminoacidi si è interessati a capire cos’è quella sequenza (è già nota?) e a scoprire la sua funzione. Potrebbe anche capitare che la sequenza stessa sia presente nei database e già annotata (descritta la sua funzione)... Nel caso invece non si trovasse nei database esattamente la stessa sequenza, un modo semplice di ipotizzare (è comunque una predizione, che dovrà poi essere confermata sperimentalmente) la funzione della mia sequenza query è quello di cercare sequenze simili che invece siano già state annotate. In base al grado di similarità trovato diventa possibile fare delle ipotesi più o meno probabili sulla funzione della sequenza query semplicemente “trasferendo” ad essa la funzione delle sequenze target simili ad essa identificate .

QUANDO INFERIRE LA FUNZIONE Se le sequenze di due proteine (DNA) sono molto simili allora lo saranno anche le strutture e le funzioni Non vale il viceversa! (Funzioni e strutture simili non implicano sequenze simili) Ci possono essere proteine con la stessa funzione, ma con struttura e soprattutto sequenza diversa. Es. mutazioni silenti, che interessano la terza base di un codone. L’aminoacido rimane lo stesso ma è cambiato il DNA! SEQUENZA SIMILE STRUTTURA SIMILE FUNZIONE SIMILE

SIMILARITA’ E OMOLOGIA Spesso si fa confusione tra similarità ed omologia! La similarità è un aspetto quantitativo che indica (fissato un criterio comparativo, % identità, % mutazioni conservative...) un livello di somiglianza tra le sequenze. L’omologia è un aspetto qualitativo che riguarda più propriamente la “funzione” delle sequenze ed indica un’origine filogenetica comune

Proteine omologhe: proteine che si sono evolute da un comune ancestore, nell’evoluzione la similarità di sequenza è meno preservata rispetto alla struttura terziaria Si possono avere proteine omologhe con un’identità di sequenza fino al 20% Come è possibile ciò? La maggior parte delle mutazioni avviene sulla superficie della proteina mentre gli amminoacidi del core sono maggiormente conservati in modo da consentire il medesimo folding alle proteine.

EVOLUZIONE DEI GENOMI Vari sono i meccanismi responsabili della variabilità genetica che oggi possiamo osservare: Mutazioni puntiformi Delezioni Inserzioni Inversioni

MUTAZIONI

DELEZIONI

INSERZIONI

INVERSIONI

GAP La possibilità di inserire dei gap nelle sequenze da allineare è una esigenza irrinunciabile negli allineamenti delle sequenze biologiche. Nel corso dell’evoluzione a livello molecolare, oltre che mutazioni, è infatti frequente avere anche delle inserzioni e/o delezioni di parti di sequenza e ciò comporta una differente lunghezza di sequenze omologhe di DNA o proteine. Gli algoritmi di allineamento esatto (trovano sempre il miglior allinemanto possibile).

Significato dell’allineamento L’allineamento tra due sequenze biologiche è utile per scoprire informazione funzionale, strutturale ed evolutiva

Cosa vuol dire allineare due sequenze? scrivere due sequenze orizzontalmente in modo da avere il maggior numero di simboli identici o simili in registro verticale anche introducendo intervalli (gaps – inserzioni/delezioni – indels)

Metodi di allineamento Analisi della matrice a punti (dot matrix) programmazione dinamica (dynamic programming) metodo delle n-ple (Fasta, Blast)

Metodo della matrice a punti proposto da Gibbs and McIntyre (1970) consente di evidenziare ripetizioni dirette o inverse nelle sequenze prevedere regioni complementari nell’RNA che possano potenzialmente formare strutture secondarie

DOT MATRIX Il primo semplice sistema di visualizzazione di allineamenti (1970). Le due sequenze da confrontare sono ai margini di una matrice. Se le due lettere corrispondenti ad una casella sono uguali allora la casella viene colorata di nero ed apparirà come un punto (dot) all’interno della matrice. Gli allineamenti di una certa lunghezza appaiono come segmenti diagonali e saranno immediatamente distinguibili visivamente. I gap appaiono come salti in diagonale. Le sequenze ripetute appaiono come segmenti diagonali paralleli.

Metodo della matrice a punti il maggiore vantaggio di questa tecnica consiste nel dare tutte le possibili corrispondenze di simboli tra due sequenze

MASCHERAMENTO REPEAT Le sequenze ripetute (a bassa complessità) “disturbano” molto il processo di ricerca di similarità. Esse danno infatti luogo a moltissimi match tra di esse, visto che nei genomi le sequenze ripetute occupano una grandissima percentuale. In genere nei programmi per la ricerca di similarità in database viene effettuato un mascheramento delle regioni ripetute (low complexity regions) proprio per evitare che la presenza di eventuali repeat nella query catturi come prime hit più simili tutte le sequenze ripetute simili ad essa contenute nei database

LE MATRICI DI SOSTITUZIONE Nel caso dell’allineamento di aminoacidi è opportuno applicare dei criteri di similarità che non si limitino a verificare l’identità assoluta ma tengano conto del fatto che gli aminoacidi possano essere più o meno simili tra loro. Aminoacidi molto simili possono essere indifferentemente sostituiti in una proteina senza alcuna variazione apprezzabile nella struttura della proteina. Per esempio acido aspartico (D) e acido glutammico (E) sono molto simili e molto spesso nel corso dell’evoluzione prendono il posto l’uno dell’altro nelle proteine. Al contrario acido aspartico (D) e triptofano (W) sono molto diversi e non sono assolutamente interscambiabili. E’ quindi ragionevole valutare differentemente la sostituzione (in generale il confronto) di D con E e di D con W. Ciò viene descritto in matrici quadrate di 20*20 caselle in cui si attribuisce un punteggio ad ogni possibile coppia di aminoacidi. Quanto più alto è il punteggio tanto più interscambiabili sono gli aminoacidi. Punteggi negativi penalizzano invece aminoacidi molto differenti

metodi per la valutazione del punteggio proposta: gli allineamenti e il calcolo della similarità potrebbero essere notevolmente migliorati dall’introduzione di schemi di punteggio diversi da 0 e da 1 per l’appaiamento di residui amminoacidici si potrebbero per esempio prevedere punteggi alti per l’identità tra coppie di residui, punteggi un po’ più bassi ma >0 per residui simili dal punto di vista chimico-fisico punteggi invece negativi (o uguali a 0) per residui diversi o molto diversi dal punto di vista chimico-fisico

MATRICE DI SOSTITUZIONE metodi per la valutazione del punteggio sarebbe quindi utile definire una MATRICE DI SOSTITUZIONE ovvero una tabella che associ un valore ad ogni coppia di residui ci sono 20 residui nelle proteine biologiche, per cui una matrice di sostituzione è una matrice quadrata di 20x20 = 400 valori

esempio di matrice di sostituzione

ATTENZIONE non bisogna confondere le matrici di punti con le matrici di sostituzione! le matrici di punti sono grafici che consentono di mettere in evidenza zone di identità tra sequenze diverse. Se una sequenza è lunga m caratteri e l’altra sequenza è lunga n caratteri, la matrice di punti sarà rettangolare e di dimensione mxn le matrici di sostituzione associano un punteggio ad ogni coppia di residui, sono matrici quadrate e simmetriche, che contengono 20x20= 400 valori, parzialmente ridondanti (il valore relativo alla coppia RK è uguale a quello della coppia KR)

ma come si calcolano i valori di una matrice di sostituzione? le matrici di sostituzione ma come si calcolano i valori di una matrice di sostituzione?

le matrici di sostituzione Margaret Dayhoff raccolse statistiche sulle frequenze di sostituzioni amminoacidiche nelle sequenze proteiche allora note via via che le sequenze divergono, le mutazioni si accumulano per misurare la probabilità relativa di una particolare sostituzione (per esempio Asp--> Glu) possiamo contare quanti Asp sono diventati Glu in allineamenti di sequenze omologhe

Calcolo di matrici PAM Basato su 1572 mutazioni in 71 gruppi di sequenze simili almeno all’85% Le mutazioni non alterano significativamente la funzione delle proteine (mutazioni accettate) Le sequenze simili vengono organizzate in alberi filogenetici dai quali vengono desunte le mutazioni

Percent Accepted Mutation Le matrici PAM furono proposte da Margaret Dayhoff e collaboratori nel 1978 sulla base di uno studio di filogenesi molecolare compiuto su 71 famiglie di proteine. Essi calcolarono la frequenza con cui ciascun aminoacido poteva subire un evento di sostituzione in ciascuno degli altri 20 (quasi sicuramente rimaneva se stesso!) ipotizzando una sostituzione ogni 100 aminoacidi PAM 1 (considerando le frequenze anzichè i punteggi); In realtà poi si applica una formula logaritmica per ottenere valori positivi e negativi

1 PAM = 1 Percent Accepted Mutation le matrici di sostituzione è comunque necessario evitare di considerare allineamenti in cui possano essere avvenuti sostituzioni multiple in determinate posizioni per cui questi calcoli devono venire effettuati su coppie di sequenze MOLTO SIMILI tra loro, in modo da poter assumere che nessuna posizione è mutata più di una volta la divergenza di due sequenze si può misurare in PAM: 1 PAM = 1 Percent Accepted Mutation

le matrici di sostituzione due sequenze sono separate da 1 PAM se hanno il 99% di identità cioè per convertire l’una nell’altra c’è stata in media una mutazione accettata ogni 100 aa. la frequenza delle sostituzioni amminoacidiche può essere calcolata in coppie di sequenze poco divergenti (1 PAM) frequenze di sostituzioni amminoacidiche per sequenze più divergenti possono essere calcolate a partire da queste, moltiplicando le matrici di sostituzione 1 PAM per se stesse, fino ad ottenere matrici PAM 250, corrispondenti a similarità di sequenza del 20%

le matrici di sostituzione - la PAM250

matrici di sostituzione PAM 0 30 80 110 200 250 % identità 100 75 60 50 25 20 vediamo ora due tra le più usate matrici di sostituzione di tipo PAM: la PAM120 e la PAM250, che si utilizzano per ottimizzare allineamenti tra sequenze che abbiano circa il 50% o il 20% di identità di sequenza

Specie A A W T V A A A V R T S I Specie B A Y T V A A A V R T S I Specie C A W T V A A A V L T S I C A B W Y L R

PAM 250 Valorizza molto le sostituzioni conservative. La PAM 250 si usa quando si confrontano sequenze distanti filogeneticamente (es. uomo e lievito)

PAM PAM1 (con i punteggi e non con le frequenze) è molto simile alla matrice Identità (valori quasi sempre 1 sulla diagonale e 0 altrove) PAM2 è calcolata da PAM1 ipotizzando un altro passo evolutivo e così via... PAMn è ottenuta da PAMn-1 PAM100 quindi rappresenta 100 passi evolutivi in ciascuno dei quali si è avuto un 1% di sostituzioni rispetto al passo precedente. sequenze vicine filogeneticamente sequenze lontane filogeneticamente PAM1 PAM100 PAM250

BLOSUM Introdotte da Henikoff & Henikoff nel 1992. A differenza delle PAM generate iterativamente, queste sono invece basate su una banca dati (BLOCKS) di allineamenti multipli di segmenti proteici senza GAP. Il numero associato alle matrici rappresenta la percentuale di aminoacidi identici in un certo blocco sequenze lontane filogeneticamente sequenze vicine filogeneticamente BLOSUM35 BLOSUM62

Matrice BLOSUM (Henikoff & Henikoff, 1992) Blocks Amino Acid Substitution Matrices = BLOSUM Basata sulle sostituzioni amminoacidiche osservate in ~2000 blocchi conservati di sequenze. Questi blocchi sono stati estratti da una banca dati di 500 famiglie di proteine Si calcolano la frequenza delle sostituzioni tra due aa normalizzate per la frequenza degli aa nell’allineamento

Calcolo di matrice BLOSUM Per bilanciare il sovracampionamento di residui provenienti da sequenze molto simili, le sequenze più simili di una certa soglia (per esempio 60% identità) sono raggruppate e gli scambi amminoacidici interni al gruppo vengono mediati. La matrice risultante si chiama BLOSUM60 La matrice più utilizzata è la BLOSUM62

BLOSUM62 In genere si ritengono le matrici BLOSUM più adatte per effettuare ricerche di similarità di sequenza, anche se i risultati ottenuti poi sono sostanzialmente gli stessi. BLOSUM62 è la matrice impostata di default nei programmi di ricerca di similarità E’ importante però sempre scegliere la matrice (l’indice) più adatta in base alla distanza filogenetica tra le sequenze da confrontare. Per sequenze vicine (organismi vicini) una PAM con indice basso o BLOSUM con indice alto. Per sequenze distanti PAM con indice alto e BLOSUM con indice basso

RICERCA DELLE SIMILARITA’ TRA 2 SEQUENZE Per determinare la similarità tra due sequenze è necessario considerare due aspetti: 1- ALGORITMO DI ALLINEAMENTO 2- CRITERIO DI SIMILARITA’

ALGORITMO BANALE algoritmo di scorrimento: si fa scorrere una sequenza sull’altra contando le identità tra le due sequenze 30 confronti (6x5) 1+2+3+4.... 4 identità: allineamento ottimo

CRITERIO DI SIMILARITA’ Se non consideriamo l’inserimento dei gap, due sequenze (lunghe n e m) possono essere allineate (algoritmo di scorrimento) in n+m-1 modi diversi e per ciascuno di questi modi si può calcolare un punteggio. Il punteggio di ciascuno degli allineamenti può essere calcolato come somma dei punteggi (score) degli appaiamenti di ciascuna coppia corrispondente di lettere. Le coppie possibili (e quindi il numero di operazioni da effetuare) sono n x m. La funzione di score di un appaiamento tra due lettere può essere banale (1 se le lettere sono uguali, 0 se diverse) oppure può essere definita da una matrice di sostituzione (es. PAM e BLOSUM) Infine, come valore di similarità delle due sequenze, si può prendere il massimo dei punteggi tra tutti i possibili allineamenti e il corrispondente allineamento rappresenta l’allineamento ottimo (con quella funzione di score)

4 AAKKQW AAKQW AAKKQW AAKQW allineamento punteggio allineamento AA + KA + KK + QQ + WW = 2 - 1 + 5 + 4 + 17 = 27 punteggio