La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

BANCHE DATI DI SEQUENZE GENOMICHE GenBank deriva dalla collaborazione di diversi database di sequenze tra cui EMBL e DDBJ.

Presentazioni simili


Presentazione sul tema: "BANCHE DATI DI SEQUENZE GENOMICHE GenBank deriva dalla collaborazione di diversi database di sequenze tra cui EMBL e DDBJ."— Transcript della presentazione:

1

2

3

4

5 BANCHE DATI DI SEQUENZE GENOMICHE GenBank deriva dalla collaborazione di diversi database di sequenze tra cui EMBL e DDBJ

6 Genetic Sequence Data Bank February NCBI-GenBank Flat File Release : loci, bases, from reported sequences What is GenBank? GenBank® is the NIH genetic sequence database, an annotated collection of all publicly available DNA sequences (Nucleic Acids Research 2002 Jan 1;30(1):17-20). There are approximately 22,617,000,000 bases in 18,197,000 sequence records as of August 2002 (see GenBank growth statistics). As an example, you may view the record for a Saccharomyces cerevisiae gene. The complete release notes for the current version of GenBank are available. A new release is made every two months. GenBank is part of the International Nucleotide Sequence Database Collaboration, which comprises the DNA DataBank of Japan (DDBJ), the European Molecular Biology Laboratory (EMBL), and GenBank at NCBI. These three organizations exchange data on a daily basis.

7

8 The TrEMBL database contains the translations of all coding sequences (CDS) present in the EMBL Nucleotide Sequence Database, which are not yet integrated into Swiss-Prot. SP-TrEMBL (Swiss-Prot TrEMBL) Contains the entries which should eventually be incorporated into Swiss- Prot and can be considered as a preliminary section of Swiss-Prot as all SP-TrEMBL entries have been assigned Swiss-Prot accession numbers. REM-TrEMBL (REMaining TrEMBL) Contains the entries that we do not want to include in Swiss-Prot. REM-TrEMBL entries have no accession numbers. Swiss-Prot is a curated protein sequence database which strives to provide a high level of annotations (such as the description of the function of a protein, its domains structure, post- translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases BANCHE DATI DI SEQUENZE PROTEICHE SWISS-PROTTrEMBL

9

10 Release 41.0 of 05-Mar-2003 of Swiss-Prot contains sequence entries, comprising amino acids abstracted from references sequences have been added since release 40, the sequence data of 3251 existing entries has been updated and the annotations of entries have been revised. This represents an increase of 20%. The growth of the database is summarized below.

11 Taxonomic distribution of the sequences Kingdom sequences (% of the database) Archaea 7119 ( 6%) Bacteria ( 38%) Eukaryota ( 49%) Viruses 8478 ( 7%) Within Eukaryota: Category sequences (% of Eukaryota) (% of the complete database) Human 9172 ( 15%) ( 7%) Other Mammalia ( 26%) ( 13%) Other Vertebrata 5806 ( 10%) ( 5%) Viridiplantae 9581 ( 16%) ( 8%) Fungi 9337 ( 15%) ( 8%) Insecta 3352 ( 6%) ( 3%) Nematoda 2504 ( 4%) ( 2%) Other 4830 ( 8%) ( 4%)

12 INTRODUZIONE DATABASE DI SEQUENZE RICERCA TESTUALE SIMILARITA Ricerca dei record che hanno le sequenze più simili ad una sequenza fornita come query Ricerca dei record i cui campi soddisfano determinati criteri (hanno certi valori)

13 RICERCA PER SIMILARITA RICERCA PER SIMILARITA La ricerca per similarità di una sequenza contro un database di sequenze richiede che sia possibile valutare la similarità della sequenza query contro ciascuna delle sequenza del database. Quindi il problema da risolvere è quello della ricerca delle similarità tra due sequenze DATABASE DI SEQUENZE SEQUENZA QUERY

14 PERCHE CERCARE SEQUENZE SIMILI? Quando si ottiene (in qualche modo) una sequenza di DNA o Aminoacidi si è interessati a capire cosè quella sequenza (è già nota?) e a scoprire la sua funzione. Potrebbe anche capitare che la sequenza stessa sia presente nei database e già annotata (descritta la sua funzione)... Nel caso invece non si trovasse nei database esattamente la stessa sequenza, un modo semplice di ipotizzare (è comunque una predizione, che dovrà poi essere confermata sperimentalmente) la funzione della mia sequenza query è quello di cercare sequenze simili che invece siano già state annotate. In base al grado di similarità trovato diventa possibile fare delle ipotesi più o meno probabili sulla funzione della sequenza query semplicemente trasferendo ad essa la funzione delle sequenze target simili ad essa identificate.

15 QUANDO INFERIRE LA FUNZIONE Se le sequenze di due proteine (DNA) sono molto simili allora lo saranno anche le strutture e le funzioni Non vale il viceversa! (Funzioni e strutture simili non implicano sequenze simili) Ci possono essere proteine con la stessa funzione, ma con struttura e soprattutto sequenza diversa. Es. mutazioni silenti, che interessano la terza base di un codone. Laminoacido rimane lo stesso ma è cambiato il DNA! SEQUENZA SIMILE STRUTTURA SIMILE FUNZIONE SIMILE

16 SIMILARITA E OMOLOGIA Spesso si fa confusione tra similarità ed omologia! La similarità è un aspetto quantitativo che indica (fissato un criterio comparativo, % identità, % mutazioni conservative...) un livello di somiglianza tra le sequenze. Lomologia è un aspetto qualitativo che riguarda più propriamente la funzione delle sequenze ed indica unorigine filogenetica comune

17 Proteine omologhe: proteine che si sono evolute da un comune ancestore, nellevoluzione la similarità di sequenza è meno preservata rispetto alla struttura terziaria Si possono avere proteine omologhe con unidentità di sequenza fino al 20% Come è possibile ciò? La maggior parte delle mutazioni avviene sulla superficie della proteina mentre gli amminoacidi del core sono maggiormente conservati in modo da consentire il medesimo folding alle proteine.

18 EVOLUZIONE DEI GENOMI Vari sono i meccanismi responsabili della variabilità genetica che oggi possiamo osservare: Mutazioni puntiformi Delezioni Inserzioni Inversioni

19 MUTAZIONI

20 DELEZIONI

21 INSERZIONI

22 INVERSIONI

23 GAP La possibilità di inserire dei gap nelle sequenze da allineare è una esigenza irrinunciabile negli allineamenti delle sequenze biologiche. Nel corso dellevoluzione a livello molecolare, oltre che mutazioni, è infatti frequente avere anche delle inserzioni e/o delezioni di parti di sequenza e ciò comporta una differente lunghezza di sequenze omologhe di DNA o proteine. Gli algoritmi di allineamento esatto (trovano sempre il miglior allinemanto possibile).

24 Significato dellallineamento Lallineamento tra due sequenze biologiche è utile per scoprire informazione funzionale, strutturale ed evolutiva

25 Cosa vuol dire allineare due sequenze? scrivere due sequenze orizzontalmente in modo da avere il maggior numero di simboli identici o simili in registro verticale anche introducendo intervalli (gaps – inserzioni/delezioni – indels)

26 Metodi di allineamento Analisi della matrice a punti (dot matrix) programmazione dinamica (dynamic programming) metodo delle n-ple (Fasta, Blast)

27 Metodo della matrice a punti proposto da Gibbs and McIntyre (1970) consente di evidenziare ripetizioni dirette o inverse nelle sequenze prevedere regioni complementari nellRNA che possano potenzialmente formare strutture secondarie

28 DOT MATRIX Il primo semplice sistema di visualizzazione di allineamenti (1970). Le due sequenze da confrontare sono ai margini di una matrice. Se le due lettere corrispondenti ad una casella sono uguali allora la casella viene colorata di nero ed apparirà come un punto (dot) allinterno della matrice. Gli allineamenti di una certa lunghezza appaiono come segmenti diagonali e saranno immediatamente distinguibili visivamente. I gap appaiono come salti in diagonale. Le sequenze ripetute appaiono come segmenti diagonali paralleli.

29 Metodo della matrice a punti il maggiore vantaggio di questa tecnica consiste nel dare tutte le possibili corrispondenze di simboli tra due sequenze

30

31 MASCHERAMENTO REPEAT Le sequenze ripetute (a bassa complessità) disturbano molto il processo di ricerca di similarità. Esse danno infatti luogo a moltissimi match tra di esse, visto che nei genomi le sequenze ripetute occupano una grandissima percentuale. In genere nei programmi per la ricerca di similarità in database viene effettuato un mascheramento delle regioni ripetute (low complexity regions) proprio per evitare che la presenza di eventuali repeat nella query catturi come prime hit più simili tutte le sequenze ripetute simili ad essa contenute nei database

32 LE MATRICI DI SOSTITUZIONE Nel caso dellallineamento di aminoacidi è opportuno applicare dei criteri di similarità che non si limitino a verificare lidentità assoluta ma tengano conto del fatto che gli aminoacidi possano essere più o meno simili tra loro. Aminoacidi molto simili possono essere indifferentemente sostituiti in una proteina senza alcuna variazione apprezzabile nella struttura della proteina. Per esempio acido aspartico (D) e acido glutammico (E) sono molto simili e molto spesso nel corso dellevoluzione prendono il posto luno dellaltro nelle proteine. Al contrario acido aspartico (D) e triptofano (W) sono molto diversi e non sono assolutamente interscambiabili. E quindi ragionevole valutare differentemente la sostituzione (in generale il confronto) di D con E e di D con W. Ciò viene descritto in matrici quadrate di 20*20 caselle in cui si attribuisce un punteggio ad ogni possibile coppia di aminoacidi. Quanto più alto è il punteggio tanto più interscambiabili sono gli aminoacidi. Punteggi negativi penalizzano invece aminoacidi molto differenti

33 metodi per la valutazione del punteggio proposta: gli allineamenti e il calcolo della similarità potrebbero essere notevolmente migliorati dallintroduzione di schemi di punteggio diversi da 0 e da 1 per lappaiamento di residui amminoacidici si potrebbero per esempio prevedere punteggi alti per lidentità tra coppie di residui, punteggi un po più bassi ma >0 per residui simili dal punto di vista chimico-fisico punteggi invece negativi (o uguali a 0) per residui diversi o molto diversi dal punto di vista chimico-fisico

34 metodi per la valutazione del punteggio sarebbe quindi utile definire una MATRICE DI SOSTITUZIONE ovvero una tabella che associ un valore ad ogni coppia di residui ci sono 20 residui nelle proteine biologiche, per cui una matrice di sostituzione è una matrice quadrata di 20x20 = 400 valori

35 esempio di matrice di sostituzione

36 ATTENZIONE non bisogna confondere le matrici di punti con le matrici di sostituzione! le matrici di punti sono grafici che consentono di mettere in evidenza zone di identità tra sequenze diverse. Se una sequenza è lunga m caratteri e laltra sequenza è lunga n caratteri, la matrice di punti sarà rettangolare e di dimensione mxn le matrici di sostituzione associano un punteggio ad ogni coppia di residui, sono matrici quadrate e simmetriche, che contengono 20x20= 400 valori, parzialmente ridondanti (il valore relativo alla coppia RK è uguale a quello della coppia KR)

37 le matrici di sostituzione ma come si calcolano i valori di una matrice di sostituzione?

38 le matrici di sostituzione Margaret Dayhoff raccolse statistiche sulle frequenze di sostituzioni amminoacidiche nelle sequenze proteiche allora note via via che le sequenze divergono, le mutazioni si accumulano per misurare la probabilità relativa di una particolare sostituzione (per esempio Asp--> Glu) possiamo contare quanti Asp sono diventati Glu in allineamenti di sequenze omologhe

39 Calcolo di matrici PAM Basato su 1572 mutazioni in 71 gruppi di sequenze simili almeno all85% Le mutazioni non alterano significativamente la funzione delle proteine (mutazioni accettate) Le sequenze simili vengono organizzate in alberi filogenetici dai quali vengono desunte le mutazioni

40 Percent Accepted Mutation Le matrici PAM furono proposte da Margaret Dayhoff e collaboratori nel 1978 sulla base di uno studio di filogenesi molecolare compiuto su 71 famiglie di proteine. Essi calcolarono la frequenza con cui ciascun aminoacido poteva subire un evento di sostituzione in ciascuno degli altri 20 (quasi sicuramente rimaneva se stesso!) ipotizzando una sostituzione ogni 100 aminoacidi PAM 1 (considerando le frequenze anzichè i punteggi); In realtà poi si applica una formula logaritmica per ottenere valori positivi e negativi

41 le matrici di sostituzione è comunque necessario evitare di considerare allineamenti in cui possano essere avvenuti sostituzioni multiple in determinate posizioni per cui questi calcoli devono venire effettuati su coppie di sequenze MOLTO SIMILI tra loro, in modo da poter assumere che nessuna posizione è mutata più di una volta la divergenza di due sequenze si può misurare in PAM: 1 PAM = 1 Percent Accepted Mutation

42 le matrici di sostituzione due sequenze sono separate da 1 PAM se hanno il 99% di identità cioè per convertire luna nellaltra cè stata in media una mutazione accettata ogni 100 aa. la frequenza delle sostituzioni amminoacidiche può essere calcolata in coppie di sequenze poco divergenti (1 PAM) frequenze di sostituzioni amminoacidiche per sequenze più divergenti possono essere calcolate a partire da queste, moltiplicando le matrici di sostituzione 1 PAM per se stesse, fino ad ottenere matrici PAM 250, corrispondenti a similarità di sequenza del 20%

43 le matrici di sostituzione - la PAM250

44 matrici di sostituzione vediamo ora due tra le più usate matrici di sostituzione di tipo PAM: la PAM120 e la PAM250, che si utilizzano per ottimizzare allineamenti tra sequenze che abbiano circa il 50% o il 20% di identità di sequenza PAM % identità

45 Specie A A W T V A A A V R T S I Specie B A Y T V A A A V R T S I Specie C A W T V A A A V L T S I A B C L R W Y

46 PAM 250 Valorizza molto le sostituzioni conservative. La PAM 250 si usa quando si confrontano sequenze distanti filogeneticamente (es. uomo e lievito)

47 PAM PAM1 (con i punteggi e non con le frequenze) è molto simile alla matrice Identità (valori quasi sempre 1 sulla diagonale e 0 altrove) PAM2 è calcolata da PAM1 ipotizzando un altro passo evolutivo e così via... PAMn è ottenuta da PAMn-1 PAM100 quindi rappresenta 100 passi evolutivi in ciascuno dei quali si è avuto un 1% di sostituzioni rispetto al passo precedente. PAM1PAM100PAM250 sequenze vicine filogeneticamente sequenze lontane filogeneticamente

48 BLOSUM Introdotte da Henikoff & Henikoff nel A differenza delle PAM generate iterativamente, queste sono invece basate su una banca dati (BLOCKS) di allineamenti multipli di segmenti proteici senza GAP. Il numero associato alle matrici rappresenta la percentuale di aminoacidi identici in un certo blocco BLOSUM35BLOSUM62 sequenze vicine filogeneticamente sequenze lontane filogeneticamente

49 Matrice BLOSUM (Henikoff & Henikoff, 1992) Blocks Amino Acid Substitution Matrices = BLOSUM Basata sulle sostituzioni amminoacidiche osservate in ~2000 blocchi conservati di sequenze. Questi blocchi sono stati estratti da una banca dati di 500 famiglie di proteine Si calcolano la frequenza delle sostituzioni tra due aa normalizzate per la frequenza degli aa nellallineamento

50 Calcolo di matrice BLOSUM Per bilanciare il sovracampionamento di residui provenienti da sequenze molto simili, le sequenze più simili di una certa soglia (per esempio 60% identità) sono raggruppate e gli scambi amminoacidici interni al gruppo vengono mediati. La matrice risultante si chiama BLOSUM60 La matrice più utilizzata è la BLOSUM62

51 BLOSUM62 In genere si ritengono le matrici BLOSUM più adatte per effettuare ricerche di similarità di sequenza, anche se i risultati ottenuti poi sono sostanzialmente gli stessi. BLOSUM62 è la matrice impostata di default nei programmi di ricerca di similarità E importante però sempre scegliere la matrice (lindice) più adatta in base alla distanza filogenetica tra le sequenze da confrontare. Per sequenze vicine (organismi vicini) una PAM con indice basso o BLOSUM con indice alto. Per sequenze distanti PAM con indice alto e BLOSUM con indice basso

52 RICERCA DELLE SIMILARITA TRA 2 SEQUENZE Per determinare la similarità tra due sequenze è necessario considerare due aspetti: 1- ALGORITMO DI ALLINEAMENTO 2- CRITERIO DI SIMILARITA

53 ALGORITMO BANALE algoritmo di scorrimento: si fa scorrere una sequenza sullaltra contando le identità tra le due sequenze 30 confronti (6x5) identità: allineamento ottimo

54 CRITERIO DI SIMILARITA Se non consideriamo linserimento dei gap, due sequenze (lunghe n e m) possono essere allineate (algoritmo di scorrimento) in n+m-1 modi diversi e per ciascuno di questi modi si può calcolare un punteggio. Il punteggio di ciascuno degli allineamenti può essere calcolato come somma dei punteggi (score) degli appaiamenti di ciascuna coppia corrispondente di lettere. Le coppie possibili (e quindi il numero di operazioni da effetuare) sono n x m. La funzione di score di un appaiamento tra due lettere può essere banale (1 se le lettere sono uguali, 0 se diverse) oppure può essere definita da una matrice di sostituzione (es. PAM e BLOSUM) Infine, come valore di similarità delle due sequenze, si può prendere il massimo dei punteggi tra tutti i possibili allineamenti e il corrispondente allineamento rappresenta lallineamento ottimo (con quella funzione di score)

55 AAKKQW AAKQW 4 allineamentopunteggio AAKKQW AAKQW allineamento AA + KA + KK + QQ + WW = = 27 punteggio


Scaricare ppt "BANCHE DATI DI SEQUENZE GENOMICHE GenBank deriva dalla collaborazione di diversi database di sequenze tra cui EMBL e DDBJ."

Presentazioni simili


Annunci Google