La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Gruppi di amminoacidi in base alle catene laterali.

Presentazioni simili


Presentazione sul tema: "Gruppi di amminoacidi in base alle catene laterali."— Transcript della presentazione:

1 gruppi di amminoacidi in base alle catene laterali

2 STRUTTURE TERZIARIE (singola catena polipeptidica) Un unico dominio strutturale Proteine multi-dominio STRUTTURE QUATERNARIE (associazioni di diverse catene polipeptidiche)

3 Banche dati di sequenze proteiche UniProt raccoglie le informazioni dei database Swiss-prot e TrEMBL. Viene curato anche un database NON RIDONDANTE (UniRef). Molto curato e dettagliato, con annotazioni circa funzione, struttura, modificazioni e altre informazioni utili E la traduzione in silico di ogni entry codificante del database nucleotidico dellEMBL, non è accurato, ma è ricchissimo

4 >tr|P73799 Slr1259 protein - Synechocystis sp. (strain PCC 6803). MLFRQLFDPETSTYTYVIADPKGRSAALVDSVLEQVDRDLNLLKELDLKLTFCLETHV HADHITGAGKLRQLTGCQNLVPQYAEVDCADRHLQDGEIVHVGSIPIQAIATPGHTDS HLAFLVNQTHVLTGDALLIRGCGRTDFQSGDAGTLYDAIHGKLFTLPEDVFVYPGHDY RGHTVSTIGEEKRFNPRLLGRDRQNFIEFMDSLNLPDPKKIMEAVPANQLCGQRTVAV Fast-A FORMAT

5 Banche dati di letteratura -Avendo labbonamento si ottiene lintero articolo (formato pdf) - Consultazione banche dati per cercare gli articoli PubMed/Medline Biblioteca dAteneo ISIWeb of Knowledge

6 ALLINEAMENTO DI SEQUENZE A COPPIE AGTTTGAATGTTTTGTGTGAAAGGAGTATACCATGAGATGAGATGACCACCAATCATTTC ||||||||||||||||||| |||||||| ||| | |||||| ||||||||||||||||| AGTTTGAATGTTTTGTGTGTGAGGAGTATTCCAAGGGATGAGTTGACCACCAATCATTTC MULTIPLO KFKHHLKEHLRIHSGEKPFECPNCKKRFSHSGSYSSHMSSKKCISLILVNGRNRALLKTl KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCIGLISVNGRMRNNIKT- KFKHHLKEHVRIHSGEKPFGCDNCGKRFSHSGSFSSHMTSKKCISMGLKLNNNRALLKRl KFKHHLKEHIRIHSGEKPFECQQCHKRFSHSGSYSSHMSSKKCV KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCISLIPVNGRPRTGLKTs

7 Allineamento GLOBALE o LOCALE GLOBALEconsidera la similarita tra due sequenze in tutta la loro lunghezza (da N- a C-terminale) LOCALE considera solo specifiche REGIONI simili tra alcune parti delle sequenze in analisi (solo regioni a densità di similarità generando più sub-allineamenti) Global alignment LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||. | | |.|.| || || | || TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG Local alignment LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||||||||.|||| TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHK

8 ALLINEAMENTO DI SEQUENZA PER ESEGUIRE UN ALLINEAMENTO DI SEQUENZA SONO NECESSARI ESSENZIALMENTE 3 STRUMENTI: -Avere a disposizione una MATRICE DI SOSTITUZIONE. La matrice definisce la il GRADO di SIMILARITA tra amminoacidi; -Avere a disposizione un ALGORITMO DI ALLINEAMENTO cercando di massimizzare il punteggio dato dalla matrice e valutando quanti gap (interruzioni) inserire; -Avere a disposizione per evitare allineamenti senza senso una PENALITA per lintroduzione dei GAP. LLTTVRNN LLVRNN LL--VRNN I GAP riflettono inserzioni/delezioni avvenute durante levoluzione

9 Similarità e distanza Esistono due modi per misurare il grado di omologia tra due sequenze: 1.Calcolare la similarità contando i match 2.Calcolare la distanza contando mismatch e indels Similarità elevata bassa distanza Due sequenze identiche hanno una distanza pari a zero

10 SIMILARITA DI SEQUENZA Nel punteggio di similarità di sequenza si tiene conto del fatto che gli amminoacidi a confronto in ogni posizione siano simili, differenti o identici e di una penalità per i gap.Nel punteggio di similarità di sequenza si tiene conto del fatto che gli amminoacidi a confronto in ogni posizione siano simili, differenti o identici e di una penalità per i gap. PER DEFINIRE LA SIMILARITA TRA LE DUE SEQUENZE SI USANO MATRICI BASATE SU PRESUPPOSTI DIVERSI : -identità/non identità; -Caratteristiche chimico-fisiche degli aa; -Basate sul codice genetico: valutare quante mutazioni fare in una tripletta per passare da un aa a un altro. (se ad es. si cambia un solo nucleotide la sostituzione la sostituzione sarà meno penalizzata perché si tratta di evento probabile nel corso dellevoluzione) -Basate su criteri evolutivi estrapolati da confronto di sequenze di proteine omologhe (MATRICI BLOSUM E PAM) 2 penalità per i gap (apertura (fisso), estensione (lunghezza dipendente))

11

12 10 gennaio Quale matrice PAM conviene utilizzare? In generale per due sequenze filogeneticamente vicine è meglio utilizzare una matrice PAM a basso indice e viceversa In assenza di informazioni si utilizzano PAM40, PAM120 e PAM 250 PAM250 individua similarità del 20% PAM120 individua similarità del 40% PAM80 individua similarità del 50% PAM60 individua similarità del 60%

13 Lutilizzo della matrice di similarita appropriata per ciascuna analisi e cruciale per avere buoni risultati. Infatti relazioni importanti da un punto di vista biologico possono essere indicate da anche molto debole similarità. Sequenze poco divergenti molto divergenti BLOSUM80BLOSUM62BLOSUM45 PAM1 PAM120PAM250

14 ALLINEAMENTI MULTIPLI Lallineamento multiplo è unipotesi di omologia posizionale tra basi o aminoacidi Tutti i residui presenti nella stessa colonna di un multi-allineamento sono evolutivamente correlati No applicabili algoritmi di allineamento globale esatto (cresce esponenzialmente con il numero di sequenze da allineare) Teoricamente sarebbe possibile applicare lalgoritmo di allineamento globale, ma in pratica non lo è perché richiede tempi di esecuzione troppo lunghi METODI APPROSSIMATI Es. ALLINEAMENTO PROGRESSIVO (implementato in Clustal W)

15 ALLINEAMENTO PROGRESSIVO Basato su costruzione di una successione di allineamenti a coppie Dato un insieme S costituito da n sequenze da allineare, si scelgono due sequenze s1 e s2 e si allineano; questo allineamento resta fissato nei passi successivi Si sceglie una terza sequenza s3 e si allinea al precedente allineamento, e così via Prevedono che coppie di sequenze che presentano un maggior grado di similarità tra loro siano allineate per prime (giustificato dal fatto che coppie di seq + simili avranno maggiore probabilità di essere derivate + recentemente da un antenato comune e il loro allineamento fornisce informazioni più affidabili - le posizioni dei gap in seq maggiormente correlate sono tipicamente + accurate rispetto a quelle relative a seq meno simili, per cui i gap degli allineamenti iniziali vanno preservati durante lallineamento progressivo)

16 Otterremo un albero i cui rami hanno lunghezza proporzionale alla distanza tra le sequenze: Questalbero verrà utilizzato per guidare lallineamento progressivo. Nel nostro esempio verranno allineate per prime le sequenze A e B. Successivamente verrà allineata la sequenza D allallineamento AB e infine verrà allineata la sequenza C allallineamento ABD. A B C D ClustalW

17 Allineamento con ClustalW La presenza di un simbolo * in fondo ad una colonna indica un match del 100%. Il simbolo : indica unalta similarità (>75%). Il simbolo. indica una media similarità (50%- 75%). La presenza di un simbolo * in fondo ad una colonna indica un match del 100%. Il simbolo : indica unalta similarità (>75%). Il simbolo. indica una media similarità (50%- 75%).

18

19 INPUT CLUSTALW Sito EBI FORMATO RICHIESTO: FastA

20 OUTPUT CLUSTALW Sito EBI Tabella riassuntiva con link a: file di OUTPUT (con le indicazioni sulla costruzione dei gruppi) - allineamento

21 File di output Elenco seq – attribuzione di un numero a ogni seq Confronti a coppie Formazione gruppi

22 Quando le sequenze da allineare non sono molto divergenti ( similarita >45% per le proteine ) ClustalW dà una risposta ottimale In caso contrario sono necessari aggiustamenti ( correzione manuale dellallineamento ) Una volta che 2 o + seq siano state allineate in un blocco, questo allineamento è fissato e non può più essere modificato nelle fasi successive dellallineamento progressivo. Problemi di minimo locale: se in una qualunque fase viene introdotto un errore si propagherà sulle fasi successive Affidabilità del multiallineamento dipende danche dal set di seq considerate – es. Se si include una seq non realmente omologa allineamento prodotto risulta alterato da inserzione molti gap addizionali ( controllo seq input per rimuovere quelle spurie)

23 RICERCA DI SIMILARITA IN BANCHE DATI Una sequenza da sola non e informativa, è utile poterla confontare alle sequenze note nei database perche possano essere formulate delle ipotesi sulla sue relazioni evolutive con sequenze simili o sulla sua funzione. Metodi di ricerca di similarità in banca dati: programmi che permettono di fare lo screening di una banca dati usando una sequenza sonda/esca (detta query) come input ( le sequenze nel DB sono chiamate subject) Devono essere veloci, selettivi e sensibili Si basano su metodi euristici Utilizzano allineamenti locali per confrontare le sequenze Algoritmo Euristico = in matematica e informatica un particolare tipo di algoritmo la cui soluzione non è la soluzione ottima per quel dato problema ma una soluzione approssimativamente molto vicina a quella ottima con tempi di calcolo ragionevoli.

24 Ricerche di similarità in banche dati

25 Valutazione significatività dei match identificati Quanto il match (query vs seq x del DB) identificato dagli allineamenti locali di BLAST è significativo? Tanto più il loro allineamento è diverso da uno generato casualmente tra sequenze di lunghezza paragonabile Sequenze che danno un allineamento casuale: –Sequenze rimescolate(shuffled) –Sequenze generate casualmente N.B. Blast permette di mascherare le regioni di sequenza a bassa complessitè

26 E-value E-value = expectation value, numero atteso di sequenze che danno per caso il punteggio opt Indica quanto e probabile che si trovi il punteggio S per caso in una distribuzione di Poisson con valore medio M casuale NB IN BLAST il punteggio OPT puo essere convertito in scala logaritmica al punteggio cosidetto BIT Indicazioni: opt/bit elevati, Evalue prossimo a 0

27 BLAST blastp cerca in database di sequenze proteiche usando come query sequenze proteiche blastn cerca in un database di sequenze nucleotidiche usando come query sequenze nucleotidiche blastx cerca in un database di sequenze proteiche partendo da una sequenza query nucleotidica che viene tradotta in tutti i frame tblastn cerca in un database di sequenze nucleotidiche partendo da una sequenza query proteica – le seq subject del database sono tradotte in sequenze proteiche in tutti i frame PSI-Blast ricerca iterativa con PSI-Blast usando ad ogni iterazione una sequenza consenso derivata dallallineamento tra la seq query le le subject dellinterazione precedente

28 28 Le proteine ed i domini proteici che appartengono ad una particolare famiglia generalmente condividono attributi funzionali e derivano da un antenato comune. Dallo studio di sequenze risulta evidente che alcune regioni si conservano meglio di altre nel corso dellevoluzione. Queste regioni in genere sono importanti per il mantenimento della struttura tridimensionale o per la funzione di una proteina. Analizzando le proprietà che vengono mantenute costanti e quelle che invece variano è possibile ottenere una signature per ogni famiglia proteica o dominio che consente di distinguere i suoi membri dalle altre proteine non correlate.

29 29 Ricerca di pattern e motivi funzionali Uno dei primi scopi della biologia computazionale consiste nel rispondere alla domanda: data una nuova sequenza, cosa si può dire sulla funzione (o funzioni) in essa codificata? Se la ricerca per similarità non fornisce risposte si devono usare altri strumenti: la ricerca di pattern e motivi funzionali La pattern recognition è unarea di ricerca dellinformatica e della fisica applicata con ricadute in campi quali lintelligenza artificiale, la linguistica computazionale, le scienze cognitive, la statistica matematica, ecc. Studia lorganizzazione e il disegno di sistemi che riconoscano motivi e regolarità nei dati a disposizione

30 Un motivo (pattern) è un insieme di caratteri (nucleotidi o aminoacidi), non necessariamente contigui, associati spesso ad una precisa struttura o funzione La loro esistenza dipende dal fatto che levoluzione ha prodotto pochi modi per realizzare una determinata funzione Motivo ideale può essere sempre ed univocamente associato ad una precisa struttura o funzione Motivo reale si trova in sequenze che non presentano la funzione (falsi positivi) o è assente in sequenze funzionalmente correlate al motivo (falsi negativi) I motivi possono essere codificati in diversi modi

31 BANCHE DATI DI MOTIVI Allinterno di un singolo motivo linformazione può essere ridotta a una SEQUENZA CONSENSO che non deve essere necessariamente stringente: PATTERN; Se ci si riferisce a un gruppo di motivi conservati non contigui nella sequenza: FINGERPRINT oppure BLOCCHI; Se invece non si identificano regioni locali di similarità tra proteine di una stessa famiglia ma linformazione viene dal considerare la similarità lungo lintero allineamento si ha un PROFILO

32 MOTIVI…E MOTIVI PATTERN FINGERPRINT O BLOCCHI XXXXhhhhXXXbbxxaaxxNGG(X) 5-8 SWXX… PROFILO : possibilità di ricavare una sequenza consenso per tutto lallineamento

33 Ricerca di pattern e motivi funzionali in sequenze proteiche Dallo studio di allineamenti multipli di sequenze appartenenti ad una stessa famiglia di proteine, appare evidente che alcune regioni sono più conservate regioni importanti per la funzione o la struttura Le regioni più conservate sono in genere quelle più importanti per la funzione Dalle regioni costanti e variabili di un multi-allineamento di proteine omologhe derivare un pattern che serva a distinguerle, cioè si può identificare un motivo che possa servire alla caratterizzazione funzionale delle proteine che lo contengono. Esistono diversi programmi per lindividuazione di motivi: PROSITE (patterns, profili e patterns a alta probabilita di accadimento) classificazione funzionale della proteina e predizione putative modifiche post-traduzionali PFAM (profili) classificazione di domini strutturali


Scaricare ppt "Gruppi di amminoacidi in base alle catene laterali."

Presentazioni simili


Annunci Google