Sequenza-struttura-funzione

Slides:



Advertisements
Presentazioni simili
Allineamento Pairwise e Multiplo di Bio-Sequenze.
Advertisements

LE PROTEINE.
Agenti mutageni Mutazioni puntiformi Aberrazioni cromosomiche
GENI HOX Solo in questi ultimissimi anni le indagini filogenetiche molecolari hanno avuto come oggetto i geni Hox. Questi ultimi, presenti in tutti i Metazoi,
GENE: segmento di DNA che trasporta l’informazione per un determinato
gruppi di amminoacidi in base alle catene laterali
RICERCA DI SIMILARITA’ IN BANCHE DATI
Allineamento di sequenze
LE MUTAZIONI.
I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.
Migliore Punteggio Lunghezza della sequenza Grandezza banca dati
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
I diversi tipi di mutazioni
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
La Sintesi Proteica.
Introduzione alla bioinformatica
Metodi basati sulle similitudini per dedurre la funzione di un gene
SPECIFICITA’ E MECCANISMI DI REVISIONE.
1) Algoritmi di allineamento 2) Algoritmi di ricerca in database
Intelligenza Artificiale Algoritmi Genetici
La mutazione genica La mutazione genica è un cambiamento del materiale ereditario di un gene. Un gene è una sequenza di nucleotidi del DNA, che codifica.
La diversità è un aspetto caratteristico della vita:
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Funzioni, struttura e caratteristiche
È stimato che oggi sulla terra sono presenti
La classificazione della biodiversità
Lezione III-IV 27-Ottobre -09 corso di laurea specialistica magistrale Biotecnologia aula 6a ore salteremo le lezioni del venerdì 23 e 30 Ottobre.
Informatica e Bioinformatica – A. A
LE PROTEINE Relatori: Regolo Matteo Scavuzzo Pasquale
Ricerca di similarità di sequenza (FASTA e BLAST)
Cenni teorici. La corrente elettrica dal punto di vista microscopico
I programmi di ricerca in banche dati possono essere
Alcuni esempi di domande di esame
La vita in codice Prof.ssa Carmela Allocca.
Sintesi di una proteina Cos’è il patrimonio genetico
Natura della variabilità genetica
MUTAZIONE: cambio di un bit Viene effettuata con bassa frequenza, ad es. 1bit ogni 1000 Ha la funzione di recupero di eventuali perdite di informazione.
Molecola di DNA = lunga catena di nucleotidi
Dip. Scienze Biomolecolari e Biotecnologie
Origin and evolution of the adaptive immune system: genetic events and selective pressures NATURE REVIEWS | Genetics V0LUME 11 | JANUARY 2010 Specializzando:
ESERCIZIO SULLA SINTESI PROTEICA
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Le mutazioni Classe: IV Scuola: Liceo scientifico.
Per l’insegnante: La presentazione si propone di descrivere:
Purtroppo non esiste un modo univoco per indicare un gene
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
III LEZIONE Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
WORKING WITH BIOSEQUENCES Alignments and similarity search.
Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
ALLINEAMENTO DI SEQUENZE
AMMINOACIDI E PROTEINE
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
CONFORMAZIONE organizzazione spaziale degli atomi in una proteina STRUTTURA NATIVA conformazione funzionale di una proteina La FUNZIONE di una proteina.
STORIA DI UNA TRIPLETTA: BASI VS AMINOACIDI 3 A 1 Il Codice Genetico Metodo didattico: Spaced Learning Prof. M. Della Mea.
Concetti di base. Per biodiversità si intende l'insieme di tutte le forme viventi geneticamente diverse e degli ecosistemi ad esse correlati Il termine.
La Fabbrica delle Proteine
Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:
Genetica ricombinante nei batteri
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Definizione di GENETICA
PARAGONE CON I RISULTATI SPERIMENTALI Dobbiamo correlare i parametri  ed s con variabili sperimentali. Per fare questo assumiamo che la costante di equilibrio.
Transcript della presentazione:

Sequenza-struttura-funzione diverse combinazioni dei 20 aa G P Y W I V R T A C D Varietà di strutture e funzioni F S Q L E K N M H ASSOCIARE A CIASCUNA PROTEINA DI CUI CONOSCIAMO LA SEQUENZA UNA O PIU’ SPECIFICHE FUNZIONI A LIVELLO MOLECOLARE

Codice strutturale ESPERIMENTO DI ANFINSEN NELLA SEQUENZA PRIMARIA E’ SCRITTA LA STRUTTURA DI UNA PROTEINA PROTEINE CON SEQ. PRIMARIE SIMILI TENDONO AD AVERE STRUTTURE 3D SIMILI CONFRONTO TRA GENOMI → i geni essenziali (ciclo cell, sviluppo embrionale, signalling) soggetti a poca variabilità

Omologia, Identità, Similarità Similarità –termine generico che indica una somiglianza che può essere dovuta a omologia, ma anche alla convergenza evolutiva. E’ un parametro quantitativo (posso quantificarla in %). Omologia – implica un’origine evolutiva comune e spesso anche similarità. E’ un parametro qualitativo. Prima di Darwin l’omologia era definita morfologicamente Con la genetica si sa che è dovuta a geni (antenati) comuni Due sequenze sono omologhe se sono simili e hanno un antenato in comune Se due sequenze sono omologhe la loro struttura 3D sarà conservata

Similarità dovuta ad evoluzione dallo stesso antenato comune L’esistenza di similarità in brevi tratti di sequenze può essere casuale Similarità sufficientemente estesa implicano un’omologia (anche se non abbiamo una prova diretta di un comune antenato) Di conseguenza è possibile misurare il grado di significatività della similarità OMOLOGIA OMOPLASIA Similarità dovuta ad evoluzione dallo stesso antenato comune Similarità dovuta a convergenza evolutiva – derivano da linee diverse in seguito ad es. a una pressione selettiva simile

Ortologhi/Paraloghi Mediante confronti di geni simili tra genomi diversi, e di geni simili dello stesso genoma, si può stabilire se due geni sono ortologhi o paraloghi, e da qui ricostruire la probabile storia evolutiva Proteine o geni omologhi possono appartenere alla stessa specie o a specie diverse e possono avere origine in seguito a eventi di Speciazione/Duplicazione

Ortologhi/Paraloghi Si può ipotizzare che i vari geni “simili” tra loro che troviamo nelle diverse specie, lo siano perché “parenti”, ovvero discendenti dallo stesso/i gene/i in specie antenate (speciazione) o nella stessa specie (duplicazione) Due sequenze (sia DNA, sia RNA, sia proteine) per cui possiamo fare questa ipotesi – basandoci sulla loro similarità – sono dette sequenze omologhe

Che cosa diversifica nel tempo due sequenze omologhe? I 3 meccanismi più comuni attraverso i quali le sequenze mutano nel corso dell’evoluzione sono: Sostituzione Delezione Inserzione Inserzione e delezione sono una l’opposto dell’altra e vengono indicate con il termine indels

Sukkar Europa, circa 700 dC Sugar Suiker Sucre Zucker Zuckre Sokker Zucchero Açucar Azucar Sakari Sukkar Europa, circa 700 dC

L’evoluzione delle parole Tutte le parole delle lingue moderne che indicano lo “zucchero” discendono da una parola antenata comune Tutte dalla stessa (“sukkar” - parola usata dagli arabi), alcune da un’antenata più vicina nel tempo (“zuckre” in Francia)

L’evoluzione molecolare Ipotesi: tutte le specie esistenti discendono da specie “antenate” Nel corso dell’evoluzione, da una specie possono nascere una o più specie diverse (speciazione) Allora, dovremmo essere in grado di trovare “tracce” dell’evoluzione... nel DNA! Se una specie discende da un’altra, allora il suo DNA è simile a quello della specie “antenata”, con - ovviamente - delle variazioni Più la speciazione è vicina nel tempo, più il DNA (in sequenza) è “simile”

L’albero della vita

Il - “vero” - albero della vita

L’evoluzione delle parole Immaginiamo di non conoscere le parole “antenate” dello zucchero, e di doverci chiedere se due parole moderne in due lingue differenti sono “simili” tra loro SUGAR SUGR SUCR SUCRE

Allineamento S U G A R - S U C - R E L’”allineamento” è un modo di rappresentare schematicamente i legami evolutivi tra due o più parole (o sequenze), indicando sostituzioni, inserzioni e delezioni S U G A R - S U C - R E Sostituzione (mutazione) Inserzioni (delezioni)

Allineamento (multiplo) S U G - A R - S U C – - R E Z U C K E R - S O K K E R - A Z U C - A R - S A K - A R I A ç U C - A R - -------------------- - S U C(K)A R -

SSH_UOMO -MLLLARCLLLVLVSSLLVCSGLACGPGRGFGKRRHPKKLTPLAYKQFIPNVAEKTLGAS SSH_TOPO MLLLLARCFLVILASSLLVCPGLACGPGRGFGKRRHPKKLTPLAYKQFIPNVAEKTLGAS :******:*::*.******.*************************************** SSH_UOMO GRYEGKISRNSERFKELTPNYNPDIIFKDEENTGADRLMTQRCKDKLNALAISVMNQWPG SSH_TOPO GRYEGKITRNSERFKELTPNYNPDIIFKDEENTGADRLMTQRCKDKLNALAISVMNQWPG *******:**************************************************** SSH_UOMO VKLRVTEGWDEDGHHSEESLHYEGRAVDITTSDRDRSKYGMLARLAVEAGFDWVYYESKA SSH_TOPO VKLRVTEGWDEDGHHSEESLHYEGRAVDITTSDRDRSKYGMLARLAVEAGFDWVYYESKA ************************************************************ SSH_UOMO HIHCSVKAENSVAAKSGGCFPGSATVHLEQGGTKLVKDLSPGDRVLAADDQGRLLYSDFL SSH_TOPO HIHCSVKAENSVAAKSGGCFPGSATVHLEQGGTKLVKDLRPGDRVLAADDQGRLLYSDFL *************************************** ******************** SSH_UOMO TFLDRDDGAKKVFYVIETREPRERLLLTAAHLLFVAPHNDSATGEPEASSGSGPPSGGAL SSH_TOPO TFLDRDEGAKKVFYVIETLEPRERLLLTAAHLLFVAPHND-----------SGPTPG--- ******:*********** ********************* ***..* SSH_UOMO GPRALFASRVRPGQRVYVVAERDGDRRLLPAAVHSVTLSEEAAGAYAPLTAQGTILINRV SSH_TOPO -PSALFASRVRPGQRVYVVAERGGDRRLLPAAVHSVTLREEEAGAYAPLTAHGTILINRV * *******************.*************** ** *********:******** SSH_UOMO LASCYAVIEEHSWAHRAFAPFRLAHALLAALAPARTDRGGDSGGGDRGGGGGRVALTAPG SSH_TOPO LASCYAVIEEHSWAHRAFAPFRLAHALLAALAPARTD----------GGGGGSIP-AAQS ************************************* ***** :. :* . SSH_UOMO AADAPGAGATAGIHWYSQLLYQIGTWLLDSEALHPLGMAVKSS SSH_TOPO ATEARGAEPTAGIHWYSQLLYHIGTWLLDSETMHPLGMAVKSS *::* ** .************:*********::**********

ALLINEAMENTO DI SEQUENZE A COPPIE AGTTTGAATGTTTTGTGTGAAAGGAGTATACCATGAGATGAGATGACCACCAATCATTTC ||||||||||||||||||| |||||||| ||| | |||||| ||||||||||||||||| AGTTTGAATGTTTTGTGTGTGAGGAGTATTCCAAGGGATGAGTTGACCACCAATCATTTC MULTIPLO KFKHHLKEHLRIHSGEKPFECPNCKKRFSHSGSYSSHMSSKKCISLILVNGRNRALLKTl KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCIGLISVNGRMRNNIKT- KFKHHLKEHVRIHSGEKPFGCDNCGKRFSHSGSFSSHMTSKKCISMGLKLNNNRALLKRl KFKHHLKEHIRIHSGEKPFECQQCHKRFSHSGSYSSHMSSKKCV---------------- KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCISLIPVNGRPRTGLKTs

Allineamento GLOBALE o LOCALE GLOBALE considera la similarita’ tra due sequenze in tutta la loro lunghezza (da N- a C-terminale) LOCALE considera solo specifiche REGIONI simili tra alcune parti delle sequenze in analisi (solo regioni a ↑ densità di similarità generando più sub-allineamenti) Global alignment LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||.  | |  |  .|     .|  ||  || | ||   TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG Local alignment    LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK             ||||||||.||||            TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHK

ALLINEAMENTI DI SEQUENZA Per confrontare delle sequenze queste devono essere allineate ALLINEAMENTO: procedura per confrontare 2 o più sequenze residuo per residuo in modo da massimizzare la similarità tra esse e ridurre il numero di operazioni da effettuare per convertirle l’una nell’altra. E’ volto a stabilire una relazione biunivoca tra le coppie di residui delle sequenze considerate. L’allineamento di sequenze è strumento indispensabile per: CONFRONTO tra due sequenze; RICERCA DI SEQ SIMILI a una in esame NELLE BANCHE DATI; Determinazione di PATTERN e DOMINI CONSERVATI; PREDIZIONE DI STRUTTURA 3D; Stimare L’APPARTENENZA a UN CERTO FOLD; COSTRUIRE UN ALBERO FILOGENETICO: PREDIZIONE DI STRUTTURA SECONDARIA

ALLINEAMENTO DI SEQUENZA PER ESEGUIRE UN ALLINEAMENTO DI SEQUENZA SONO NECESSARI ESSENZIALMENTE 3 STRUMENTI: Avere a disposizione una MATRICE DI SOSTITUZIONE. La matrice definisce la il GRADO di SIMILARITA’ tra amminoacidi; Avere a disposizione un ALGORITMO DI ALLINEAMENTO cercando di massimizzare il punteggio dato dalla matrice e valutando quanti gap (interruzioni) inserire; Avere a disposizione per evitare allineamenti senza senso una PENALITA’ per l’introduzione dei GAP. I GAP riflettono inserzioni/delezioni avvenute durante l’evoluzione LLTTVRNN LLTTVRNN LLVRNN LL--VRNN

Similarità e distanza Esistono due modi per misurare il grado di omologia tra due sequenze: Calcolare la similarità contando i match Calcolare la distanza contando mismatch e indels Similarità elevata ↔ bassa distanza Due sequenze identiche hanno una distanza pari a zero

SIMILARITA’ DI SEQUENZA Nel punteggio di similarità di sequenza si tiene conto del fatto che gli amminoacidi a confronto in ogni posizione siano simili, differenti o identici e di una penalità per i gap. PER DEFINIRE LA SIMILARITA’ TRA LE DUE SEQUENZE SI USANO MATRICI BASATE SU PRESUPPOSTI DIVERSI: identità/non identità; Caratteristiche chimico-fisiche degli aa; Basate sul codice genetico: valutare quante mutazioni fare in una tripletta per passare da un aa a un altro. (se ad es. si cambia un solo nucleotide la sostituzione la sostituzione sarà meno penalizzata perché si tratta di evento probabile nel corso dell’evoluzione) Basate su criteri evolutivi estrapolati da confronto di sequenze di proteine omologhe (MATRICI BLOSUM E PAM) 2 penalità per i gap (apertura (fisso), estensione (lunghezza dipendente))

Penalizzazioni degli indels Generalmente si usano funzioni del tipo “lineare” wx = gx o, più frequentemente, di tipo “affine” wx = g + rx oppure wx = g + r(x—1) dove g è il punteggio di penalizzazione per l’apertura, r per l’elongazione e x la lunghezza dell’indel

Matrici di sostituzione Le matrici di sostituzione tengono conto dei criteri di similarità tra aminoacidi Comprendono 210 valori: 20 (sulla diagonale) relativi al punteggio dell’appaiamento di ciascun aminoacido con se stesso 190 relativi a tutte le possibili sostituzioni aminoacidiche I 190 valori sono riportati anche nella loro parte speculare in modo che queste matrici hanno un formato 20 x 20 valori Le matrici di sostituzione più semplici considerano solo il criterio di identità e sono costituite da valori 0 o 1 Altre matrici considerano la similarità chimica tra gli aminoacidi o il numero minimo di mutazioni per passare da un codon all’altro e attribuiscono un punteggio alle diverse sostituzioni

Similarità chimico-fisica Gli aminoacidi possono essere raggruppati in base alle caratteristiche fisico-chimiche delle loro catene laterali. Su questa base un aminoacido può essere definito simile ad un altro R K basici I V F L idrofobici G A poco ingombro sterico R K H D E carichi R K N Q polari

Similarità definita da criteri “genetici” Quando sostituisco un nucleotide all’interno di una regione codificante, l’effetto dipende dalla sua posizione all’interno del codone CUU  (Leu/L)Leucine CUC  (Leu/L)Leucine CUA  (Leu/L)Leucine CUG  (Leu/L)Leucine In questo caso, cambiando il terzo nucleotide, non cambia nulla (mutazioni “silenti”) AUU (Ile/I) Isoleucine AUC (Ile/I) Isoleucine AUA (Ile/I) Isoleucine AUG (Met/M) Methionine, Start In questo caso, cambiando il primo nucleotide, ottengo amminoacidi non troppo differenti dalla leucina... il codice genetico sembra essere “robusto”, ma..

Mutazioni deleterie E V La mutazione di un nucleotide nel sesto codone dell’emoglobina-beta (una delle sequenze che vanno a costituire l’emoglobina), causa la sostituzione dell’amminoacido codificato, problemi nella struttura dell’ emoglobina stessa, e il cambiamento di forma dei globuli rossi, risultando nell’anemia falciforme

Quale matrice PAM conviene utilizzare? In generale per due sequenze filogeneticamente vicine è meglio utilizzare una matrice PAM a basso indice e viceversa In assenza di informazioni si utilizzano PAM40, PAM120 e PAM 250 PAM250 individua similarità del 20% PAM120 individua similarità del 40% PAM80 individua similarità del 50% PAM60 individua similarità del 60% 27 marzo 2017

L’utilizzo della matrice di similarita’ appropriata per ciascuna analisi e’ cruciale per avere buoni risultati. Infatti relazioni importanti da un punto di vista biologico possono essere indicate da anche molto debole similarità. Sequenze poco divergenti     molto divergenti BLOSUM80 BLOSUM62 BLOSUM45 PAM1 PAM120 PAM250

Confronto tra matrici PAM e BLOSUM Le matrici PAM sono basate su un modello evolutivo Le matrici BLOSUM sono basate su famiglie di proteine Le matrici PAM sono basate su un allineamento globale Le matrici BLOSUM sono basate su un allineamento locale Le matrici PAM sono utili per studi evolutivi sulle proteine Le matrici BLOSUM sono fatte per individuare le regioni conservate