Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.

Slides:

Advertisements

Presentazioni simili

Allineamento Pairwise e Multiplo di Bio-Sequenze.

Advertisements

L’alternativa Per spiegare la diversità degli organismi viventi in modo diverso occorre: 1) mettere in discussione l’idea del progetto 2) rivalutare il.

Sequenza-struttura-funzione

gruppi di amminoacidi in base alle catene laterali

RICERCA DI SIMILARITA’ IN BANCHE DATI

Allineamento di sequenze

Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –

Le proteine: come sono fatte, come funzionano, e come si sono evolute

BASI DI DATI BIOLOGICHE - 3

I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.

Verifica della espressione dei geni predetti Al fine di verificare che i geni predetti siano effettivamente trascritti si può fare una ricerca in banca.

Biologia computazionale

Metodi basati sulle similitudini per dedurre la funzione di un gene

1) Algoritmi di allineamento 2) Algoritmi di ricerca in database

Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Analisi della struttura primaria delle proteine

ALLINEAMENTI GLOBALI E LOCALI

È stimato che oggi sulla terra sono presenti

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)

Allineamenti multipli

Software per la Bioinformatica

Homology modelling L’omology modeling delle proteine è il tipo di predizione di struttura terziaria più semplice ed affidabile. Viene richiesta soltanto.

WORKING WITH BIOSEQUENCES Alignments and similarity search

SIMILARITA’ ? OMOLOGIA

Informatica e Bioinformatica – A. A

LE PROTEINE Relatori: Regolo Matteo Scavuzzo Pasquale

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia

Ricerca di similarità di sequenza (FASTA e BLAST)

Tipi di allineamenti.

I programmi di ricerca in banche dati possono essere

Alcuni esempi di domande di esame

BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.

BIOINFO3 - Lezione PARSING RISULTATI DI BLAST Nella lezione di ieri abbiamo visto come automatizzare lesecuzione di BLAST. Oggi proviamo.

Ricombinazione genetica

Acidi nucleici e proteine

La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.

Dip. Scienze Biomolecolari e Biotecnologie

An annealing mutation operator in the genetic algorithms for RNA folding Bruce A.Shapiro and Jin Chu Wu.

A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.

Esempio di utilizzo del programma BLAST disponibile all’NCBI

Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.

A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.

Purtroppo non esiste un modo univoco per indicare un gene

A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Roberto.

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

III LEZIONE Allineamento di sequenze

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

WORKING WITH BIOSEQUENCES Alignments and similarity search.

Allineamento di sequenze

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

ALLINEAMENTO DI SEQUENZE

AMMINOACIDI E PROTEINE

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.

Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.

I cambiamenti della sequenza del DNA: Evoluzione

---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.

Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.

STORIA DI UNA TRIPLETTA: BASI VS AMINOACIDI 3 A 1 Il Codice Genetico Metodo didattico: Spaced Learning Prof. M. Della Mea.

DIAGNOSI MOLECOLARE DI UNA MALATTIA GENETICA E SVILUPPO DI UNA TERAPIA GIUSEPPINA ANDREOTTI M.VITTORIA CUBELLIS.

La Fabbrica delle Proteine

Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:

Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.

Genetica ricombinante nei batteri

I POLIELETTROLITI Polielettroliti sono composti macromolecolari che contengono un gran numero (dell’ordine del grado di polimerizzazione) di gruppi che.

Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.

A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Prof.

Transcript della presentazione:

Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che gli atomi costituenti assumono nello spazio. Questa a sua volta dipende dalla sequenza delle unità elementari (in genere si tratta di aminoacidi, ma lo stesso discorso vale anche per i nucleotidi). Molecole che hanno sequenza primaria simile tendono ad avere strutture secondarie e terziarie simili. Se due proteine sono identiche al 50%, è altamente probabile che la loro struttura tridimensionale sia quasi completamente sovrapponibile.

Sequenze identiche al 62% Chymotrypsin MLGITVLAALLACASSCGVPSFPPNLSARVVGGEDARPHSWPWQISLQYLKNDTWRHTCG :..:..:.: : ::: :..::.. ::::::.:::.:::::.::::.: : :::: Elastase MIRTLLLSTLVAGALSCGDPTYPPYVT-RVVGGEEARPNSWPWQVSLQYSSNGKWYHTCG Chymotrypsin GTLIASNFVLTAAHCISNTRTYRVAVGKNNLEVEDEEGSLFVGVDTIHVHKRWNALLLR- :.:::...:::::::::..:::::..:..:: : : ::: :.:. : ::: ::.. Elastase GSLIANSWVLTAAHCISSSRTYRVGLGRHNLYVA-ESGSLAVSVSKIVVHKDWNSNQISK Chymotrypsin -NDIALIKLAEHVELSDTIQVACLPEKDSLLPKDYPCYVTGWGRLWTNGPIADKLQQGLQ :::::.:::. : :.: ::.::::..::..::::::::::: :::. : :::: Elastase GNDIALLKLANPVSLTDKIQLACLPPAGTILPNNYPCYVTGWGRLQTNGAVPDVLQQGRL Chymotrypsin PVVDHATCSRIDWWGFRVKKTMVCAGGDGVISACNGDSGGPLNCQLENGSWEVFGIVSFG :::.:::: ::: ::.:.:::::::::.::::::::::::.: :.: :::::: Elastase LVVDYATCSSSAWWGSSVKTSMICAGGDGVISSCNGDSGGPLNCQASDGRWQVHGIVSFG Chymotrypsin SRRGCNTRKKPVVYTRVSAYIDWINEKM-QL :: :::.:: :.:::: ::::::.. Elastase SRLGCNYYHKPSVFTRVSNYIDWINSVIANN

Sequenze identiche al 62%

Alcune regioni delle proteine sopportano meglio le mutazioni rispetto ad altre. In particolare le regioni importanti per la produzione della struttura secondaria (alfa eliche e foglietti beta) sono poco tolleranti, mentre le regioni di giunzione possono essere molto più variabili.

L’evoluzione non opera direttamente né sulla sequenza del DNA né sulla struttura primaria delle proteine, ma sulla conformazione tridimensionale di queste ultime. In considerazione di questo e della degenerazione del codice genetico, la struttura tridimensionale delle proteine è più conservata della sequenza primaria, che a sua volta è più conservata della sequenza dei nucleotidi codificanti. -ATGTTGAAGTTT- - M L K F - -ATGTTGAAGTTT- - M L K F - -ATGTTGAAGTTT- - M L K F - -ATGTTGAAGTTC- - M L K F - Sequenza a.a identica -ATGTTGAAGTAT- - M L K Y - Sequenza a.a diversa, stuttura conservata -ATGTTGAAGGTT- - M L K V - Sequenza a.a diversa, stuttura destabilizzata

Identità ed omologia Gli aminoacidi possono essere raggruppati in base alle loro caratteristiche fisico-chimiche. Su questa base un aminoacido può essere definito simile ad un altro Dato un allineamento di sequenze: Percentuale di identità= di residui identici/residui totali*100 (residui identici + residui simili) Percentuale di omologia= * 100 (residui totali) RKRK Carichi positivamente R K D E Carichi F L I V W Idrofobici

ATA SSGGYRKGVTEAKLKVAINGFGRIGRNFLRCWHGRKDSPLDIIAIND-TGGV 99 ATB AQIIPKAVTTSTPVRGETVAKLKVAINGFGRIGRNFLRCWHGRKDSPLEVVVLND-SGGV 119 HS MG--KVKVGVNGFGRIGRLVTRAAF--NSGKVDIVAINDPFIDL 40 MM MVKVGVNGFGRIGRLVTRAAI--CSGKVEIVAINDPFIDL 38 XL MVKVGINGFGCIGRLVTRAAF--DSGKVQVVAINDPFIDL 38 DM MSKIGINGFGRIGRLVLRAAI--DKG-ANVVAVNDPFIDV 37 CE MS--KANVGINGFGRIGRLVLRAAV--EKDTVQVVAVNDPFITI 40 SP MA--IPKVGINGFGRIGRIVLRNAI--LTGKIQVVAVNDPFIDL 40 ATC MADKKIRIGINGFGRIGRLVARVVL--QRDDVELVAVNDPFITT 42 OS MG--KIKIGINGFGRIGRLVARVAL--QSEDVELVAVNDPFITT 40 SC MVRVAINGFGRIGRLVMRIAL--SRPNVEVVALNDPFITN 38 ECA MTIKVGINGFGRIGRIVFRAAQ--KRSDIEIVAIND-LLDA 38 HI MAIKIGINGFGRIGRIVFRAAQ--HRDDIEVVGIND-LIDV 38 ECC MSKVGINGFGRIGRLVLRRLL-EVKSNIDVVAIND-LTSP 38.:.:**** ***. * ::: :**. ATA KQASHLLKYDSTLGIFDADVKPSGETAISVD-----GKIIQVVSNRNPSLLPWKELGIDI 154 ATB KNASHLLKYDSMLGTFKAEVKIVDNETISVD-----GKLIKVVSNRDPLKLPWAELGIDI 174 HS NYMVYMFQYDSTHGKFHG-TVKAENGKLVIN-----GNPITIFQERDPSKIKWGDAGAEY 94 MM NYMVYMFQYDSTHGKFNG-TVKAENGKLVIN-----GKPITIFQERDPTNIKWGEAGAEY 92 XL DYMVYMFKYDSTHGRFKG-TVKAENGKLIIN-----DQVITVFQERDPSSIKWGDAGAVY 92 DM NYMVYLFKFDSTHGRFKG-TVAAEGGFLVVN-----GQKITVFSERDPANINWASAGAEY 91 CE DYMVYLFKYDSTHGQFKG-TVTYDGDFLIVQKDGKSSHKIKVFNSKDPAAIAWGSVKADF 99 SP DYMAYMFKYDSTHGRFEG-SVETKGGKLVID-----GHSIDVHNERDPANIKWSASGAEY 94 ATC EYMTYMFKYDSVHGQWKHNELKIKDEKTLLFG----EKPVTVFGIRNPEDIPWAEAGADY 98 OS DYMTYMFKYDTVHGQWKHSDIKIKDSKTLLLG----EKPVTVFGIRNPDEIPWAEAGAEY 96 SC DYAAYMFKYDSTHGRYAG-EVSHDDKHIIVD-----GKKIATYQERDPANLPWGSSNVDI 92 ECA DYMAYMLKYDSTHGRFDG-TVEVKDGHLIVN-----GKKIRVTAERDPANLKWDEVGVDV 92 HI EYMAYMLKYDSTHGRFDG-TVEVKDGNLVVN-----GKTIRVTAERDPANLNWGAIGVDI 92 ECC KILAYLLKHDSNYGPFPW-SVDFTEDSLIVD-----GKSIAVYAEKEAKNIPWKAKGAEI 92. ::::.*: * : : : : ::. : * Allineamento multiplo

Calcolo matrici di sostituzione su base evolutiva KQASHLLKYDSTLGIFDADVKPSGETAISVD KQASHLVKYDSTLGIFDADVRPSGETAISVD KQASHLLKYESTLGIFDADVKPSGATAISVD KQACHLLKYDSTLGIFDAEVKPSGETAISVD KQASHLLKYDSTLGIFDADVKPSGETAISVD KQASHLLKYDSSLGIFDADVKASGETAISVD KQASHILKYDSTLGIFDADVKPSGETAITVD DQASHLLKYDSTLGLFDADVKPSGETAISVD KQASHLLKFDSTLGIFDADVRPSGETAISVD KQASSLLKYDSTLGIFDADVKPTGETAISVD KQVSHLLKYDSTLGIFEADVKPSGETAISVD KQASHLLKYDVTLGIFDADVKPSGETPISVD KQASHLCKYDSTLGIFDADVKPSVETAISVD KQASHLLKYQSTLGIFDADVKPSGETAISVE Freq. Oss. Coppia a.a. Odd= Freq. attesa Coppia a.a. Score= ln Odd (bit)

Matrici di sostituzione Serie PAM (percent accepted mutation) Il presupposto per l’elaborazione di questo tipo di matrici è che in sequenze correllate le sostituzioni di aminoacidi che si osservano non disturbano molto la struttura della proteina, e sono quindi accettate dall’evoluzione. Allineamento multiplo di sequenze poco divergenti (1%) Misurazione della frequenza con cui un aminoacido veniva cambiato in un altro, per tutte le possibili coppie di aminoacidi Calcolo del log del rapporto tra la frequenza di una determinata sostituzione e la frequenza attesa in base al caso In questo modo è stata ottenuta la matrice PAM1

Matrici di sostituzione Serie PAM (percent accepted mutation) 1 PAM equivale a circa 10 milioni di anni di divergenza Dalla matrice PAM 1 sono state ottenute altre matrici per estrapolazione a distanze evolutive maggiori. Le matrici PAM si sono rivelate molto utili, anche se corrispondono a frequenze di sostituzione derivate piuttosto che osservate direttamente. Le matrici a basso PAM sono migliori per confrontare sequenze molto simili o molto corte. Quelle ad alto PAM sono ottimali per sequenze più divergenti. In base a simulazioni effettuate le matrici PAM120, PAM80 e PAM60 sono ottimali per sequenze che mostrano il 40%, 50% e 60% di similarità, rispettivamente.

Matrici di sostituzione Serie BLOSUM (Blocks Amino Acid Substitution Matrices) La metodica statistica utilizzata è la stessa che per le matrici PAM. La differenza è che le variazioni degli aminoacidi sono state direttamente misurate su almeno 250 blocchi di aminoacidi privi di gaps, conservati in proteine anche molto divergenti. In questo caso i numeri stanno ad indicare la percentuale di identità tra i blocchi che hanno contribuito alla costruzione della matrice. Ne consegue che le matrici ad alto BLOSUM (ad es. 80) sono indicate per confrontare proteine meno divergenti, mentre quelle a basso blosum (30 o 40) sono adatte per proteine più divergenti. Il vantaggio principale di queste matrici è che le frequenze di sostituzione non sono estrapolate ma misurate direttamente.

Matrice PAM 30

Scoring matrix = PAM 30 Gap open penalty = -10 Gap extension penalty = -2 Calcolo dello score di un allineamento

* * * * * * * * * * ** * * * * * * P A O L O R O S S I PAOLOROSSIPAOLOROSSI Comparazione di sequenze: Dot Plot Analysis Sequenze identiche

* * * * * * * * * * * * * * * P A O L O R O S S I PAOLARUSSOPAOLARUSSO Comparazione di sequenze: Dot Plot Analysis Sequenze simili

* * * * * * P A O L O R O S S I CARLAVERDICARLAVERDI Comparazione di sequenze: Dot Plot Analysis Sequenze diverse

P A O L O M A R I A R O S S I PAOLOROSSIPAOLOROSSI Comparazione di sequenze: Dot Plot Analysis * *** *** * *** ** *** ** ** * Inserzioni/delezioni

V H K R W N A L L L Comparazione di sequenze: Dot Plot Analysis VHKDWNSNQIVHKDWNSNQI

V H K R W N A L L L Comparazione di sequenze: Dot Plot Analysis VHKDWNSNQIVHKDWNSNQI

Allineamento globale e allineamento locale Alcuni programmi, date due sequenze, generano in ogni caso l’allineamento migliore possibile tra di esse, su tutta la lunghezza. Questo tipo di allineamento prende il nome di allineamento globale. Non necessariamente un allineamento globale ha significato biologico. Altri programmi, date due sequenze, non le allineano necessariamente su tutta la lunghezza, ma vanno a cercare soltanto i tratti in cui l’omologia tra le due sequenze (ossia lo score) supera una certa soglia. In questi si parla di allineamento locale.

Alcuni dei programmi più utilizzati Algoritmo di Needleman-Wunsch = allineamento globale, matematicamente rigoroso. Molto lento mai utilizzato per ricerhe in banca dati. Algoritmo di Smith-Watermann = allineamento locale, matematicamente rigoroso. Molto lento, utilizzato solo recentemente per ricerhe in banca dati, grazie allo sviluppo di calcolatori dedicati. FASTA = allineamento locale, piuttosto rigoroso, più veloce dei precedenti. BLAST = (Basic Local Alignment Search Tool). Poco rigoroso, ma estremamente più veloce dei precedenti. Pertanto è molto utilizzato per le ricerche di routine. Gli altri sono più utilzzati quando si vogliono trovare deboli similitudini.

Come funziona BLAST? La sequenza di cui si vogliono trovare gli omologhi viene scomposta in tutte le possibili parole di una lunghezza prefissata (ad esempio due o tre se si tratta di aminoacidi) MLFFRRQPKHCSDTEF MLFLFFFFRFRRRRQRQPQPK PKHKHCHCSCSDSDTDTETEF Le parole di tre lettere vengono quindi cercate in tutte le sequenze della banca dati (operazione estremamente rapida)

Query: MLFFRRQPKHCSDTEF MLFLFFFFRFRRRRQRQPQPK PKHKHCHCSCSDSDTDTETEF Subject: ASDDERTGLFDRKQPKACMDSEFKATT QPK ::: In seguito l’allineamento viene esteso HCSDTEF : :.: MLFFRR :: :. Subject: ASDDERTGLFDRKQPKACMDSEFKATT QPK ::: Query:

Gapped BLAST

Versioni disponibili del programma Blast BlastN = ricerca in un database di sequenze nucleotidiche le sequenze omologhe ad una sequenza nucleotidica data. BlastP = ricerca in un database di sequenze aminoacidiche le sequenze omologhe ad una sequenza aminoacidica data. BlastX = data una sequenza nucleotidica, la traduce in tutte e sei le possibili cornici di lettura (traduzione dinamica), e cerca le seqeunze omologhe alle traduzioni in un database di sequenze aminoacidiche tBlastN = data una sequenza aminoacidica, la confronta con tutte le possibili traduzioni di un database di sequenze nucleotidiche. tBlastX = data una sequenza nucleotidica, confronta la sua traduzione dinamica con tutte le possibili traduzioni di un database di sequenze nucleotidiche.

Database più utilizzati NR = non ridondante, sia nucleotidico che aminoacidico. Contiene numerosissime annotazioni funzionali. Database di prima scelta, qualunque sequenza si stia studiando. EST = unicamente nucleotidico, con pochissima annotazione e costituito da sequenze di bassa qualità, ma preziosissimo per molte applicazioni, come lo studio di geni non precedentemente caratterizzati Database genomici dei diversi organismi = alcuni sono unicamente nucleotidici, ma in genere esiste anche una versione delle sequenze aminoacidiche identificate o predette. PDB = database delle strutture atomiche SwissProt = aminoacidico, è in assoluto quello che contiene più informazioni sulle proteine

Geni ortologhi Due geni appartenenti a specie diverse si definiscono ortologhi se hanno una forte omologia e svolgono la stessa funzione. Quasi certamente le proteine codificate hanno strutture tridimensionali sovrapponibili. Ùquesti geni hanno avuto origine da un antenato comune in un periodo evolutivo precedente. Geni paraloghi Si definiscono paraloghi i geni derivanti da eventi di duplicazione e divergenza nel genoma della stessa specie. Questi eventi possono portare alla produzione di famiglie di proteine correlate con strutture e funzioni biologiche simili. A volte però i paraloghi possono diversificarsi moltissimo, ed acquisire funzioni specializzate nonostante la struttura simile.

Programma per Dot Plot Analysis: DOTTER sonnhammer/Dotter.html

Esercizio 1 Produrre un dot plot delle sequenze k1nt.txt e k2nt.txt Esercizio 2 Produrre un dot plot delle sequenze k1aa.txt e k2aa.txt

Esercizio 3 Produrre un dot plot della sequenza notch.txt contro se stessa Esercizio 4 Produrre un dot plot delle sequenze notch.txt e lin12.txt

Allineamento globale Esercizio 5: Importare le sequenze notch.txt e lin12.txt in Biology Workbench ( Produrre un allineamento delle due sequenze con il programma ALIGN (parametri di default)

Allineamento globale Esercizio 6: Produrre un allineamento delle stesse sequenze con il programma ALIGN utilizzando la matrice PAM250 invece della Blosum50. Si ottiene lo stesso allineamento ottimale?

Allineamento locale Esercizio 7: Produrre un allineamento delle stesse sequenze con il programma LALIGN. Che cosa è cambiato?

BLAST

BlastN, BlastX o BlastP? Esercizio 8 Eseguire una ricerca con BlastN su database NR con la sequenza k2nt.txt.

Ricerca senza filtro per le regioni a bassa complessità

BlastN, BlastX o BlastP? Esercizio 9 Eseguire una ricerca con BlastX su database NR con la stessa sequenza.

BlastN, BlastX o BlastP? Esercizio 10 Eseguire una ricerca con BlastN sul database NR selezionando come organismo ‘Drosophila Melanogaster’ con la sequenza k2nt.txt.

BlastN, BlastX o BlastP? Esercizio 11 Eseguire una ricerca con BlastX sul database NR selezionando come organismo ‘Drosophila Melanogaster’ con la sequenza k2nt.txt.

Filtri di BLAST Esercizio 12 Eseguire una ricerca con BlastP su database NR con la sequenza NCT.txt. Esercizio 13 Eseguire una ricerca con le stesse impostazioni ma eliminando il filtro per le regioni low complexity.

Con filtro

Senza filtro

/cgi-bin/RepeatMasker RepeatMasker

Importanza della lunghezza della query E(S)=Kmne - S m= grandezza del database n=lunghezza della sequenza S=score

Importanza della lunghezza Esercizio 14 Eseguire una ricerca con BlastP su database NR con la sequenza: MSGEVRLRQLEQFILDGP Esercizio 15 Rieseguire la ricerca con gli stessi parametri e con la sequenza: MSGEVRLRQLEQFILDGPAQTNGQYFSVETLLDILIC LYDECNN Come si modificano lo score e il valore E?

Importanza della matrice Esercizio 12 Eseguire una ricerca con BlastP su database NR con la sequenza: MSGEVRLRQLEQFILDGP Esercizio 13 Eseguire la stessa ricerca cambiando la matrice da BLOSUM62 prima a PAM30 e poi a PAM 250. Come si modificano i risultati? Perché nel primo caso trovo più sequenze e nel secondo meno?

BLOSUM62

PAM250

PAM30

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo si chiama CLUSTALW. Da un allineamento multiplo posso derivare molte informazioni. In particolare mi può aiutare a fare una predizione di struttura secondaria, a dire quali sono gli aminoacidi essenziali per tutta la famiglia, a dire quali sono gli aminoacidi che conferiscono particolari caratteristiche, a identificare particolari domini funzionali.

CLUSTALW

Esercizio 1 Utilizzando il programma CLUSTALW, generare un allineamento multiplo delle sequenze contenute nel file GAPDH.TXT ftp://ftp.ebi.ac.uk/pub/software/dos/clustalw/ Esercizio 2 Visualizzare i risultati con il programma Jalview: