---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.

Slides:

Advertisements

Presentazioni simili

Sintesi proteica Prof. Domenico Ripolo.

Advertisements

Sequenza-struttura-funzione

gruppi di amminoacidi in base alle catene laterali

RICERCA DI SIMILARITA’ IN BANCHE DATI

Allineamento di sequenze

Le proteine: come sono fatte, come funzionano, e come si sono evolute

Bioinformatica Prof. Mauro Fasano

BASI DI DATI BIOLOGICHE - 3

Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.

I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.

Corso di ingegneria genetica

LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: è meglio Google o Pubmed? CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-

Biologia computazionale

Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dell’RNA 27/04/2011.

Introduzione alla bioinformatica

Metodi basati sulle similitudini per dedurre la funzione di un gene

1) Algoritmi di allineamento 2) Algoritmi di ricerca in database

Opinione studenti II anno A-K Per la stragrande maggioranza degli studenti, il bilancio per il II anno A-K, è nettamente positivo. Infatti se vogliamo.

Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Analisi della struttura primaria delle proteine

ALLINEAMENTI GLOBALI E LOCALI

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)

La classificazione della biodiversità

Allineamenti multipli

Software per la Bioinformatica

WORKING WITH BIOSEQUENCES Alignments and similarity search

Informatica e Bioinformatica – A. A

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia

Ricerca di similarità di sequenza (FASTA e BLAST)

Tipi di allineamenti.

I programmi di ricerca in banche dati possono essere

Alcuni esempi di domande di esame

Sintesi di una proteina Cos’è il patrimonio genetico

Acidi nucleici e proteine

La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.

Dip. Scienze Biomolecolari e Biotecnologie

DNA – REPLICAZIONE (1) Semiconservativa: Catene genitrici

Esempio di utilizzo del programma BLAST disponibile all’NCBI

Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.

Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.

Purtroppo non esiste un modo univoco per indicare un gene

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

III LEZIONE Allineamento di sequenze

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

WORKING WITH BIOSEQUENCES Alignments and similarity search.

Allineamento di sequenze

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

ALLINEAMENTO DI SEQUENZE

La sintesi proteica La sintesi proteica è il processo che porta alla formazione delle proteine utilizzando le informazioni contenute nel DNA. Si tratta.

AMMINOACIDI E PROTEINE

“ Pseudocodice ” Un programma per computer lavorerà su in insieme di “ variabili ” contenenti i dati del problema, soluzioni intermedie, soluzioni finali.

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.

Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.

Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.

I cambiamenti della sequenza del DNA: Evoluzione

Clonaggio per espressione e clonaggio funzionale

Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.

Annotazione strutturale dei genomi

FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.

STORIA DI UNA TRIPLETTA: BASI VS AMINOACIDI 3 A 1 Il Codice Genetico Metodo didattico: Spaced Learning Prof. M. Della Mea.

DIAGNOSI MOLECOLARE DI UNA MALATTIA GENETICA E SVILUPPO DI UNA TERAPIA GIUSEPPINA ANDREOTTI M.VITTORIA CUBELLIS.

La Fabbrica delle Proteine

Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:

1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.

Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.

Sintesi proteica Prof. Domenico Ripolo.

Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.

Definizione di GENETICA

Transcript della presentazione:

---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione delle informazioni biologiche. Se si vuole capire il funzionamento degli organismi bisogna maneggiare enormi contenuti di informazione!!

Primi compiti della bioinformatica 1.Gestire i dati di sequenza 2.Analizzare le sequenze per comprenderne il significato biologico

Obiettivi della bioinformatica nell’era post-genomica 1.Immagazzinare, gestire e distribuire l’enorme quantità di informazioni biologiche disponibili 2.Estrarre da queste informazioni, ed in particolare dalla sequenza del genoma degli organismi viventi, informazioni utili per la comprensione dei fenomeni biologici e per lo sviluppo di nuove strategie biomediche e biotecnologiche.

Discipline che contribuiscono allo sviluppo della Bioinformatica Biologia Informatica (sviluppo di programmi di analisi e banche dati) Scienza dei calcolatori Biochimica Matematica Fisica

Principali banche dati che fanno capo al sistema Entrez cDNA completi (full length), con rispettive traduzioni in aminoacidi EST Sequenze non codificanti (rRNA, tRNA etc.) Sequenze genomiche complete o incomplete Genomi virali Genomi mitocondriali Polimorfismi a carico di tutte le sequenze precedenti Vettori di clonaggio PubMed: principale banca dati della letteratura scientifica. Raccoglie le informazioni principali riguardanti gli articoli pubblicati nelle riviste di tutto il mondo. Spesso consente di recuperare facilmente il testo completo. Books: consente l’accesso gratuito on-line ai principali testi di biologia GeneBank: raccoglie tutte le sequenze nucleotidiche disponibili. In realtà, per la maggior parte contiene sequenze di cDNA (con le rispettive traduzioni in minoacidi). Sezioni separate per le banche dati dei genomi. PDB: raccoglie tutte le strutture tridimensionali pubbliche di molecole biologiche Unigene: raccogie tutte le sequenze di cDNA derivanti dallo stesso gene, comprese le EST. RefSeq: raccoglie le sequenze di cDNA più rappresentative e meglio annotate di tutti i geni Gene: raccoglie ed unifica tutte le denominazioni (alias) con cui è noto un certo gene OMIM: raccoglie tutte le informazioni riguardanti i geni implicati, o potenzialmente implicati, nelle patologie umane.

Queste banche dati sono estremamente legate le une alle altre, in modo tale da poter reperire facilmente informazioni diverse sugli stessi geni. Concetto fondamentale: integrazione

Come orientarsi nelle banche dati: l’allineamento di sequenze

Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che gli atomi costituenti assumono nello spazio. Questa a sua volta dipende dalla sequenza delle unità elementari (in genere si tratta di aminoacidi, ma lo stesso discorso vale anche per i nucleotidi). Molecole che hanno sequenza primaria simile tendono ad avere strutture secondarie e terziarie simili. Se due proteine sono identiche al 50%, è altamente probabile che la loro struttura tridimensionale sia quasi completamente sovrapponibile.

Analisi filogenetica Confrontando le sequenze ortologhe di specie diverse si può arrivare a tracciare una storia molto precisa della loro evoluzione

Evoluzione divergente delle sequenze biologiche Specie ancestrale A BC Specie derivata 1Specie derivata 2 B C Sequenze ortologhe

Evoluzione divergente delle sequenze biologiche Specie 1 A A A’ Sequenze paraloghe Specie 1 AA’ Duplicazione genica

Identità ed omologia Gli aminoacidi possono essere raggruppati in base alle loro caratteristiche fisico-chimiche. Su questa base un aminoacido può essere definito simile ad un altro Dato un allineamento di sequenze: Percentuale di identità= di residui identici/residui totali*100 (residui identici + residui simili) Percentuale di omologia= * 100 (residui totali) RKRK Carichi positivamente R K D E Carichi F L I V W Idrofobici

Sequenze identiche al 62% Chymotrypsin MLGITVLAALLACASSCGVPSFPPNLSARVVGGEDARPHSWPWQISLQYLKNDTWRHTCG :..:..:.: : ::: :..::.. ::::::.:::.:::::.::::.: : :::: Elastase MIRTLLLSTLVAGALSCGDPTYPPYVT-RVVGGEEARPNSWPWQVSLQYSSNGKWYHTCG Chymotrypsin GTLIASNFVLTAAHCISNTRTYRVAVGKNNLEVEDEEGSLFVGVDTIHVHKRWNALLLR- :.:::...:::::::::..:::::..:..:: : : ::: :.:. : ::: ::.. Elastase GSLIANSWVLTAAHCISSSRTYRVGLGRHNLYVA-ESGSLAVSVSKIVVHKDWNSNQISK Chymotrypsin -NDIALIKLAEHVELSDTIQVACLPEKDSLLPKDYPCYVTGWGRLWTNGPIADKLQQGLQ :::::.:::. : :.: ::.::::..::..::::::::::: :::. : :::: Elastase GNDIALLKLANPVSLTDKIQLACLPPAGTILPNNYPCYVTGWGRLQTNGAVPDVLQQGRL Chymotrypsin PVVDHATCSRIDWWGFRVKKTMVCAGGDGVISACNGDSGGPLNCQLENGSWEVFGIVSFG :::.:::: ::: ::.:.:::::::::.::::::::::::.: :.: :::::: Elastase LVVDYATCSSSAWWGSSVKTSMICAGGDGVISSCNGDSGGPLNCQASDGRWQVHGIVSFG Chymotrypsin SRRGCNTRKKPVVYTRVSAYIDWINEKM-QL :: :::.:: :.:::: ::::::.. Elastase SRLGCNYYHKPSVFTRVSNYIDWINSVIANN Sequenze simili= struttura e funzione simili

Sequenze identiche al 62%

Allineamento di sequenze L’evoluzione non opera direttamente né sulla sequenza del DNA né sulla struttura primaria delle proteine, ma sulla conformazione tridimensionale di queste ultime. In considerazione di questo e della degenerazione del codice genetico, la struttura tridimensionale delle proteine è più conservata della sequenza primaria, che a sua volta è più conservata della sequenza dei nucleotidi codificanti. -ATGTTGAAGTTT- - M L K F - -ATGTTGAAGTTT- - M L K F - -ATGTTGAAGTTT- - M L K F - -ATGTTGAAGTTC- - M L K F - Sequenza a.a identica -ATGTTGAAGTAT- - M L K Y - Sequenza a.a diversa, stuttura conservata -ATGTTGAAGGTT- - M L K V - Sequenza a.a diversa, stuttura destabilizzata

Alcune regioni delle proteine sopportano meglio le mutazioni rispetto ad altre. In particolare le regioni importanti per la produzione della struttura secondaria (alfa eliche e foglietti beta) sono poco tolleranti, mentre le regioni di giunzione possono essere molto più variabili.

Come faccio a stabilire quale è l’allineamento migliore tra tutti gli allineamenti possibili? L’allineamento migliore tra due sequenze è quello che mi dà il punteggio più elevato. Non è detto che l’allineamento ottimale per un sistema di scoring sia ottimale anche usando un sistema di scoring differente. Esistono algoritmi che sono in grado di trovare gli allineamenti migliori tra due sequenze. Alcuni lo fanno in maniera matematicamente esatta (programmi lenti e accurati). Altri non danno la garanzia di trovare l’allineamento matematicamente migliore, ma sono decisamente più veloci. Questi ultimi sono estremamente più usati per fare ricerche in banca dati. Tutti questi programmi creano ed esplorano sistematicamente una matrice bidimensionale

* * * * * * * * * * ** * * * * * * P A O L O R O S S I PAOLOROSSIPAOLOROSSI Comparazione di sequenze: Dot Plot Analysis Sequenze identiche

* * * * * * * * * * * * * * * P A O L O R O S S I PAOLARUSSOPAOLARUSSO Comparazione di sequenze: Dot Plot Analysis Sequenze simili

* * * * * * P A O L O R O S S I CARLAVERDICARLAVERDI Comparazione di sequenze: Dot Plot Analysis Sequenze diverse

P A O L O M A R I A R O S S I PAOLOROSSIPAOLOROSSI Comparazione di sequenze: Dot Plot Analysis * *** *** * *** ** *** ** ** * Inserzioni/delezioni

Come posso allineare due sequenze? AATGACTA | AGATTGTC -AATGACTA || AGATTGTC- --AATGACTA | || | AGATTGTC-- Slittamento relativo A volte per ottenere un buon allineamento può essere necessario inserire delle interruzioni (gaps) AAGTGACTA || | AATGACTAA AAGTGACTA- || |||||| AA-TGACTAA

Come faccio a stabilire quanto è ‘buono’ un allineamento? E’ estremamente importante fissare delle regole per attribuirgli un punteggio (score). In particolare, se sto lavorando con due sequenze nucleotidiche devo decidere: Quanto vale trovare una identità (match) Quanto vale trovare una non identità (mismatch) Quanto vale trovare una interruzione (gap open penalty) Quanto vale la lunghezza dell’interruzione (gap extension penalty)

Esempi Sistema di punteggio (scoring system): Match = +1 Mismatch = 0 Gap open penalty = -1 Gap extension penalty = 0 AAGTGACTA || | AATGACTAA AAGGTGACTA- || |||||| AA--TGACTAA Score = = 3 Score = = 6 AAGTGACTA- || |||||| AA-TGACTAA Score = = 6 Valutazione allineamenti:

Esempi Sistema di punteggio (scoring system): Match = +2 Mismatch = -1 Gap open penalty = -1 Gap extension penalty = 0 AAGTGACTA || | AATGACTAA AAGGTGACTA- || |||||| AA--TGACTAA Score = = 0 Score = = 14 AAGTGACTA- || |||||| AA-TGACTAA Score = = 14 Valutazione allineamenti:

Esempi Sistema di punteggio (scoring system): Match = +2 Mismatch = -1 Gap open penalty = -2 Gap extension penalty = -1 AAGTGACTA || | AATGACTAA AAGGTGACTA- || |||||| AA--TGACTAA Score = = 0 Score = = 12 AAGTGACTA- || |||||| AA-TGACTAA Score = = 13 Valutazione allineamenti:

Nel caso delle sequenze aminoacidiche il sistema di punteggio deve essere più complicato. Infatti in questo caso devo tenere conto non solo del fatto che due aminoacidi possono essere uguali o diversi, ma anche del fatto che alcuni aminoacidi hanno proprietà simili, e per questo possono non destabilizzare la struttura e la funzione della proteina. Il sistema di punteggio per le sequenze aminoacidiche si chiama matrice di sostituzione (substitution matrix). Per gli acidi nucleici il discorso è più semplice, ma anche in questo caso esistono delle matrici apposite, che tengono conto del fatto che, quando il DNA muta, le transizioni hanno una frequenza diversa dalle transversioni.

Matrice PAM 30

Calcolo matrici di sostituzione su base evolutiva KQASHLLKYDSTLGIFDADVKPSGETAISVD KQASHLVKYDSTLGIFDADVRPSGETAISVD KQASHLLKYESTLGIFDADVKPSGATAISVD KQACHLLKYDSTLGIFDAEVKPSGETAISVD KQASHLLKYDSTLGIFDADVKPSGETAISVD KQASHLLKYDSSLGIFDADVKASGETAISVD KQASHILKYDSTLGIFDADVKPSGETAITVD DQASHLLKYDSTLGLFDADVKPSGETAISVD KQASHLLKFDSTLGIFDADVRPSGETAISVD KQASSLLKYDSTLGIFDADVKPTGETAISVD KQVSHLLKYDSTLGIFEADVKPSGETAISVD KQASHLLKYDVTLGIFDADVKPSGETPISVD KQASHLCKYDSTLGIFDADVKPSVETAISVD KQASHLLKYQSTLGIFDADVKPSGETAISVE Freq. Oss. Coppia a.a. Odd= Freq. attesa Coppia a.a. Score= ln Odd (bit)

Scoring matrix = PAM 30 Gap open penalty = -10 Gap extension penalty = -2 Calcolo dello score di un allineamento

V H K R W N A L L L Comparazione di sequenze: Dot Plot Analysis VHKDWNSNQIVHKDWNSNQI

V H K R W N A L L L Comparazione di sequenze: Dot Plot Analysis VHKDWNSNQIVHKDWNSNQI

Allineamento globale e allineamento locale Alcuni programmi, date due sequenze, generano in ogni caso l’allineamento migliore possibile tra di esse, su tutta la lunghezza. Questo tipo di allineamento prende il nome di allineamento globale. Non necessariamente un allineamento globale ha significato biologico. Altri programmi, date due sequenze, non le allineano necessariamente su tutta la lunghezza, ma vanno a cercare soltanto i tratti in cui l’omologia tra le due sequenze (ossia lo score) supera una certa soglia. In questi si parla di allineamento locale.

A causa della struttura modulare delle proteine, i programmi di allineamento locale sono preferibili per cercare similitudini all’interno di una banca dati. I programmi di allineamento globale vanno bene quando si confrontano tra loro sequenze omologhe su tutta la lunghezza

Alcuni dei programmi più utilizzati Algoritmo di Needleman-Wunsch = allineamento globale, matematicamente rigoroso. Molto lento mai utilizzato per ricerhe in banca dati. Algoritmo di Smith-Watermann = allineamento locale, matematicamente rigoroso. Molto lento, utilizzato solo recentemente per ricerhe in banca dati, grazie allo sviluppo di calcolatori dedicati. FASTA = allineamento locale, piuttosto rigoroso, più veloce dei precedenti. BLAST = (Basic Local Alignment Search Tool). Poco rigoroso, ma estremamente più veloce dei precedenti. Pertanto è molto utilizzato per le ricerche di routine. Gli altri sono più utilzzati quando si vogliono trovare deboli similitudini.

Come funziona BLAST? La sequenza di cui si vogliono trovare gli omologhi viene scomposta in tutte le possibili parole di una lunghezza prefissata (ad esempio due o tre se si tratta di aminoacidi) MLFFRRQPKHCSDTEF MLFLFFFFRFRRRRQRQPQPK PKHKHCHCSCSDSDTDTETEF Le parole di tre lettere vengono quindi cercate in tutte le sequenze della banca dati (operazione estremamente rapida)

Query: MLFFRRQPKHCSDTEF MLFLFFFFRFRRRRQRQPQPK PKHKHCHCSCSDSDTDTETEF Subject: ASDDERTGLFDRKQPKACMDSEFKATT QPK ::: In seguito l’allineamento viene esteso HCSDTEF : :.: Subject: ASDDERTGLFDRKQPKACMDSEFKATT QPK ::: MLFFRR :: :. Query:

Gapped BLAST

Versioni disponibili del programma Blast BlastN = ricerca in un database di sequenze nucleotidiche le sequenze omologhe ad una sequenza nucleotidica data. BlastP = ricerca in un database di sequenze aminoacidiche le sequenze omologhe ad una sequenza aminoacidica data. BlastX = data una sequenza nucleotidica, la traduce in tutte e sei le possibili cornici di lettura (traduzione dinamica), e cerca le seqeunze omologhe alle traduzioni in un database di sequenze aminoacidiche tBlastN = data una sequenza aminoacidica, la confronta con tutte le possibili traduzioni di un database di sequenze nucleotidiche. tBlastX = data una sequenza nucleotidica, confronta la sua traduzione dinamica con tutte le possibili traduzioni di un database di sequenze nucleotidiche.

Geni ortologhi Due geni appartenenti a specie diverse si definiscono ortologhi se hanno una forte omologia e svolgono la stessa funzione. Quasi certamente le proteine codificate hanno strutture tridimensionali sovrapponibili. Ùquesti geni hanno avuto origine da un antenato comune in un periodo evolutivo precedente. Geni paraloghi Si definiscono paraloghi i geni derivanti da eventi di duplicazione e divergenza nel genoma della stessa specie. Questi eventi possono portare alla produzione di famiglie di proteine correlate con strutture e funzioni biologiche simili. A volte però i paraloghi possono diversificarsi moltissimo, ed acquisire funzioni specializzate nonostante la struttura simile.

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo si chiama CLUSTALW. Da un allineamento multiplo posso derivare molte informazioni. In particolare mi può aiutare a fare una predizione di struttura secondaria, a dire quali sono gli aminoacidi essenziali per tutta la famiglia, a dire quali sono gli aminoacidi che conferiscono particolari caratteristiche, a identificare particolari domini funzionali.

ATA SSGGYRKGVTEAKLKVAINGFGRIGRNFLRCWHGRKDSPLDIIAIND-TGGV 99 ATB AQIIPKAVTTSTPVRGETVAKLKVAINGFGRIGRNFLRCWHGRKDSPLEVVVLND-SGGV 119 HS MG--KVKVGVNGFGRIGRLVTRAAF--NSGKVDIVAINDPFIDL 40 MM MVKVGVNGFGRIGRLVTRAAI--CSGKVEIVAINDPFIDL 38 XL MVKVGINGFGCIGRLVTRAAF--DSGKVQVVAINDPFIDL 38 DM MSKIGINGFGRIGRLVLRAAI--DKG-ANVVAVNDPFIDV 37 CE MS--KANVGINGFGRIGRLVLRAAV--EKDTVQVVAVNDPFITI 40 SP MA--IPKVGINGFGRIGRIVLRNAI--LTGKIQVVAVNDPFIDL 40 ATC MADKKIRIGINGFGRIGRLVARVVL--QRDDVELVAVNDPFITT 42 OS MG--KIKIGINGFGRIGRLVARVAL--QSEDVELVAVNDPFITT 40 SC MVRVAINGFGRIGRLVMRIAL--SRPNVEVVALNDPFITN 38 ECA MTIKVGINGFGRIGRIVFRAAQ--KRSDIEIVAIND-LLDA 38 HI MAIKIGINGFGRIGRIVFRAAQ--HRDDIEVVGIND-LIDV 38 ECC MSKVGINGFGRIGRLVLRRLL-EVKSNIDVVAIND-LTSP 38.:.:**** ***. * ::: :**. ATA KQASHLLKYDSTLGIFDADVKPSGETAISVD-----GKIIQVVSNRNPSLLPWKELGIDI 154 ATB KNASHLLKYDSMLGTFKAEVKIVDNETISVD-----GKLIKVVSNRDPLKLPWAELGIDI 174 HS NYMVYMFQYDSTHGKFHG-TVKAENGKLVIN-----GNPITIFQERDPSKIKWGDAGAEY 94 MM NYMVYMFQYDSTHGKFNG-TVKAENGKLVIN-----GKPITIFQERDPTNIKWGEAGAEY 92 XL DYMVYMFKYDSTHGRFKG-TVKAENGKLIIN-----DQVITVFQERDPSSIKWGDAGAVY 92 DM NYMVYLFKFDSTHGRFKG-TVAAEGGFLVVN-----GQKITVFSERDPANINWASAGAEY 91 CE DYMVYLFKYDSTHGQFKG-TVTYDGDFLIVQKDGKSSHKIKVFNSKDPAAIAWGSVKADF 99 SP DYMAYMFKYDSTHGRFEG-SVETKGGKLVID-----GHSIDVHNERDPANIKWSASGAEY 94 ATC EYMTYMFKYDSVHGQWKHNELKIKDEKTLLFG----EKPVTVFGIRNPEDIPWAEAGADY 98 OS DYMTYMFKYDTVHGQWKHSDIKIKDSKTLLLG----EKPVTVFGIRNPDEIPWAEAGAEY 96 SC DYAAYMFKYDSTHGRYAG-EVSHDDKHIIVD-----GKKIATYQERDPANLPWGSSNVDI 92 ECA DYMAYMLKYDSTHGRFDG-TVEVKDGHLIVN-----GKKIRVTAERDPANLKWDEVGVDV 92 HI EYMAYMLKYDSTHGRFDG-TVEVKDGNLVVN-----GKTIRVTAERDPANLNWGAIGVDI 92 ECC KILAYLLKHDSNYGPFPW-SVDFTEDSLIVD-----GKSIAVYAEKEAKNIPWKAKGAEI 92. ::::.*: * : : : : ::. : * Allineamento multiplo generato dal programma CLUSTALW

Caratteristiche di famiglie di proteine derivabili da allineamenti multipli: Profilo= rappresentazione numerica dell’allineamento che valuta: a)Quali residui sono presenti in ogni posizione e con quale frequenza. b)Presenza di residui assolutamente conservati. c)Presenza di eventuali gap. Dagli allineamenti multipli si possono costruire delle position-specific scoring tables (PSST), che riflettono la probabilità di trovare un certo aminoacido in ogni posizione.

Caratteristiche di famiglie di proteine derivabili da allineamenti multipli: Pattern= rappresentazione dell’allineamento che valuta unicamente la presenza di determinati residui per ogni posizione. [IV]-G-x-G-T-[LIVMF]-x(2)-[GS] Motivo= sequenza conservata di aminoacidi che conferisce una specifica funzione o struttura. Blocco= regione conservata di un allineamento multiplo priva di gaps.

Per annotazione si intende il complesso delle informazioni che si possiedono su una determinata sequenza di acido nucleico, come ad esempio: Traduzione nei rispettivi aminoacidi Siti di inizio della trascrizione Siti di inizio della traduzione Segnali di poliadenilazione Giunzioni esoni-introni Informazioni sulla funzione Varianti di sequenza

Predizione di geni all’interno di regioni genomiche Esoni interni (-exon---gt---intron-----ag--exon---) Primo esone (sequenza 5’ UTR) Ultimo esone (sequenza 3’ UTR) Esoni unici Siti di splicing alternativo Promotori (TATA e CAAT boxes) Segnali di poliadenilazione (AAUAAA) ATG di inizio STOP codon Se la sequenza non è completa può essere necessario predire i singoli esoni. Problema estremamente complesso perché per ognuna delle cose da predire non basta un unico criterio. Moltissimi programmi