Informatica e Bioinformatica – A. A

Slides:

Advertisements

Presentazioni simili

- le Medie la Moda la Mediana

Advertisements

Mole e Numero di Avogadro

Equazioni e calcoli chimici

Le distribuzioni di probabilità continue

1 t Mobilità internazionale e conversione dei voti Maria Sticchi Damiani Università della Calabria 8 febbraio 2013.

ECTS: la conversione dei voti Maria Sticchi Damiani Parte IV Conservatorio di Musica “N. Paganini” Genova, 2 maggio

Sistema di riferimento sulla retta

Corsi per il personale Bicocca-Insubria

Sequenza-struttura-funzione

Allineamento di sequenze

Meccanica 2 1 marzo 2011 Cinematica in una dimensione

Time Sharing Il termine “Time Sharing” proviene dall'inglese e significa letteralmente “partizione di tempo”. Questa è una tecnica sviluppatasi negli.

Lez. 3 - Gli Indici di VARIABILITA’

(se a = 0 l’equazione bx + c = 0 è di primo grado)

Bioinformatica Prof. Mauro Fasano

1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.

Esercitazioni su circuiti combinatori

I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.

1 HTML - I Frame Laboratorio di Applicazioni Informatiche II mod. A.

Identificazione delle attività

Processi Aleatori : Introduzione – Parte I

1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.

Corso di Informatica (Basi di Dati)

CORSO DI RICERCA BIBLIOGRAFICA 4. giornata (20 marzo 2008) Web of Science Beilstein e Gmelin Crossfire.

Metodi basati sulle similitudini per dedurre la funzione di un gene

Corso di Laurea in Ingegneria per lAmbiente e il Territorio Informatica per lAmbiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.

Num / 36 Lezione 9 Numerosità del campione.

Espressioni condizionali

Lezione 13 Equazione di Klein-Gordon Equazione di Dirac (prima parte)

EXCEL FORMATTAZIONE DATI.

corso DI GEOMETRIA DESCRITTIVA

Educare al multimediale 1 – Verso il digitale 2 Presentazione a cura di Gino Roncaglia Prima parte: Informazione in formato digitale.

Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Elementi di Informatica di base

Progettare un database

A cosa serve GWAESSE? E’ un software di semplice utilizzo per la configurazione e la preventivazione di quadri AS (per moli e campeggi), ASC (per cantiere)

I principali tipi di grafici

Passo 3: calcolo del costo minimo

La tabella dei voti ECTS Maria Sticchi Damiani Sapienza, Roma 26 settembre

QUIZ – PATENTE EUROPEA – ESAME WORD

Fondamenti delle Reti di Computer Seconda parte Carasco 15/04/2010.

LA CIRCONFERENZA.

1 Ly-LAB Sistema di gestione dei dati analitici di laboratorio.

I programmi di ricerca in banche dati possono essere

Alcuni esempi di domande di esame

Modulo 6 Test di verifica

Dip. Scienze Biomolecolari e Biotecnologie

Metodi matematici per economia e finanza. Prof. F. Gozzi

1 PerfectFit06 Sistema di personalizzazione dei contenuti per gli scavi archeologici di Ercolano Candidato: Vincenzo Scognamiglio Relatore: Prof. Ernesto.

Modulo 5 - Database. Contenuti della lezione 5.1.1Concetti Fondamentali 5.1.2Organizzazione di un Database 5.1.3Relazioni 5.2.1Lavorare con i database.

La quantità chimica LA MOLE La quantità chimica:la mole.

A.P. cat. B - 1 Per chi vuole: Libro di testo D.P. Curtis, K. Foley, K. Sen, C. Morin Informatica di base 2° edizione Mc Graw-Hill Companies.

CORSO Di WEB DESIGN prof. Leonardo Moriello

Microsoft Access Maschere (II).

IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.

Esempio di utilizzo del programma BLAST disponibile all’NCBI

Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.

Purtroppo non esiste un modo univoco per indicare un gene

Microsoft Access Chiavi, struttura delle tabelle.

Allineamento di sequenze

Cloud Tecno V. Percorso didattico per l’apprendimento di Microsoft Access 4 - Le maschere.

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.

Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.

Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.

FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.

Analisi matematica Introduzione ai limiti

Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:

Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.

Transcript della presentazione:

Informatica e Bioinformatica – A. A. 2012-2013

Tra i 16 diversi record presenti in PROSITE che contengono il termine ricercato troviamo il dominio PDZ (PS50106) Informatica e Bioinformatica – A. A. 2012-2013

Nota: gli Hidden Markov Models sono complessi modelli statistici che dall’analisi di sequenze primarie permettono la predizione di domini proteici e strutture proteiche. Informatica e Bioinformatica – A. A. 2012-2013

Esempio di ricerca in Pfam Ricerca dei domini presenti nella proteina ZASP: sono individuati 6 record Possono essere visualizzati le principali architetture proteiche che possiedono domini PDZ Informatica e Bioinformatica – A. A. 2012-2013

Possono essere visualizzati anche gli allineamenti dei domini nelle differenti proteine Informatica e Bioinformatica – A. A. 2012-2013

I browser genomici UCSC genome browser University of California Santa Cruz (http://genome.ucsc.edu/) L’enorme aumento dei dati riguardanti interi genomi, in particolare quelli derivanti dai progetti di sequenziamento di vertebrati, ha richiesto lo sviluppo di veri e propri browser di genomi. Per questo motivo presso la UCSC è stato sviluppato uno dei primi genome browser in grado di fornire una rapida visualizzazione grafica di ogni regione di genoma di qualsivoglia lunghezza assieme ad una grande quantità di informazioni come: geni noti, geni predetti, ESTs (expressed sequence TAGs), mRNA, geni omologhi di altri organismi, ecc. Successivamente i principali siti (NCBI, EBI ecc.) hanno sviluppato piattaforme sempre più complesse, in grado di integrare il maggior numero di informazioni su una certa regione in particolare del genoma umano e di numerosi altri organismi. Definizione di browser: interfaccia utente che permette di la navigazione tra oggetti, ad esempio Mozilla Web Browser. Informatica e Bioinformatica – A. A. 2012-2013

http://genome.ucsc.edu/ Informatica e Bioinformatica – A. A. 2012-2013

group Nota: durante il sequenziamento di un genoma, spesso vengono rilasciate versioni successive specialmente nella fase finale del progetto: possono essere più o meno definitive. Qui si fa riferimento a varie versioni (release) del genoma umano (l’ultima è del 2009). Organismo di cui si vuole visualizzare la regione genomica Gruppo di organismi di interesse Informatica e Bioinformatica – A. A. 2012-2013

Pulsanti per ingrandire o rimpicciolire l’area di interesse Pulsanti di spostamento sul genoma Posizione attuale sul genoma chr: rappresentazione schematica e posizione Permette di “saltare” sulla posizione digitata sulla finestra di sinistra Informatica e Bioinformatica – A. A. 2012-2013

Geni con esoni, le barre spesse, e introni, le barre sottili. Posizione (bp) Geni con esoni, le barre spesse, e introni, le barre sottili. Traccia dei trascritti Grado di conservazione della sequenza tra organismi diversi Informatica e Bioinformatica – A. A. 2012-2013

Moltissimi sono i campi a disposizione, essi possono essere visualizzati in modo diverso o nascosti utilizzando le opzioni presenti nella parte inferiore della pagina Tipologia di traccia Ci sono varie possibilità di visualizzazione di ogni informazione sul genome browser. Provate ad esercitazione Informatica e Bioinformatica – A. A. 2012-2013

UCSC Genome Browser: descrizione del gene scelto ….e molte altre informazioni!! Informatica e Bioinformatica – A. A. 2012-2013

Purtroppo non esiste un modo univoco per indicare un gene Purtroppo non esiste un modo univoco per indicare un gene. Anche i geni che abbiamo spesso utilizzato come esempi (telethonin o zasp) possono essere scritti in modi differenti (tcap , LDB3). Questo crea confusione e non facilita la ricerca informatica. The Human Genome Organisation (HUGO) ha istituito un comitato allo scopo di dare un unico nome significativo a tutti i geni umani. Con questo intento è stato costruito il database HGNC (HUGO Gene Nomenclature Committee). http://www.genenames.org/ Informatica e Bioinformatica – A. A. 2012-2013

http://geneontology.org/ Oltre che esistere differenti nomi per lo stesso gene/proteina, possono esistere o essere adottati anche differenti modi per descrivere le loro funzioni e le loro localizzazioni. A volte è corretto assegnare differenti funzioni ad una molecola biologica (una proteina che svolge più di una funzione): per non generare confusioni è però necessario usare una terminologia univoca per ogni funzione. Per questo motivo è stato fondato il database Gene Ontology: fornisce una definizione precisa del ruolo svolto dalle singole proteine tramite un vocabolario (le ontologie) che consenta di definire in modo corretto e non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la/e sue localizzazioni cellulare. Nota: i link con la sigla ‘GO’ rimandano al database della gene ontology Informatica e Bioinformatica – A. A. 2012-2013

ALLINEAMENTO DI SEQUENZE Informatica e Bioinformatica – A. A. 2012-2013

DATABASE DI SEQUENZE RICERCA TESTUALE SIMILARITÀ Ricerca dei record i cui campi soddisfano determinati criteri. già vista nelle precedenti lezioni Ricerca dei record che hanno le sequenze più “simili” ad una sequenza fornita come query. ora ci occuperemo di questa. Informatica e Bioinformatica – A. A. 2012-2013

CONSIDERAZIONI GENERALI Acidi nucleici e proteine sono costituiti da sequenze lineari rispettivamente di nucleotidi e di aminoacidi; entrambi possono essere rappresentati da singole lettere o stringhe di caratteri. Un acido nucleico rappresentato come stringa di caratteri, formato FASTA. >gi|11496883|ref|NM_001832.2| Homo sapiens colipase, pancreatic (CLPS), mRNA CTGTCTCCCGCCACCCACACCAGCTGTCCCACTCACCATGGAGAAGATCCTGATCCTCCTGCTTGTCGCCCTCTCTGTGGCCTATGCAGCTCCTGGCCCCCGGGGGATCATTATCAACCTGGAGAACGGTGAGCTCTGCATGAATAGTGCCCAGTGTAAGAGCAATTGCTGCCAGCATTCAAGTGCGCTGGGCCTGGCCCGCTGCACATCCATGGCCAGCGAGAACAGCGAGTGCTCTGTCAAGACGCTCTATGGGATTTACTACAAGTGTCCCTGTGAGCGTGGCCTGACCTGTGAGGGAGACAAGACCATCGTGGGCTCCATCACCAACACCAACTTTGGCATCTGCCATGACGCTGGACGCTCCAAGCAGTGAGACTGCCCACCCACTCCCACACCTAGCCCAGAATGCTGTAGGCCACTAGGCGCAGGGGCATCTCTCCCCTGCTCCAGCGCATCTCCCGGGCTGGCCACCTCCTTGACCAGCATATCTGTTTTCTGATTGCGCTCTTCACAATTAAAGGCCTCCTGCAAACCTT La corrispondente proteina rappresentata come stringa di caratteri, formato FASTA. >colipase-protein MEKILILLLVALSVAYAAPGPRGIIINLENGELCMNSAQCKSNCCQHSSALGLARCTSMASENSECSVKTLYGIYYKCPCERGLTCEGDKTIVGSITNTNFG ICHDAGRSKQ La stringa di caratteri è soltanto una rappresentazione semplificata del corrispondente acido nucleico o proteina, ma permette di gestire ed analizzare le sequenze mediante opportuni programmi informatici. Informatica e Bioinformatica – A. A. 2012-2013

Ricerca di similarità tra sequenze Quando viene ottenuta una sequenza nucleotidica o proteica si cerca innanzitutto di individuarne la funzione. Come? Viene subito in mente di cercare tra le sequenze già esistenti in database, alla ricerca di una o più sequenze che siano “confrontabili” alla nostra. Da questa ricerca cosa possiamo ottenere? Database di sequenze Sequenza query Confronti Nel caso più semplice, potremmo trovare una sequenza identica alla nostra, magari a funzione già nota. Potremo quasi sicuramente trasferire la funzione della sequenza target (subject) anche alla nostra sequenza query. Potrebbe non esserci alcuna sequenza identica alla nostra. Dovremo in questo caso cercare le sequenze più simili alla nostra: in questo caso potremo formulare delle ipotesi sull’ipotetica funzione della nostra sequenza query. Più alto sarà il livello di similarità tra le sequenze, più attendibili saranno le nostre ipotesi. L’allineamento di sequenze basato sulla similarità è un metodo che ci permette di assegnare una probabile funzione a sequenze prima sconosciute. Informatica e Bioinformatica – A. A. 2012-2013

Quando inferire la funzione! Se le sequenze di due proteine o di DNA sono molto simili, allora lo saranno anche le loro strutture e le funzioni. Non è però vero il contrario. Infatti, proteine con funzione e struttura simili non hanno necessariamente sequenze simili (ad esempio i trasportatori di membrana). Ci possono essere proteine con la stessa funzione, ma con struttura e soprattutto sequenza nucleotidica corrispondente diversa. Es. mutazioni silenti che interessano la terza base di un codone.: l’aminoacido rimane lo stesso ma è cambiato il DNA! SEQUENZA SIMILE STRUTTURA SIMILE FUNZIONE SIMILE Informatica e Bioinformatica – A. A. 2012-2013

Costruzione dell’albero filogenetico degli organismi Analisi comparata Un aspetto importante della biologia è capire come si siano originate le strutture biologiche nel corso dell'evoluzione: evoluzione biologica e filogenesi. Analisi comparata classica: confrontando l'anatomia dei vertebrati, si può dedurre che i mammiferi sono nati da un gruppo di rettili nati a loro volta da un gruppo di anfibi nati a loro volta da un gruppo di pesci. Analisi comparata a livello molecolare: confrontando sequenze proteiche in organismi diversi è possibile ricostruire passo dopo passo l'evoluzione delle proteine nel corso della filogenesi e capire come esse abbiano affinato le loro funzioni; oppure come siano nate funzioni nuove da proteine ancestrali con funzioni diverse. l’allineamento di sequenze è oggi alla base di molti studi di filogenesi molecolare. Set di geni/proteine Organismo A Analisi comparata delle similarità Set di geni/proteine Organismo B Costruzione dell’albero filogenetico degli organismi A C E B D Set di geni/proteine Organismo C Allineamento delle sequenze Set di geni/proteine Organismo D Set di geni/proteine Organismo E Informatica e Bioinformatica – A. A. 2012-2013

Alcune definizioni: Similarità, omologia ed analogia Spesso si fa confusione tra similarità ed omologia. La similarità è un aspetto quantitativo che indica un livello di somiglianza tra le sequenze: prevede che venga fissato un criterio comparativo (% identità, % mutazioni conservative ecc.). L’omologia è un aspetto qualitativo che riguarda più propriamente la “funzione” delle sequenze ed indica un’origine filogenetica comune. L'omologia presuppone l'esistenza di un organismo ancestrale comune da cui le strutture omologhe si sono evolute. Ad esempio l'ala di un uccello e la pinna anteriore di una foca sono omologhi perché si suppone che si siano entrambi evoluti dall'arto anteriore di un rettile ancestrale. Invece, il termine analogia indica che due strutture hanno una funzione simile, ma che si sono evolute indipendentemente. Ad esempio l'ala di un uccello e quella di una farfalla. In questo caso la similarità è determinata da una convergenza adattativa anziché dalla stessa origine evolutiva. Informatica e Bioinformatica – A. A. 2012-2013

Il termine omologia si applica anche a sequenze di acidi nucleici e proteine: due geni sono omologhi se hanno un gene ancestrale da cui sono originati entrambi. La similarità tra due sequenze è generalmente dovuta ad una origine evolutiva comune per cui molto spesso i termini "similarità" e "omologia" si confondono. Quando non si è certi di un’origine evolutiva comune si dovrebbe parlare di similarità. Un errore ancora più grave è di parlare di percentuale di omologia, che non ha nessun senso. Informatica e Bioinformatica – A. A. 2012-2013

Evoluzione genica ed omologia speciazione: origine di una nuova specie da una già esistente (A) Quando due geni omologhi derivano dalla speciazione si parla di geni ortologhi. (B) Quando due geni omologhi derivano dalla duplicazione genica, si parla di geni paraloghi. Deve essere chiaro che sia i geni paraloghi che i geni ortologhi sono omologhi perchè il termine omologia si riferisce all’esistenza di un comune ancestor. Informatica e Bioinformatica – A. A. 2012-2013

ESEMPIO Nel corso dell'evoluzione dei vertebrati (prima della evoluzione degli anfibi), si è verificato un evento di duplicazione del gene della globina (globina alfa e beta). Oggi alcuni pesci hanno un singolo gene, mentre altri ne hanno due: uno simile alla globina alfa e uno alla globina beta. Dai pesci con due globine si sono evoluti gli anfibi, e da questi rettili, uccelli e mammiferi. Tutti i geni della globina sono omologhi in quanto derivano da un unico gene ancestrale: - i geni delle globine alfa sono ortologhi tra loro così come i geni delle globine beta; - i geni dell’alfa e beta globina sono paraloghi tra loro in quanto derivano da un processo di duplicazione genica. Vertebrati Pesci con alfa e beta globine Pesci con un solo gene per la globina Anfibi Rettili Mammiferi Globina di uomo Informatica e Bioinformatica – A. A. 2012-2013

Cominciamo ad allineare tra loro le sequenze: la DOT MATRIX Il primo semplice sistema di visualizzazione di allineamenti risale al 1970 e si chiama metodo della Dot Matrix (matrice a punti). Le due sequenze da confrontare sono inserite ai margini di una matrice. Se le due lettere corrispondenti ad una casella sono uguali, allora la casella viene colorata di nero ed apparirà come un punto (dot) all’interno della matrice. Gli allineamenti di una certa lunghezza appariranno come segmenti diagonali e saranno distinguibili visivamente. Ad esempio, il programma DotLet si basa sul metodo della Dot Matrix. Informatica e Bioinformatica – A. A. 2012-2013

Analisi della matrice Confrontando due sequenze identiche (la stessa sequenza sia in orizzontale che verticale) otterremo una diagonale continua che parte dall'angolo in alto a sinistra per arrivare a quello in basso a destra. NOTA: statisticamente parlando, dal confronto tra sequenze proteiche ci possiamo aspettare una casella positiva ogni 20. Ancor di più, dal confronto di sequenze di acidi nucleici potremmo avere una casella positiva ogni 4: si crea un notevole rumore di fondo. Un modo per ridurre il rumore di fondo è di considerare la media dei valori presenti sulla diagonale all’interno di una determinata finestra (window) invece che considerare le singole caselle della matrice. Variazione del rumore di fondo con diversi valori del parametro window. Informatica e Bioinformatica – A. A. 2012-2013

Osservazioni Significato della diagonale posta in prossimità dell'angolo in alto a destra: la parte finale della sequenza orizzontale è simile alla parte iniziale della sequenza verticale. In altre parole, la sequenza verticale è simile alla sequenza orizzontale in due porzioni distinte, possibilmente generate da parziale duplicazione del gene. Una diagonale parallela quella principale indica una parziale duplicazione genica o la presenza di domini multipli. Informatica e Bioinformatica – A. A. 2012-2013

La diagonale principale della figura mostra un'evidente interruzione nella parte centrale per poi continuare su una diagonale diversa, un po' più bassa. Questi salti di diagonale sono dovuti ad alcuni segmenti di sequenza che sono presenti in una sequenza, ma non nell'altra. In altre parole, una sequenza possiede un gap (discontinuità, buco) rispetto all’altra. Nel caso del nostro esempio abbiamo un gap (delezione) nella sequenza orizzontale o, se si preferisce, un segmento di sequenza aggiuntivo (inserzione) nella sequenza verticale. Esempio di gap tra due sequenze Informatica e Bioinformatica – A. A. 2012-2013

Schema per l’interpretazione della Dot Matrix Informatica e Bioinformatica – A. A. 2012-2013

Con l'approccio della dot matrix viene semplicemente mostrata una matrice, la quale viene in seguito interpretata visivamente ed in modo soggettivo. Abbiamo bisogno di un sistema che sia anche in grado di estrarre i dati dalla matrice e trovare automaticamente gli allineamenti migliori, cioè di identificare il "percorso" migliore all'interno della matrice. Occorre individuare un metodo per confrontare sequenze che utilizzi un criterio per quantificare il grado di similarità tra sequenze. servono dei programmi informatici capaci di applicare appositi algoritmi di allineamento (metodo di allineamento) e che sfruttino un criterio di similarità capace di stimare la bontà di un certo allineamento. Informatica e Bioinformatica – A. A. 2012-2013

RICERCA DELLE SIMILARITÀ TRA 2 SEQUENZE Per determinare la similarità tra due sequenze dobbiamo definire: 1. l’algoritmo di allineamento 2. il criterio di similarità 1. ALGORITMO DI ALLINEAMENTO Un algoritmo è caratterizzato da - l’insieme di tutte le operazioni da eseguire per risolvere un problema (determinazione di tutti i possibili allineamenti) e dalla - complessità, cioè da come varia il numero delle operazioni da effettuare al variare della dimensione del problema: il tempo di esecuzione del programma che implementa l’algoritmo è infatti proporzionale alla complessità dell’algoritmo! Esempio: algoritmo di scorrimento. Si fa scorrere una sequenza sull’altra contando le identità tra le due sequenze 4 identità Informatica e Bioinformatica – A. A. 2012-2013

2. CRITERIO DI SIMILARITÀ Funzione di score: L’allineamento delle sequenze dovrebbe essere caratterizzato da un punteggio (score), col quale è possibile valutare (secondo i criteri impostati) il grado di similarità. Ad esempio, con l’algoritmo di scorrimento e una semplice funzione di score che assegni ‘1’ se le lettere tra le due sequenze sono uguali; ‘0’ se le lettere sono diverse, per ogni allineamento si ricava uno score dato dalla somma ottenuta da tutti gli appaiamenti. Il ‘miglior’ allineamento potrebbe essere quello che ha ottenuto il maggior punteggio. Questo esempio di funzione di score però non rappresenta un criterio molto valido: non ha senso penalizzare tutte le differenze (i mismatch) allo stesso modo! in genere nelle proteine la sostituzione tra aminoacidi carichi non comporta grandi cambiamenti strutturali, mentre la sostituzione di aminoacidi aromatici con altri carichi comporta spesso pesanti cambiamenti conformazionali. Per questo sono state introdotte le matrici di sostituzione (vedi prossima slide). Inoltre possono essere adottate particolari penalità (score) per l’apertura o l’estensione di un gap che si sommano allo ‘score’ totale. Adozione di criteri differenti  funzioni di score differenti  score finali differenti Informatica e Bioinformatica – A. A. 2012-2013

LE MATRICI DI SOSTITUZIONE Nel caso dell’allineamento di aminoacidi è opportuno applicare dei criteri di similarità che non si limitino a verificare l’identità assoluta, ma tengano conto del fatto che gli aminoacidi possono essere più o meno simili tra loro: aminoacidi molto simili possono essere indifferentemente sostituiti in una proteina senza una variazione apprezzabile nella struttura (e quindi funzione) della proteina. Per esempio acido aspartico (D) e acido glutammico (E) sono molto simili e nel corso dell’evoluzione prendono facilmente il posto l’uno dell’altro nelle proteine. Viceversa acido aspartico (D) e triptofano (W) sono molto diversi e non sono interscambiabili. E’ ragionevole valutare differentemente la sostituzione di D con E e di D con W. Questa tipologia di confronti viene descritta in matrici quadrate di 20x20 caselle in cui si attribuisce un punteggio ad ogni possibile coppia di aminoacidi: - più alto è il punteggio tanto più interscambiabili sono gli aminoacidi; - punteggi negativi penalizzano invece aminoacidi molto differenti. Approfondiamo brevemente le matrici di sostituzione più diffuse, le matrici PAM e le matrici BLOSUM. Informatica e Bioinformatica – A. A. 2012-2013

MATRICI PAM (point accepted mutation) Le matrici PAM (mutazioni puntiformi accettate) elencano la probabilità di cambiamento da un aminoacido ad un altro in sequenze proteiche omologhe nel corso dell’evoluzione. Sono basate su uno studio di filogenesi molecolare condotto su 71 famiglie di proteine nel 1978 da Margareth Dayhoff e collaboratori. E’ stata effettuata una ricostruzione dell’evoluzione molecolare delle proteine, in cui ad ogni passaggio evolutivo si presuppone una sostituzione aminoacidica. PAM1 rappresenta un singolo passaggio evolutivo (il primo) che tiene conto della probabilità di sostituzione di ogni aminoacido con ciascun altro e tale da prevedere una mutazione ogni 100 aminoacidi. Informatica e Bioinformatica – A. A. 2012-2013

I passi evolutivi successivi vengono simulati applicando nuovamente le probabilità di sostituzione definite in PAM 1 per ricalcolare, ad ogni nuovo passo, nuove probabilità di sostituzione. Una distanza evolutiva di 100 PAM non corrisponde alla sostituzione del 100% degli aminoacidi, ma a 100 passi evolutivi. Possiamo simulare qualsivoglia distanza evolutiva e calcolarne la corrispondente PAM. Alla fine della simulazione otteniamo dei punteggi che ci indicano quanto più probabile è che l’appaiamento tra gli aminoacidi sia dovuto ad omologia piuttosto che al caso. Nota: il modello prevede che le sostituzioni aminoacidiche osservate a grandi distanze evolutive derivino esclusivamente dalla somma di tante mutazioni indipendenti. Informatica e Bioinformatica – A. A. 2012-2013

(1992, Henikoff and Henikoff) MATRICI BLOSUM (1992, Henikoff and Henikoff) Sono basate sulla banca dati BLOCKS, la quale contiene una collezione di allineamenti multipli di segmenti proteici (senza gap). I blocchi sono derivati da osservazione diretta, cioè non viene fatta nessun tipo di assunzione di omologia. Ogni blocco di allineamenti contiene sequenze con un numero di aminoacidi identici superiore ad una certa percentuale (P). Ad esempio, una BLOSUM60 corrisponde ad un 60 % di identità minima (più alto è l’indice, tanto più ci si avvicina alla matrice di identità). Da ognuno di questi blocchi è possibile (reiterando il calcolo in modalità simili al metodo PAM) ricavare la frequenza relativa di sostituzione degli aminoacidi e costruire delle matrici di sostituzione. Informatica e Bioinformatica – A. A. 2012-2013

Le tabelle (o matrici) di sostituzione dei 20 aminoacidi comprendono: 190 valori di relazione tra aminoacidi diversi, più 20 valori di identità, per un totale di 210 valori. Spesso queste matrici sono riportate anche nella loro parte speculare per un totale di altri 190 valori, uguali ai primi. Il tutto si può facilmente rappresentare con una matrice di 20x20, 400 valori. Questa tabella corrisponde alla matrice PAM240, che è una delle più comunemente usate per l'allineamento di sequenze di aminoacidi. In genere, per ogni coppia: valori alti  aa. identici; medi  aa. “simili”; bassi  aa. molto “differenti” (ad esempio W & G = -7). Informatica e Bioinformatica – A. A. 2012-2013

In sintesi Matrici PAM: si basano sulla frequenza con cui ciascun aminoacido può subire un evento di sostituzione calcolato mediante uno studio di filogenesi molecolare (esistono matrici PAM1, PAM10, ecc. che si differenziano per i ‘passi evolutivi’ considerati nel loro calcolo) Matrici BLOSUM: sono invece basate su una banca dati (BLOCKS) di allineamenti multipli di segmenti proteici senza gap. (anche in questo caso esistono differenti matrici BLOSUM adatte per allineamenti tra sequenze con differenti distanze filogenetica) Esistono diverse matrici PAM e BLOSUM, che servono per confrontare sequenze simili oppure molto divergenti. Questo perché si basano sulle frequenze di sostituzione osservate in famiglie di proteine simili, che variano in base alla distanza evolutiva delle stesse famiglie di proteine. PAM80  PAM120  PAM200  PAM250: aumento distanza evolutiva. BLOSUM80  BLOSUM62  BLOSUM45: aumento distanza evolutiva. Perché le BLOSUM “vanno” all’opposto? Informatica e Bioinformatica – A. A. 2012-2013

I principali programmi di allineamento tra sequenze usano le matrici PAM e BLOSUM per assegnare i punteggi di allineamento (funzione di score). Esistono altre matrici di sostituzione basate su differenti criteri di similarità chimica, oppure sul numero minimo di mutazioni necessarie per sostituire il codone di un aminoacido in un altro. Esistono matrici di sostituzione anche per le sequenze di DNA. Queste matrici contengono informazioni sull'occorrenza di transizioni (purina a purina, pirimidina a pirimidina) e transversioni (purina a pirimidina, e viceversa). Informatica e Bioinformatica – A. A. 2012-2013