Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.

Slides:

Advertisements

Presentazioni simili

Teoria e Tecniche del Riconoscimento

Advertisements

Allineamento Pairwise e Multiplo di Bio-Sequenze.

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA

© 2007 SEI-Società Editrice Internazionale, Apogeo Unità E1 Dallanalisi del problema alla definizione dellalgoritmo.

Programmazione assembler

Sequenza-struttura-funzione

gruppi di amminoacidi in base alle catene laterali

RICERCA DI SIMILARITA’ IN BANCHE DATI

Allineamento di sequenze

I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.

Proteina intatta Ala-Leu-Thr-Pro Ala-Leu-Thr-Pro Endoproteinasi Arg-C

U V U V (a) |cfc|=2 prima e dopo (b) |cfc|=2 prima e |cfc|=1 dopo

1 Anatomia di una pagina Un insieme di pagine web hanno generalmente una parte invariante (o poco): header, navigazione, footer una parte variabile: contenuti.

Access: Query semplici

Metodi basati sulle similitudini per dedurre la funzione di un gene

Biologia computazionale

Analisi dei gruppi – Cluster Analisys

Notazioni Asintotiche e Ordini di Grandezza delle funzioni

Intelligenza Artificiale Algoritmi Genetici

APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA

Manipolazione dei dati

Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Analisi della struttura primaria delle proteine

Il Cerca – costellazioni

ALLINEAMENTI GLOBALI E LOCALI

Elementi di Informatica di base

Allineamenti multipli

Ricerca di similarità di sequenza (FASTA e BLAST)

Tipi di allineamenti.

I programmi di ricerca in banche dati possono essere

1 Se seleziono le colonne da A – F e modifico con il mouse la larghezza della colonna C, cosa succede alle altre colonne selezionate? 1.Assumono tutte.

Tutorial per l’utilizzo di k ScanProsite

Percorso didattico per l’apprendimento di Microsoft Access Modulo 5

MUTAZIONE: cambio di un bit Viene effettuata con bassa frequenza, ad es. 1bit ogni 1000 Ha la funzione di recupero di eventuali perdite di informazione.

LAMS: Strumenti per le attività Presentazione degli strumenti disponibili ai docenti per la costruzione di sequenze di apprendimento Questo contenuto è.

Percorso didattico per l’apprendimento di Microsoft Access Modulo 5

Tag TABLE. Oltre ad avere la funzione di rappresentare dati di ogni genere allineati in righe e colonne, le tabelle in HTML si utilizzano per costruire.

Microsoft Access Maschere (II).

Esempio di utilizzo del programma BLAST disponibile all’NCBI

HTML – Le Tabelle Laboratorio di Applicazioni Informatiche II mod. A.

Per l’insegnante: La presentazione si propone di descrivere:

Microsoft Access Chiavi, struttura delle tabelle.

WORKING WITH BIOSEQUENCES Alignments and similarity search.

Allineamento di sequenze

ALLINEAMENTO DI SEQUENZE

Conversione binario-ottale/esadecimale

Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.

NiXuS srl1 Training Galco Italia 22 Gennaio 2000 pMeter Software per l’analisi delle performance aziendali. N I X U S srl Via G. Scarabelli Roma,

Flipped classroom e nuove metodologie didattiche Modulo 2 – Quarta lezione Antonio Todaro “ Il Sito Web del docente ” seconda parte.

Cloud Tecno V. Percorso didattico per l’apprendimento di Microsoft Access 4 - Le maschere.

HMM in Image Analysis Francesco Finazzi Lezione /04/2008.

Microsoft Access Filtri, query. Filtri Un filtro è una funzione che provoca la visualizzazione dei soli record contenenti dati che rispondono a un certo.

“ Pseudocodice ” Un programma per computer lavorerà su in insieme di “ variabili ” contenenti i dati del problema, soluzioni intermedie, soluzioni finali.

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.

Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.

---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.

Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.

CONFORMAZIONE organizzazione spaziale degli atomi in una proteina STRUTTURA NATIVA conformazione funzionale di una proteina La FUNZIONE di una proteina.

Antonio Todaro “ Il Sito Web del docente ” Seconda parte Insegnare digitale: la didattica flipped e gli strumenti digitali a supporto della didattica capovolta.

ASD a.a.2010/2011- Lezione 12 Algoritmi e Strutture dati a.a.2010/2011 Prof.ssa Rossella Petreschi Backtracking/ Branch and Bound Lezione n°12.

STRUTTURE DI MACROMOLECOLE & BANCHE DATI STRUTTURALI.

Planet HT – Genova - Elisa Delvai

Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.

Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:

Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.

La funzione CASUALE. Gli istogrammi.

Autoresizing e autolayout. Posizionare gli elementi All’interno dello storyboard, gli elementi possono essere posizionati trascinandoli nella posizione.

Esistono delle banche dati derivate simili a pfam, cioe’ banche dati in cui le proteine sono organizzate per famiglie ma che a differenza di pfam comprendono.

RNS_BOVIN ANG1_MOUSE TPA_HUMAN UROK_HUMAN

Transcript della presentazione:

Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere questi residui? In un allineamento di due proteine simili la maggior parte dei residui è rimasta invariata e quindi non è possibile distinguere i residui funzionali da quelli conservati per ragioni casuali. Proteine molto lontane dal punto di vista evolutivo sono difficili da allineare e quindi è elevato il rischio di non allineare residui conservati.

Allineamenti Multipli Soluzione Allineare non solo due sequenze omologhe ma quante più sequenze possibili in modo da creare un allineamento multiplo. Le colonne contenenti residui conservati in tutte o in molte delle proteine dell’allineamento indicheranno i residui strutturalmente e/o funzionalmente importanti. Un allineamento multiplo rappresenta anche un buon metodo per ottimizzare un allineamento a coppia fra due sequenze molto distanti. Infatti le sequenze intermedie faranno da guida nell’allineamento delle sequenze più distanti. Sequenze A e B = 25% id  allineamento difficile Sequenze A e C = 50% id  allineamento semplice Sequenze B e C = 50% id  allineamento semplice Soluzione: allineare A + C e B + C, quindi usare C come guida

SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59 RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC212 QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL1 QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR1 QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE6 QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE3 QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE2 QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE4 QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * *.*:::*:.* :.*. *. ::.** **** *:.:*... SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC208 VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC218 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC212 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL1 ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR1 VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE6 VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE3 VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE2 VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE4 VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** *..* :*: * :. *:**..: *

Esistono numerosi programmi per la visualizzazione e anche la modifica manuale degli allineamenti multipli (ottimizzazione manuale). Due molto usati sono: GeneDoc SeaView ftp://biom3.univ-lyon1.fr/pub/mol_phylogeny/seaview

Creazione di Allineamenti Multipli Gli algoritmi esatti per la creazione di allineamenti a coppie potrebbero in teoria essere usati anche per la creazione di allineamenti multipli tuttavia i tempi di calcolo sarebbero enormi: Se L è la lunghezza delle sequenze e N il numero di sequenze da allineare l’ordine delle operazioni è O (L N ) Il numero di operazioni cresce ESPONENZIALMENTE con il numero delle sequenze!

Creazione di Allineamenti Multipli Pertanto gli allineamenti multipli vengono creati attraverso una strategia semplificata che consiste nell’allineare prima coppie di sequenze molto simili e poi “fissare” questi allineamenti e allinearli tra loro. La prima operazione è generare tutti i possibili allineamenti a coppie per trovare le sequenze più simili tra loro. Se N è il numero di sequenze il numero di allineamenti a coppie da calcolare è [N*(N-1)]/2

Creazione di Allineamenti Multipli Le percentuali di differenze di ciascuna coppia di sequenze vengono utilizzate per creare una matrice di differenze fra le sequenze. La matrice viene utilizzata per creare un albero guida i cui rami hanno lunghezza proporzionale alle differenze fra le sequenze matrice di differenze albero guida

Sulla base dell’albero guida verranno prima allineate le sequenze 1-2 e le sequenze 3-4. Quindi il “cluster” 1-2 verrà allineato al “cluster” 3-4. Infine il “cluster” verrà allineato alla sequenza 5.

“cluster” 1-2 “cluster” 3-4

“cluster”

Aggiungere una sequenza ad un allineamento multiplo L’aggiunta di una sequenza ad un allineamento multiplo o l’allineamento fra due cluster di allineamento si effettua in maniera simile ad un semplice allineamento a coppie creando una matrice bidimensionale che però stavolta riporterà in orizzontale le posizioni dell’allineamento multiplo e in verticale la sequenza da aggiungere o il secondo allineamento. Ad esempio allineamo la sequenza AGRSGS all’allineamento ASDKL VSERF

AVAV SSSS DEDE KRKR LFLF A 0.5*(2+0) G R S G S Score = [Score(A,A) + Score(A,V)] 2 Lo score assegnato a ciascuna casella è la media degli score per tutti i possibili accoppiamenti!

AVAV SSSS DEDE KRKR LFLF A 0.5*(2+0)0.5*(1+1)0.5*(0+0)0.5*(-1-2)0.5*(-2-4) G 0.5*(1-1)0.5*(1+1)0.5*(1+0)0.5*(-2-3)0.5*(-4-5) R S G S Score = [Score(A,A) + Score(A,V)] 2 Lo score assegnato a ciascuna casella è la media degli score per tutti i possibili accoppiamenti!

AVAV SSSS DEDE KRKR LFLF A I ( ) 4 G R K S G A S T Score = [Score(A,A) + Score(A,V) + Score(I,A) + Score(I,V) ] 4 Lo score assegnato a ciascuna casella è la media degli score per tutti i possibili accoppiamenti!

Esistono vari programmi per la costruzione degli allineamenti multipli. Due molto usati sono: ClustalW (aggiunge anche nuove sequenze ad allineamenti preesistenti) MSA (multiple sequence alignment)

Da un allineamento multiplo si possono ricavare “sequenze consensus” e “profili”: *** la sequenza consensus di un allineamento multiplo riporta per ciascuna posizione l’amminoacido che ricorre più frequentemente di una certa frequenza soglia (ad esempio 60%). Se nessun amminoacido è presente in una percentuale superiore alla soglia viene aggiunto il carattere “X” o un vuoto. (a volte si usa il carattere maiuscolo se un aa è presente oltre una percentuale m% e il carattere minuscolo se l’aa è presente oltre una percentuale n% minore di m%) *** Un profilo al contrario è un “modello probabilistico” che per ogni posizione riporta la probabilità che sia presente ognuno dei 20 amminoacidi o anche un gap.

gap ACDEFGHKILMNPQRSTVYW ……………………………………………………… 4……………………………………………………… 5……………………………………………………… 6……………………………………………………… 7……………………………………………………… 8……………………………………………………… 9……………………………………………………… ……………………………………………………… …………………………………………………………

I profili più usati sono generati tramite i cosiddetti “Hidden Markov Models” (HMM) che sono funzioni probabilistiche che non solo consentono di associare una probabilità ad ogni singola posizione ma consentono di dare valori differenti di probabilità ad una posizione a seconda dei residui (o nucleotidi) presenti nelle altre posizioni dell’allineamento. Ad esempio un HMM può specificare che in posizione 124 dell’allineamento è più comune Arg se nelle posizioni 122 e 123 ci sono Gly, Ala o Ser mentre l’amminoacido più probabile in 124 è Trp se in posizioni 122 e 123 ci sono Val, Leu, Ile, Met. Gli HMM non solo consentono di creare profili da allineamenti multipli ricchi di informazioni su come cambiano i residui dell’allineamento ma consentono anche di cercare proteine in una banca dati che rispondono ai requisiti di un particolare HMM e quindi potrebbero far parte di un’unica famiglia di proteine omologhe (un meccanismo simile è utilizzato da PSI-Blast)

I “Sequence Logo” sono una rappresentazione grafica di un allineamento multiplo di proteine o nucleotidi. In un “logo” i residui o le basi presenti in ciascuna posizione dell’allineamento sono riportati con caratteri di altezza proporzionale alla loro frequenza nell’allineamento. Le posizioni più conservate sono globalmente più “alte” di quelle meno conservate.

Sequenza consensus del “ribosomal binding site” (RBS) di E. coli Start Codon

Tutti i “logo” mostrati sono stati creati con il programma WebLogo accessibile al sito: