Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch 970 980 990 1000 1010 1020 SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:

Slides:



Advertisements
Presentazioni simili
Allineamento Pairwise e Multiplo di Bio-Sequenze.
Advertisements

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Agenti mutageni Mutazioni puntiformi Aberrazioni cromosomiche
Rappresentazione tabellare dei dati
Matematica I: Calcolo differenziale, Algebra lineare, Probabilità e statistica Giovanni Naldi, Lorenzo Pareschi, Giacomo Aletti Copyright © The.
Sequenza-struttura-funzione
gruppi di amminoacidi in base alle catene laterali
RICERCA DI SIMILARITA’ IN BANCHE DATI
Allineamento di sequenze
Variabili casuali a più dimensioni
Descrizione dei dati Metodi di descrizione dei dati
Progetto Pilota 2 Lettura e interpretazione dei risultati
I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.
UN ESEMPIO DI ESPERIMENTO CASUALE
MISURE DEL CORPO.
Biologia computazionale
Metodi basati sulle similitudini per dedurre la funzione di un gene
Analisi delle corrispondenze
1) Algoritmi di allineamento 2) Algoritmi di ricerca in database
Limiti al trasferimento di informazione u Il tempo necessario per trasmettere dellinformazione dipende da: –la velocita di segnalazione (cioe quanto velocemente.
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Scale di valutazione Federico Batini
ALLINEAMENTI GLOBALI E LOCALI
FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)
Allineamento di sequenze proteiche
Le distribuzioni campionarie
Un approccio soft per i primi tre anni della primaria
Ricerca di similarità di sequenza (FASTA e BLAST)
I programmi di ricerca in banche dati possono essere
Un approccio soft per i primi tre anni della primaria
Dip. Scienze Biomolecolari e Biotecnologie
I FRATTALI Frattale di Mandebrot
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Martina Serafini Martina Prandi
Purtroppo non esiste un modo univoco per indicare un gene
A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
III LEZIONE Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
III LEZIONE Allineamento di sequenze
WORKING WITH BIOSEQUENCES Alignments and similarity search.
Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
ALLINEAMENTO DI SEQUENZE
Analisi della similarità tra immagini.
Istituto Comprensivo Rignano-Incisa Tirocinante TFA: G. Giuliani
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
AMMINOACIDI E PROTEINE
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Il modello di Hotelling Davide Vannoni Corso di Economia Manageriale e Industriale a.a
Analisi matematica Introduzione ai limiti
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
PER VIVERE UNA RELAZIONE PROFONDA BISOGNA ESSERE MATURI transizione manuale.
1. Un incrocio fra due piante, una a fiori blu scuro ed un altra a fiori bianchi produce una F1 tutta a fiori blu chiaro. Reincrociando la F1 si ottiene.
  Disegno assistito dal computer STRATEGIE PER LA RICERCA DEI NUOVI LEADS Computer-assisted design utilizza la chimica computazionale per al scoperta.
Russell e gli universali appunti per Filosofia della scienza.
Concetti di base. Per biodiversità si intende l'insieme di tutte le forme viventi geneticamente diverse e degli ecosistemi ad esse correlati Il termine.
Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.
Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Esistono delle banche dati derivate simili a pfam, cioe’ banche dati in cui le proteine sono organizzate per famiglie ma che a differenza di pfam comprendono.
Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo.
RNS_BOVIN ANG1_MOUSE TPA_HUMAN UROK_HUMAN
Transcript della presentazione:

Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.: :. :.:...:.:.. : :.. : ::... :.: ::..:. :. :. : NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.: :. :.:...:.:.. : :.. : ::... :.: ::..:. :. :. : NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC

Qualche definizione Identity : Generalmente espressa come percentuale, proporzione degli amminoacidi identici tra due sequenze allineate. Fortemente dipendente dal modo in cui due sequenze sono state allineate. Similarity Proporzione di amminoacidi simili. dipende dal criterio utilizzato per definire amminoacidi simili e dal modo in cui le due sequenze sono state allineate Homology Due proteine sono omologhe se hanno un progenitore in comune. non ci sono livelli di omologia: o due proteine sono omologhe o non lo sono. Proteine omologhe non necessariamente hanno la stessa funzione e non necessariamente sono molto simili.

Allineamento di una coppia di sequenze – in un allineamento possono esistere inserzioni,delezioni e mismatch (cattivi accoppiamenti) Seq A GARFIELDTHELASTFA-TCAT ||||||||||| || |||| Seq B GARFIELDTHEVERYFASTCAT Seq A GARFIELDTHELASTFA-TCAT ||||||||||| || |||| Seq B GARFIELDTHEVERYFASTCAT errors / mismatchesinsertion deletion

Numero di allinemanti ci sono molti modi di allineare due sequenze ma anche: CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA Il numero di possibili allineamenti diversi per due sequenze di mille amminoacidi, se si consentono inserzioni e delezioni è (nel giudicare questo numero tenete conto che il numero di atomi totali stimato nell’universo è ) ma anche: CGATGCA-GACGTCA ||||||| CGATGCAAGACGTCA CGATGCA-GACGTCA ||||||| CGATGCAAGACGTCA

Valutazione di un allineamento intuitiavamente noi capiamo che questo allineamento e’ meglio di: CGAGGCACAACGTCA ||| ||| |||||| CGATGCAAGACGTCA CGAGGCACAACGTCA ||| ||| |||||| CGATGCAAGACGTCA ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG Abbiamo applicato senza accorgercene un criterio di valutazione o di punteggio che in iglese chiamiamo scoring system.

Scoring system Il modo piu’ semplice di dare un punteggio e’ quello di dare 1 se due amminoacidi sono identici, 0 se sono diversi. Il punteggio, in inglese score, in questi due casi sara’  Score: 12 CGAGGCACAACGTCA ||| ||| |||||| CGATGCAAGACGTCA CGAGGCACAACGTCA ||| ||| |||||| CGATGCAAGACGTCA ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG  Score: 5 Ma noi intuitivamente capiamo che sostituire ser con thr che sono due amminoacidi molto simili non puo’ essere tanto sfavorevole per una proteina quanto sostituite ser con trp

Introduzione dell’informazione biologica Possiamo 1)creare una scala di punteggi basata sulle proprieta’ chimico- fisiche degli amminoacidi, tipo dimensioni (punteggio piu’ alto per la sostituzione di una amminoacido piccolo da parte di un altro amminoacido piccolo e piu’ basso per la sostituzione di un amminoacido piccolo con uno grande) idrofobicita’, etc 2) osservare delle famiglie di proteine chiaramente omologhe e misurare con che frequenza l’evoluzione ha sostituito un amminoacido con un altro. In entrambi i casi si costruiscono delle matrici di sostituzioni

Matrici di sostituzione (log-odds matrices) PAM250 (Leu, Ile):2 (Leu, Cys):-6... Punteggi positivi:gli amminoacidi sono stati considerati simili dall’evoluzione e sono stati sostituiti l’uno nell’altro piu’ frequentemente di quando sarebbe accaduto per caso. Punteggi negativi:gli amminoacidi sono stati considerati dissimili dall’evoluzione e sono stati sostituiti l’uno nell’altro meno frequentemente di quanto sarebbe dovuto accadere per caso. Per una famiglia di proteine ben conosciute: si allineano le sequenze si contano le mutazioni ad ogni posizione si calcola il numero di volte che per esempio ser e’ sostiuta da thr e si divide per la frequenza di ser e di thr, cioe’ per la numero di volte atteso per una sostituzoione casuale di ser in thr

Punteggio (score)grezzo TPEA ¦| | APGA TPEA ¦| | APGA Score = 1= 9  E’ possibile che allineamenti molto corti prendano punteggi grezzi piu’ alti di allineamenti piu’ lunghi  Abbiamo bisogno di punteggi normalizzati! (p-value, e-value) Le matrici piu’ utilizzate sono le PAMX e le BLOSUMY. X e Y sono dei numeri, piu’ alto e’ il numero X, piu’ la matrice e’ adatta a comparare sequenze molto diverse, piu’ basso e’ il numero Y, piu’ la matrice è adatta a comparare sequenze molto diverse. Le piu’ utilizzate sono PAM250 e BLOSUM62

Durante l’evoluzione di una proteina alcuni amminoacidi possono essere stati deleti o inseriti. I programmi di allineamnto devono prevedere la possibilita’ di introdurre gap GCATGCATGCAACTGCAT ||||||||| GCATGCATGGGCAACTGCAT GCATGCATGCAACTGCAT ||||||||| GCATGCATGGGCAACTGCAT puo’ essere migliorato inserendo un gap GCATGCATG--CAACTGCAT ||||||||| GCATGCATGGGCAACTGCAT GCATGCATG--CAACTGCAT ||||||||| GCATGCATGGGCAACTGCAT ma bisogna evitare troppi gap qualsiasi coppia di sequenze si puo’ allineare inserendo molti gap! -ATG—-AKLPW-P | | | | QA-GMMA---WIP -ATG—-AKLPW-P | | | | QA-GMMA---WIP ATGAKLPWP QAGMMAWIP ATGAKLPWP QAGMMAWIP

Gap opening and extension penalties CGATGCAGCAGCAGCATCG |||||| ||||||| CGATGC------AGCATCG CGATGCAGCAGCAGCATCG |||||| ||||||| CGATGC------AGCATCG CGATGCAGCAGCAGCATCG || || |||| || || | CG-TG-AGCA-CA--AT-G CGATGCAGCAGCAGCATCG || || |||| || || | CG-TG-AGCA-CA--AT-G gap opening Gap opening penalty Contato ogni volta che si apre un gap gap extension Gap extension penalty Contato ogni volta che viene allungato un gap Gap opening penalty>> Gap extension penalty L’apertura di gap deve essere penalizzata. E ’piu’ ragionevole introdurre un gap piu’ lungo che molti gap corti perche’ l’evoluzione puo’ aver introdotto o eliminato un certo numero di amminoacidi in un loop per esempio ma difficilmente elimina o inserisce un singolo amminoacido piu’ volte

Gap opening and extension penalties CGATGCAGCAGCAGCATCG |||||| ||||||| CGATGC------AGCATCG CGATGCAGCAGCAGCATCG |||||| ||||||| CGATGC------AGCATCG CGATGCAGCAGCAGCATCG || || |||| || || | CG-TG-AGCA-CA--AT-G CGATGCAGCAGCAGCATCG || || |||| || || | CG-TG-AGCA-CA--AT-G gap opening 13 x x 1 = -3 gap extension 13 x x x 1 = -43 Esempio: con una matrice di punteggio semplicissima,1 aa identici, 0 aa diversi con un opening gap penalty di 10 e un extention gap penalty di 1 abbiamo il seguente punteggio

Valutazione statistiva dei risultati Valori statistici derivati dagli « score » p-value  Probabilità che un allineamento con un certopunteggio si trovi per caso in una certa banca dati  Più basso è il p-value migliore l’allineamento e-value  Numero di casi con lo stesso punteggio che si possono trovare per caso in una certa banca dati  Più vicino a 0 è le-value, migliore è l’allineamento

Tipi di allineamento Gli allineamenti possono essere: Globali:si cerca di allineare tutta la sequenza A con tutta la sequenza B e si calcola un punteggio complessivo Locali:si cerca di allineare dei “pezzi” di A con dei “pezzi” di B. ATYRDTYGGFSDRLPATFRETFGGFSDRLPCGATGCAAGACGTCA || | | |||||||| |||||| ||||| ATFRETFGGFSDRLP CGATGCSSA-CGTCA Un allineamento globale penalizzerebbe troppo la lunga delezione e ci farebbe perdere di vista la forte somiglianza fra “i pezzi” blu e rosso