Motivi Funzionali Identificare la funzione di una sequenza

Slides:



Advertisements
Presentazioni simili
Presentazione SSIS nono ciclo di Padova a.a. 2007/2008
Advertisements

HALLIDAY - capitolo 4 problema 4
LE FONTANE DELLACQUANUOVA. PROSPETTO LATERALE 4,0 1,0 B A C D E F G 0,4 H 0,6 I L M 0, ,0 4,0 apertura 8,20 cm apertura 4,70 cm apertura.
Master Bioinformatica 2002: Grafi Problema: cammini minimi da tutti i vertici a tutti i vertici Dato un grafo pesato G =(V,E,w), trovare un cammino minimo.
Studio del moto di una palla che rimbalza
Potenze nell’insieme N
QUANTILI.
Anemia e Malattia Renale Cronica
Petri Nets Controllo Supervisivo Mutua esclusione generalizzata (GMEC)
gruppi di amminoacidi in base alle catene laterali
RICERCA DI SIMILARITA’ IN BANCHE DATI
Bruno Mario Cesana Stefano Calza
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Cenni a calcolo di probabilità elementare
Lez. 3 - Gli Indici di VARIABILITA’
Cammini minimi con una sorgente
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
ANALISI FINANZIARIA I “Le determinanti della dinamica finanziaria”
Testo consigliato MATEMATICA PER LE SCIENZE SPERIMENTALI
Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_ Kinasi PROT_ Fosfatasi PROT_ Prot di.
Migliore Punteggio Lunghezza della sequenza Grandezza banca dati
Valutazione delle Prestazioni di un Classificatore
Apprendimento Automatico: Valutazione delle Prestazioni
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 20/03/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 06/03/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
A.S.E.13.1 ARCHITETTURA DEI SISTEMI ELETTRONICI LEZIONE N° 13 Alcune definizioniAlcune definizioni Algoritmo di sintesi ottima di Quine-McCluskeyAlgoritmo.
ARCHITETTURA DEI SISTEMI ELETTRONICI
Cinematica: moto dei corpi Dinamica: cause del moto
Canale A. Prof.Ciapetti AA2003/04
G. Pugliese, corso di Fisica Generale
con applicazioni al sistema circolatorio
II ESONERO Modelli di Sistemi Biologici II 11/06/2009h11 A.40 TEMA 1 1.Si consideri il modello minimo del glucosio (6) rappresentato dalle seguenti equazioni:
ALCUNI TERMINI: POPOLAZIONE CAMPIONE CAMPIONAMENTO INFERENZA STATISTICA PARAMETRI (ad es. ) STIMATORI (ad es. x) n: DIMENSIONE DEL CAMPIONE MISURE.
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Metodi basati sulle similitudini per dedurre la funzione di un gene
Gli esseri viventi ricevono informazione direttamente dal mondo circostante e dai propri simili attraverso i sensi (percezione). La percezione, tuttavia,
Usare rappresentazioni di lunghezza fissa porta ad avere valori non rappresentabili: Overflow indica un errore nella rappresentazione del risultato in.
CAFFE RIMASTI 2 DOLCE MOLTO DOLCE CAFFE ESAURITO RESTO CREDITO 0 0 AMARO.
21 marzo 22 marzo 23 marzo 24 marzo. TCB TCB TCB marzo
ESERCITAZIONE ALLINEAMENTI. CLSSIEQKSNEEG--EHGPEVREDA ACISTIE---NEDGNEDH---VR Calcolare l'identità e la percentuale di identità
ESERCITAZIONE PROSITE & INTERPRO. Prosite Elenco dei motivi in PROSITE.
Genomica e Bioinformatica
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Analisi dei fabbisogni
D2-1 Una certa quantità di idrogeno viene posta in una camera di platino a volume costante. Quando la camera viene immersa in un bagno di ghiaccio che.
STATISTICA PER LE DECISIONI DI MARKETING
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
Ricerca di similarità di sequenza (FASTA e BLAST)
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Come affrontare un problema… Marco D. Santambrogio – Ver. aggiornata al 18 Ottobre.
2. Meccanica Fisica Medica – Giulio Caracciolo.
Voronoi-Based K Nearest Neighbor Search for Spatial Network Databases
Lancio dadi Analisi probabilità esito somme varie.
Esempi risolti mediante immagini (e con excel)
Tutorial per l’utilizzo di k ScanProsite
Classificazione (aka Cluster Analysis)
CALCOLO LETTERALE Perché?
DATA MINING PER IL MARKETING
Minimo comune multiplo
1 Università di Pavia - corso di Calcolatori Elettronici C code: L1:g = g + A[i]; i = i + j; if (i != h) goto L1; MIPS code: L1:add $t1, $s3, $s3# $t1.
Esercizio 1: La seguente distribuzione riporta i punteggi di un test sullo spettro autistico misurato su un gruppo di bambini: a)Costruire una tabella.
Analisi statistiche IVA Anno d’imposta L’IVA nel sistema tributario - I contribuenti IVA - La distribuzione del volume d’affari - Chi paga l’imposta.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia Top_Down Lo PSpice A/D offre la possibilità di progettare con la metodologia TOP-DOWN. Progettare in Top-Down significa progettare stabilendo.
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
FINCH TV visualizzare cromatogrammi esportare sequenze in formato FASTA.
Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Il test di screening Soluzioni esercizio 1-2 FPCD CA mammella
Transcript della presentazione:

Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati

Motivi e proteine Domini proteici Motivi funzionali Sequenze segnale

Consensus ABCA2_HUMAN/1641-1652 C t s a q g G f ABCA2_MOUSE/1641-1652 Allineamento multiplo domini EGF-like ABCA2_HUMAN/1641-1652 C t s a q g G f ABCA2_MOUSE/1641-1652 ABCA2_RAT/1641-1652 ADA11_HUMAN/698-709 i p d w k ADA11_MOUSE/702-713 ADA11_XENLA/381-392 h e ADA22_HUMAN/700-711 v n r ADA22_MOUSE/698-709 ADA22_XENLA/701-712 ADA23_HUMAN/757-768 ADA23_MOUSE/754-765 ADAM8_MOUSE/346-357 y ADP1_YEAST/79-90 CONSENSUS x

Ricerca di un motivo + = CxCxxxxxGxxC ASCKCFOWEGGPVCLDSFFEKVOD ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD ……………… ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD

Ricerche in banche dati con un motivo Ricerca CxCxxxxxGxxC UNIPROT ID Organismo Sequenza RPD2_HUMAN Human MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHRYLAEFIAMNDLPP FFS_MOUSE Mouse MKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL RHA_MOUSE ASKKJFOWERMPVKLDSFFEKVODFKAAFDDAICECDTLCWGECRLGLALNF GCN4_YEAST Yeast LNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA RAS_HUMAN LNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS … Sequenze Positive: RPD2_HUMAN, RHA_MOUSE, … Sequenze Negative: FFS_MOUSE, GCN4_YEAST, RAS_HUMAN, …

Veri/Falsi Positivi/Negativi Sequenza Consensus FHSERERJEKAKLAEQCEYDECWGACYYKMKGDYH Negativo KAKLAEQCECYDECWGACYYKMKGDYH Positivo FGSDKGPOKEDFGSDSFIJIERJNCOLXCVDFMIDF MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYH MKKVASMDVELTVENLLSVAYKDFLEKH FDGLDFKGLFKAAFDDAICECDTLCWGECRLGLALNF ESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA LNSPDDFSDFKSDFMLKSDGMLKFGIMBVCIJBVUBUI FGXCIXCVIMXRFOLXCVPOXCKOASDLMXCMLNAS Risultato Vero Falso Ha un dominio EGF ? 1 No 2 Si 3 4 5 6 7 8 9

Veri/Falsi Positivi/Negativi Positivo Negativo Vero Falso Raccolgo pomodori nell’orto Prendendo tutto quello che è di colore rosso.

Sensitività del motivo Quanti pomodori sono riuscito ad identificare? VP = --------- VP + FN 13 = ------ = 0.81 13 + 3 --------- +

Selettività del motivo Quanti ortaggi scelti sono veramente pomodori? VP = --------- VP + FP 13 = ------ = 0.65 13 + 7 --------- +

Scelta del Motivo Migliore q G f i p d W k D h e K v n r S A E T y R g F x X C t s a q G f i p d W k D h e K v n r S A E T y R g F x X C t s a q G f i p d W k D h e K v n r S A E T y R g F x EGF-like NO EGF-like Motivo Sensitività 40% Selettività 100% Sensitività 100% Selettività 50% Sensitività 60% Selettività 60%

Coefficiente di Correlazione VP*VN – FN*FP ------------------------------------------------------- Radice di (VN+FN)*(VN+FP)*(VP+FN)*(VP+FP)

Banche dati di motivi Funzione Consensus Sito di N-glicosilazione N.S Sito di fosforilazione S.R Motivo di legame all’ATP G....GKS Motivo di legame al calcio R..R..D Dominio EGF C.C.....G..C Zinc finger C......C...C....C......C Cerniera di Leucine L......L......L......L …

Annotare una sequenza Banca dati di motivi ASCKCFOWEGGPVCLDSFFEKVOD Ricerca ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di fosforilazione Sito di N-glicosilazione Sito di legame al calcio

Ricerche con Motivi Banca dati di motivi Ricerca Funzione Motivo Sito di N-glicosilazione N.S Sito di fosforilazione S.R Motivo di legame all’ATP G....GKS Motivo di legame al calcio R..R..D Dominio EGF C.C.....G..C Zinc finger C......C...C....C......C Cerniera di Leucine L......L......L......L … ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sequenza sconosciuta Banca dati di motivi Ricerca ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di N-glicosilazione Sito di fosforilazione Sito di legame al calcio

Espressioni regolari H-[ST]-C-X-X-X-C-W VLHSCDAICWTNLK IIHSCLAECWRQVS GVHTCLIDCWSNIR AAHTCAAECWTLVR VLHTCAAECWTLVR HTC...CW S Posizioni con più possibilità = [A,C,D, …] H-[S,T]-C-X(3)-C-W Posizioni ripetute = (n)

Ripetizioni variabili GVHTCL----CWSNIR VLHSCD--AICWTNLK IIHSCLAAAECWRQVS ? H-[ST]-C-X-C-W ? H-[ST]-C-X-X-X-C-W ? H-[ST]-C-X-X-X-X-X-C-W ? GVHTCLCWSNIR VLHSCDAICWTNLK IIHSCLAAAECWRQVS H-[ST]-C-X(1,5)-C-W Numero variabile di ripetizioni = (i, j)

Matrici posizionali di peso [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST] L H S C D A T I E V A 0.2 0.4 0.8 C 1.0 D E 0.6 H I L S T V Position Specific Scoring Matrix

Logo di sequenza A 0.2 0.4 0.8 C 1.0 D E 0.6 H I L S T V Altezza = log2 (20) - F * log2 (F) = 4.32 - F * log2 (F)

Punteggio con PSSM Position Specific Scoring Matrix A 0.2 0.4 0.8 C 1.0 D E 0.6 H I L S T V Position Specific Scoring Matrix … G A W Y … Sequenza 0.2x 1.0x 0.8x 0.4x 0.4= 0.008192

Attesi per caso A 0.25 0.33 0.5 C 1.0 D E H I L S T V

Log-Odds Position Specific Scoring Matrix Punteggio = 10*log(osservati/attesi) T in posizione 3 = 10*log(0.8/0.5) = +2.041… = +2 A -1 +1 +2 C D -2 E H I -4 L S T V +0 Position Specific Scoring Matrix … G A W Y … Sequenza = +2

Ricerca PSSM su sequenza TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ Ricerca Espressione regolare [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST] TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ A -1 +1 +2 C D -2 E H I -4 L S T V Calcolo punteggio PSSM TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ PSSM > -2 = POSITIVI PSSM < -2 = NEGATIVI -13 +5 Scelta motivi più alti del volore soglia TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ Positiva

* * * Curve Roc % Veri positivi 100% 75% 50% 25% 25% 50% 75% 100% Motivo efficiente * 100% 75% Motivo poco efficiente * 50% Random 25% * 25% 50% 75% 100% % Falsi positivi

Ricerca con allineamento H S C D A T I E V … Y G W Allineamento Multiplo ? Sequenza VL HH YS AC LD … VI YT LL VV VA LA P1+ P2+ P3+ P4+ P5+ P6+ P7+ P8+ P9 /5 = Punteggio sequenza

Profilo di un allineamento H S D C A T I E V 1 2 3 4 5 6 7 8 9 … W Y - Allineamento Multiplo =(CD+CL+CL+CA+CA)/5 =(ED+EL+EL+EA+EA)/5

Ricerca con profilo 1 2 3 4 5 6 7 8 9 A C D E F G H … W Y - K R * Punteggio = 1H+2F+3D+4C+5W+6E+7D+8E+9G

PSI- BLAST + + + Sequenze Omologhe Sequenza sconosciuta Costruzione Allineamento Multiplo Ciclo N’ 2 Nuove Sequenze Omologhe BLAST + Ciclo N’ 3 Nuove Sequenze Omologhe Allineamento Multiplo Banche dati di sequenze + Ciclo N’ … …… Profilo dell’ allineamento Costruzione Profilo

Analisi di sequenze Sequenze Simili Smith & Waterman Famiglia Sequenze Omologhe BLAST FASTA Analisi Matrice di distanze UPGMA Sequenza sconosciuta Banche dati di sequenze Sequenza annotata CLUSTALW Albero filogenetico Ricerca con Motivi Allineamento Multiplo Banche dati di Motivi Costruzione Motivi Motivo Funzionale