Migliore Punteggio Lunghezza della sequenza Grandezza banca dati

Slides:



Advertisements
Presentazioni simili
CALCOLO A ROTTURA (S.L.U.) DIAGRAMMI MOMENTO CURVATURA
Advertisements

Allineamento Pairwise e Multiplo di Bio-Sequenze.
LE FONTANE DELLACQUANUOVA. PROSPETTO LATERALE 4,0 1,0 B A C D E F G 0,4 H 0,6 I L M 0, ,0 4,0 apertura 8,20 cm apertura 4,70 cm apertura.
Democritos 2007 IL CAOS Ing. Marco Affinito.
Scarto dalla media xi= Xi - X
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.
Politiche di riordino del magazzino
Sequenza-struttura-funzione
gruppi di amminoacidi in base alle catene laterali
RICERCA DI SIMILARITA’ IN BANCHE DATI
Allineamento di sequenze
MIGRAZIONE Flusso di individui da una popolazione a un’altra (fusione di due popolazioni). L’effetto della migrazione sulle frequenze geniche può essere.
Bruno Mario Cesana Stefano Calza
Tratto dal sito Il carteggio nautico Tratto dal sito 27/03/2017.
CORSO DI ISTITUZIONI DI ECONOMIA AZIENDALE
I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.
Unione casuale Inincrocio Popolazione grande Deriva
MALATTIE DA ESPANSIONE (instabile) DI BREVI TRATTI RIPETUTI
Perdita di funzione Acquisizione di funzione
Processi di associazione
Selezione stabilizzatrice per alcune mutazioni cromosomiche
Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_ Kinasi PROT_ Fosfatasi PROT_ Prot di.
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 06/03/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
Campionamento casuale semplice
ALBERI DECISIONALI terza parte
Limite di una successione
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Canale A. Prof.Ciapetti AA2003/04
Indagine trimestrale sulla industria manifatturiera in provincia di Ravenna - Imprese con oltre 10 addetti - III trimestre e preconsuntivo 2003 (Gennaio–
I QUADRILATERI.
POKER ISOLABELLA SIMONE TAGLIAFICO ALESSIO TAGLIABUE FARIS
Risk and Accounting Bilancio delle banche Marco Venuti 2013.
Biologia computazionale
Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re 6 Evoluzione e filogenesi.
COMPLETAMENTI Mil.Tslc All
1) Algoritmi di allineamento 2) Algoritmi di ricerca in database
Le scale di proporzione
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Regressione Logistica
C.O. in palestra.
Esercitazioni analisi dei costi
Allineamenti multipli
LO SPAZIO Per quanto riguarda lo Spazio,lunità di misura è il METRO,con i suoi multipli e sottomultipli. Lo spazio percorso è una.
I Vettori • Caratteristiche Operazioni Prof. A. Sala Uscita.
Filogenesi molecolare
Informatica e Bioinformatica – A. A
Il “parallel indexing” nella maggior parte dei radar è costituito da 6 linee parallele fra loro, distanti l’una dall’altra 1/6 della scala, che possono.
Ricerca di similarità di sequenza (FASTA e BLAST)
Scuole di Specializzazione in
I programmi di ricerca in banche dati possono essere
Alcuni esempi di domande di esame
Classificazione (aka Cluster Analysis)
Regressione e correlazione
PROTEINE: “TRASCRIZIONE” e “TRADUZIONE”
Corso di biomatematica lezione 7-3: Test di significatività
MATEMATICA pre-test 2014.
Dip. Scienze Biomolecolari e Biotecnologie
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Purtroppo non esiste un modo univoco per indicare un gene
Pseudogeni = geni non funzionali
WORKING WITH BIOSEQUENCES Alignments and similarity search.
Allineamento di sequenze
ALLINEAMENTO DI SEQUENZE
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:
Clonaggio funzionale Clonaggio posizionale Conoscenza proteina Malattia genetica Determinazione sequenza amminoac.Mappatura genetica con marcatori polimorfici.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Transcript della presentazione:

Migliore Punteggio Lunghezza della sequenza Grandezza banca dati Composizione della sequenza

Punteggio sequenze random Numero Sequenzecasuali 70 60 50 40 30 20 10 Opt = 1070 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT

Significatività statistica Numero Sequenzecasuali 70 60 50 40 30 20 10 Opt = 1070 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT

Significatività statistica Numero Sequenzecasuali 70 60 50 40 30 20 10 E = 1.21*10-21 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT E value = Numero atteso per caso di sequenze con punteggio > opt

Matrici di sostituzione

Sostituzioni osservate

Composizione aminoacidica

Matrice di probabilità 0.3 0.15 0.0.. 0.1 0.05 A C D E 0.14 0.28 0.09 0.015 0.03 0.01 = Diviso Frequenze attese Frequenze osservate A C D E 2.13 0.53 6.4 1.6 < 1 Sostituzione sfavorita > 1 Sostituzione favorita Matrice di probabilità

Punteggio allineamento C D E 2.13 0.53 6.4 1.6 Matrice di probabilità Gli Odds non possono essere sommati Per calcolare il puneggio di un allineamento ma debbono essere moltiplicati AAADE || | AACEE f(AA) x f(AA) x f(AC) x f(DE) x f(EE) ---------------------------------------------- a(AA) x a(AA) x a(AC) x a(DE) x a(EE) = pAA x pAA x pAC x pDE x pEE = 2.13 x 2.13 x 0.53 x 1.6 x 6.4 = 25 Scomodo!

Logaritmo delle frequenze Log ( a x b x c x d ) = log(a) + log(b) + log(c) + log(d) Prob = pAA x pAA x pAC x pDE x pEE log( Prob ) = log( pAA x pAA x pAC x pDE x pEE ) Log (Prob) = log(pAA) +log(pAA) +log(pAC) +log(pDE) +log(pEE) A C D E log(pAA) log(pCA) log(pAD) log(pAE) log(pCD) log(pCE) log(pDD) log(pDE) log(pEE) A C D E pAA pAC pAD pAE pCC pCD pCE pDD pDE pEE

Punteggio di un allineamento C D E 0.3 -0.2 0.8 0.2 < o Sostituzione sfavorita > o Sostituzione favorita AAADE || | AACEE Matrice di punteggio = 0.3 + 0.3 – 0.2 + 0.2 + 0.8 = 1.4 punteggio di similarità 10 1.4 = 25 = probabilità calcolata precedentemente....

Una matrice di punteggio Identità Sostituzioni avvantaggiate Sostituzioni svantaggiate Sostituzioni avvantaggiate

Distanza delle matrici 10 -10 -12 -15 11 -9 13 -8 12 A C D E 1.0 -1.0 -0.7 -1.5 1.5 -1.1 -0.2 0.5 -0.9 0.8 Da allineamenti di sequenze molto simili Da allineamenti di sequenze molto divergenti

Matrici PAM Percent Accepted Mutation PAM 2 = PAM 1 * PAM 1 PAM 4 = PAM 3 * PAM 1 etc..

Matrici BLOSUM Identità < x % L T A G R I D E - W S H L T A G R I D

Corrispondenza PAM/BLOSUM Maggiore divergenza PAM 250 BLOSUM 45 PAM 200 BLOSUM 52 PAM 160 BLOSUM 60 PAM 120 BLOSUM 80 Minore divergenza PAM 100 BLOSUM 90

Alberi filogenetici

Alberi Filogenetici Nodi interni Radice Tempo Rami Distanza F-H Unità tassonomiche sconosciute Radice Tempo Rami Distanza F-H A C E D G F B H Nodi esterni - Foglie Unità tassonomiche operative

Ortologhi e paraloghi Gene A Gene A Speciazione Duplicazione Gene A1 Gene B Gene A2 Geni Paraloghi Geni Ortologhi

Filogenesi molecolare Filogenesi di geni ortologhi Filogenesi di geni paraloghi Mioglobina Uomo Hb Zeta Uomo Hb Alpha Anatra Hb Alpha Gorilla Hb Alpha Ratto Hb Theta Uomo Hb Alpha Uomo Hb Beta Uomo Hb Delta Uomo Hb Alpha Uomo Hb Alpha Topo Hb Gamma Uomo Hb Epsilon Uomo Emoglobina alfa in specie diverse Diverse catene di emoglobina nell’ uomo

Duplicazione/Speciazione Similarità e distanza Sequenza originaria AGHSVLIWETS Eventi di sostituzione: Avvenuti = 12 Osservabili = 3 Duplicazione/Speciazione Singola A G H S V L I W E T ->T A G H S V L I W E T TGASILLWETT AGESILIWETT Coincidenti ->A ->E Paralleli ->I ->I Multipli ->A->L Retro-Sostituzione ->A->E Convergenti ->I->T ->T

Distanza Genetica % Diversità 100% 75% 50% 25% 0% Tempo Meglio usare sequenze nucleotidiche: - regioni non codificanti - mutazioni nucleotidiche possono non essere aminoacidiche - modello più facile

Distanza Jukes & Cantor sostituzioni per base = - 3/4 * ln( 1 - 4/3 * %Diversità ) Diversità % Stima distanza genetica (Sostituzioni per base) 0.10 0.107 0.20 0.232 0.30 0.383 0.40 0.571 0.50 0.823 0.60 1.207 0.70 2.031

Distanza Jukes & Cantor Genetica Tempo Assunzioni del modello: Stessa probabilità delle sostituzioni Stessa probabilità dei siti Indipendenza dei siti OROLOGIO MOLECOLARE - Velocità di sostituzione costante STAZIONARIETA’ - Composizione nucleotidica costante

Matrici di distanze yh globine Scimpanzè Uomo Gorilla Orango Macaco Scim.Ragno - 0.014 0.02 0.015 0.04 0.03 0.08 0.07 Scim. Ragno 0.11 0.10 0.12

Gerarchico addittivo 2 5 4 3 1 5 4 3 2 1

Allineamenti multipli

Un allineamento multiplo Regioni con gaps: Loops? Riga = sequenza L T A G R I D E - W S H Blocchi conservati Elementi di struttura secondaria ? Colonna = posizione Famiglia proteine omologhe

Vantaggi 1 R E K S A V T L N - D I G 2 1 P E K S A V T L W - N D G 2 1 2 sequenze Troppo divergenti 1 P E K S A V T L W - N D G 2 2 sequenze Troppo simili 1 P A - T V K L W G E Y 2 D N S 3 H Q Allineamento Multiplo

Colorazione Cysteine C Negative D, E Positive K, R Alcohol S, T Polar N, Q Aromatic F, H, W, Y Hydrophobic A, G, I, L, M, P, V

Consensus 100% 90% 80% 70%

Qualità multiallineamento V E D K S A T G L 1 2 3 4 5 6 7 8 9 Punteggio = 1+2+3+4+5+6+7+8+9 = (VG) + (ED) + (DE) + (KK) + … V E K S A T G L D N 1 2 3 4 5 6 7 8 9 Punteggio = 1+2+3+4+5+6+7+8+9 Punteggio = Si P(ci) P(VGAL) = ???

Punteggio di una colonna xxVxxxxx xxGxxxxx Punteggio colonna = Si<j Similarità(AiAj) xxAxxxxx xxLxxxxx V = (VG)+(VA)+(VL)+ A G (GA)+(GL)+ L (AL)

Punteggi alternativi V L G =? A L G G V L G L A xxVxxxxx xxGxxxxx xxAxxxxx G =? A xxLxxxxx L xxGxxxxx G xxLxxxxx =(LG)+(LG)+(LA)+(LV)+(LL) G V L G =(VL)+(LL)+(LG) +(GG)+(GA) L A

Programmazione dinamica multi-dimensionale Tempo O(Ln) 2 sequenze lunghe 100 = 100*100 = 10.000 quadretti 3 sequenze lunghe 100 = 100*100*100 = 1 milione cubetti 4 sequenze lunghe 100 = 100*100*100*100 = 100 milioni di iper-cubetti

Come NON si costruisce ILSLIDWTQVR VISAGDWTNVR VLTAAE-TNVR VLTLID-SNVR B C D E F VISAGDWTNVR 1 VLTAAE-TNVR 2 VLTLID-SNVR 3 VLSAIDWTNVK 4 VLSLAE-TQVK 5 1) Allineare B con A 2) Allineare C con B 3) Allineare D con C 4) Allineare E con D 5) Allineare F con E

Costruzione albero guida - 4 6 1 9 5 3 7 2 8 N * (N-1) allineamenti a coppia Matrice di distanze Albero guida

Allineamento progressivo VLSAIDWTNVK VLSLAE-TQVK VISAGDWTNVR VLTLID-SNVR VLTAAE-TNVR A B C D E F ILSLIDWTQVR 2 1 3 VLTLIDSNVR VLTAAETNVR 4 5 1) Allineare E con F 2) Allineare B con C 3) Allineare D con EF 4) Allineare BC con DEF 5) Allineare A con BCDEF

+ = No Allineamento di allineamenti P E K S G V L A W D N P E K S A V - N D G P E K S A V - L W N D G = No P E K S A V - L W N D G

S&W per allineamenti multipli K D S A I R E - G C Y 2 sequenze con 2 sequenze L I K R D E ... CS CL+CI+ SL+SI /4 CK+CR+ SK+SR CD+CE+ SD+SE A AL+AI+ AL+AI AK+AR+ AK+AR AD+AE+ AD+AE Y W YL+YI+ WL+WI YK+YR+ WK+WR YD+YE+ WD+WE 1 sequenza con 2 sequenze L I K R D E ... C CL+CI /2 CK+CR CD+CE A AL+AI AK+AR AD+AE Y YL+YI YK+YR YD+YE …