Scaricare la presentazione
1
Introduzione alla bioinformatica
Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Novembre 2004
2
Obiettivi della bioinformatica
Banche dati: raccolta dati, ordinamento, correlare quelli che trattano i diversi aspetti di uno stesso tema, renderli fruibili in modo semplice, unificare le banche adti. Ricerca dei geni in un genoma Inferire la funzione delle proteine a partire dalla sequenza del gene, da qui la possibilità di creare nuove proteine con nuove funzioni Obiettivi della bioinformatica Prevedere lo splicing dell’mRNA a partire dalla sequenza del pre-mRNA, capire l’effetto delle mutazioni Descrivere la rete genica di una cellula, chi attiva o reprime chi, da chi si fa attivare o reprimere. Prevedere al computer l’effetto di uno stimolo esogeno… sapere come compensarlo. Sapere che stimolo generare per produrre certi effetti Capire l’evoluzione delle specie Poter prevedere la ricombinazione nel DNA Francesco Piva Ist Biologia e Genetica, Ancona
3
Metodi della bioinformatica
Risorse umane, formazione, mezzi database Teoria dell’informazione, studio dei linguaggi, ridondanza, entropia, correlazione… Metodi statistici Metodi della bioinformatica Reti neurali Algoritmi matematici: FFT, Wavelet, ICA, PCA, teoria delle reti… Data mining … Francesco Piva Ist Biologia e Genetica, Ancona
4
Predizione teorica dei geni in un genoma
metodi Analisi discriminante lineare e quadratica Alberi di decisione Modelli di Markov a variabili nascoste Reti neurali artificiali Metodo del perceptron Decomposizione secondo le direzioni di massima dipendenza Stima degli esameri codificanti Metodo della matrice di pesi e del vettore di pesi Francesco Piva Ist Biologia e Genetica, Ancona
5
Analisi discriminante lineare e quadratica
L’obiettivo di questo metodo è: Identificare le variabili e le relazioni tra di esse che permettono di differenziare due o più gruppi di dati Classificare nuovi casi nei gruppi ricavati (predittività) lineare quadratico Concentrazione di B Concentrazione di B Concentrazione di A Concentrazione di A Es: distinguere gli individui sani e malati in base alla misura della concentrazione di due enzimi. Con il metodo dei minimi quadrati si minimizza l’errore di classificazione e si ottiene una relazione lineare tra le due variabili Nel caso del riconoscimento degli esoni in una sequenza di pre-mRNA, come variabili si sceglie la frequenza di certe triplette nei siti di splicing in 5’ e in 3’. Francesco Piva Ist Biologia e Genetica, Ancona
6
Modelli di Markov a variabili nascoste
Un sistema viene descritto da una successione di stati discreti e dalla probabilità di transizione da uno stato all’altro Data una sequenza esonica: …catga… A C G T 0,32 0,31 0,18 0,36 0,37 0,35 0,26 0,20 0,15 0,17 0,16 C A T G A Possiamo rappresentarla come la successione di stati di un sistema e ricavare un modello descrittivo che a partire da un certo stato indichi la probabilità di transizione verso un altro stato. La parola nascosti indica che uno stato non può essere osservato Gli schemi di transizione sono caratteristici delle zone codificanti e non. Francesco Piva Ist Biologia e Genetica, Ancona
7
Date le cinque sequenze sotto, cerchiamo di ricavare un modello di Markov
Si ricava questo modello Inserzione di uno stato (regioni altamente variabili) Stati principali E.g. P(ACACATC) = (0.8 * 1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8) A C A C A T C (S = logP(sequenza) - lunghezza(sequenza)*log0.25 ) Francesco Piva Ist Biologia e Genetica, Ancona
8
L’attuale modello di predizione di un gene
Stati particolari (es: n) Inserzione di uno stato (regioni altamente variabili) Stati principali - si possono rappresentare regole semplici - non si considera la frequenza dei dinucleotidi - non si considera la dipendenza (correlazione) fra i nucleotidi - in realtà ci vorrebbe un modello di Markov per gli esoni, uno per gli introni, uno per le regioni non tradotte Francesco Piva Ist Biologia e Genetica, Ancona
9
Perceprton assoni sinapsi corpo x1 w1 dendriti x2 w2 assone x3 w3 xn
wn non linear function b inputs weights bias E’ un algoritmo realizzato con una rete neurale artificiale che realizza l’analisi discriminante lineare, questo prova iterativamente vari piani di separazione cercando ad ogni passo di minimizzare l’errore di discriminazione. Francesco Piva Ist Biologia e Genetica, Ancona
10
Stima degli esameri Le sequenze vengono trattate come successioni di parole. Ciascuna parola è un insieme di basi, ad esempio sei simboli formano un esamero La distinzione tra sequenze codificanti e non, si basa sulla frequenza con cui si trovano certi esameri Alcune parole sono caratteristiche delle sequenze codificanti Es: CAGCAG Altre sono caratteristiche di quelle non codificanti Es: TAATAA Dall’osservazione dei geni si ricava un punteggio che viene assegnato ad ogni esamero. Il punteggio può essere positivo o negativo a seconda che sia indizio di una sequenza codificante o meno. In fase di analisi, data una sequenza che potrebbe rappresentare un potenziale gene, si estraggono tutti gli esameri e si ricava un punteggio totale. Francesco Piva Ist Biologia e Genetica, Ancona
11
Metodo della marice di pesi
Questo metodo è usato per assegnare un punteggio ad un sito di DNA o RNA per indicare quanto questo sia affine a legare una proteina o altro Punteggio (gtcacgt) = = 3,54 Punto debole: non si tiene conto delle correlazioni tra basi in diversa posizione Es: GTCACGT Questi siti di legame differiscono solo per la sesta posizione. Non è detto che il punteggio in posizione 4 (A) dipenda solo dal nucleotide che si trova in quella posizione: potrebbe dipendere da quali altri nucleotidi sono presenti nelle vicinanze. In altre parole, a volte non vale la semplice proprietà additiva per calcolare l’affinità di legame GTCACTT Il metodo del vettore dim pesi associa un punteggio ad un’intera parola anziché ad una singola base
12
Decomposizione secondo la direzione di massima dipendenza
Francesco Piva Ist Biologia e Genetica, Ancona
13
Reti neurali artificiali
Francesco Piva Ist Biologia e Genetica, Ancona
14
Osservatorio Astronomico di Trieste INAF
SISSA Scuola Internazionale Superiore di Studi Avanzati Campus di Padriciano Campus di Basovizza Osservatorio Astronomico di Trieste INAF the abdus salam international centre for theoretical physics Istituto talassografico Laboratorio di biologia marina Il castello di Miramare
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.