Introduzione alla bioinformatica Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Novembre 2004
Obiettivi della bioinformatica Banche dati: raccolta dati, ordinamento, correlare quelli che trattano i diversi aspetti di uno stesso tema, renderli fruibili in modo semplice, unificare le banche adti. Ricerca dei geni in un genoma Inferire la funzione delle proteine a partire dalla sequenza del gene, da qui la possibilità di creare nuove proteine con nuove funzioni Obiettivi della bioinformatica Prevedere lo splicing dell’mRNA a partire dalla sequenza del pre-mRNA, capire l’effetto delle mutazioni Descrivere la rete genica di una cellula, chi attiva o reprime chi, da chi si fa attivare o reprimere. Prevedere al computer l’effetto di uno stimolo esogeno… sapere come compensarlo. Sapere che stimolo generare per produrre certi effetti Capire l’evoluzione delle specie Poter prevedere la ricombinazione nel DNA Francesco Piva Ist Biologia e Genetica, Ancona
Metodi della bioinformatica Risorse umane, formazione, mezzi database Teoria dell’informazione, studio dei linguaggi, ridondanza, entropia, correlazione… Metodi statistici Metodi della bioinformatica Reti neurali Algoritmi matematici: FFT, Wavelet, ICA, PCA, teoria delle reti… Data mining … Francesco Piva Ist Biologia e Genetica, Ancona
Predizione teorica dei geni in un genoma metodi Analisi discriminante lineare e quadratica Alberi di decisione Modelli di Markov a variabili nascoste Reti neurali artificiali Metodo del perceptron Decomposizione secondo le direzioni di massima dipendenza Stima degli esameri codificanti Metodo della matrice di pesi e del vettore di pesi Francesco Piva Ist Biologia e Genetica, Ancona
Analisi discriminante lineare e quadratica L’obiettivo di questo metodo è: Identificare le variabili e le relazioni tra di esse che permettono di differenziare due o più gruppi di dati Classificare nuovi casi nei gruppi ricavati (predittività) lineare quadratico Concentrazione di B Concentrazione di B Concentrazione di A Concentrazione di A Es: distinguere gli individui sani e malati in base alla misura della concentrazione di due enzimi. Con il metodo dei minimi quadrati si minimizza l’errore di classificazione e si ottiene una relazione lineare tra le due variabili Nel caso del riconoscimento degli esoni in una sequenza di pre-mRNA, come variabili si sceglie la frequenza di certe triplette nei siti di splicing in 5’ e in 3’. Francesco Piva Ist Biologia e Genetica, Ancona
Modelli di Markov a variabili nascoste Un sistema viene descritto da una successione di stati discreti e dalla probabilità di transizione da uno stato all’altro Data una sequenza esonica: …catga… A C G T 0,32 0,31 0,18 0,36 0,37 0,35 0,26 0,20 0,15 0,17 0,16 C A T G A Possiamo rappresentarla come la successione di stati di un sistema e ricavare un modello descrittivo che a partire da un certo stato indichi la probabilità di transizione verso un altro stato. La parola nascosti indica che uno stato non può essere osservato Gli schemi di transizione sono caratteristici delle zone codificanti e non. Francesco Piva Ist Biologia e Genetica, Ancona
Date le cinque sequenze sotto, cerchiamo di ricavare un modello di Markov Si ricava questo modello Inserzione di uno stato (regioni altamente variabili) Stati principali E.g. P(ACACATC) = (0.8 * 1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8) A C A C A T C (S = logP(sequenza) - lunghezza(sequenza)*log0.25 ) Francesco Piva Ist Biologia e Genetica, Ancona
L’attuale modello di predizione di un gene Stati particolari (es: n) Inserzione di uno stato (regioni altamente variabili) Stati principali - si possono rappresentare regole semplici - non si considera la frequenza dei dinucleotidi - non si considera la dipendenza (correlazione) fra i nucleotidi - in realtà ci vorrebbe un modello di Markov per gli esoni, uno per gli introni, uno per le regioni non tradotte Francesco Piva Ist Biologia e Genetica, Ancona
Perceprton assoni sinapsi corpo x1 w1 dendriti x2 w2 assone x3 w3 xn wn non linear function b inputs weights bias E’ un algoritmo realizzato con una rete neurale artificiale che realizza l’analisi discriminante lineare, questo prova iterativamente vari piani di separazione cercando ad ogni passo di minimizzare l’errore di discriminazione. Francesco Piva Ist Biologia e Genetica, Ancona
Stima degli esameri Le sequenze vengono trattate come successioni di parole. Ciascuna parola è un insieme di basi, ad esempio sei simboli formano un esamero La distinzione tra sequenze codificanti e non, si basa sulla frequenza con cui si trovano certi esameri Alcune parole sono caratteristiche delle sequenze codificanti Es: CAGCAG Altre sono caratteristiche di quelle non codificanti Es: TAATAA Dall’osservazione dei geni si ricava un punteggio che viene assegnato ad ogni esamero. Il punteggio può essere positivo o negativo a seconda che sia indizio di una sequenza codificante o meno. In fase di analisi, data una sequenza che potrebbe rappresentare un potenziale gene, si estraggono tutti gli esameri e si ricava un punteggio totale. Francesco Piva Ist Biologia e Genetica, Ancona
Metodo della marice di pesi Questo metodo è usato per assegnare un punteggio ad un sito di DNA o RNA per indicare quanto questo sia affine a legare una proteina o altro Punteggio (gtcacgt) = -0.21 -0.5 +0.73 +1.32 +0.94 +0.99 +0.27 = 3,54 Punto debole: non si tiene conto delle correlazioni tra basi in diversa posizione Es: GTCACGT Questi siti di legame differiscono solo per la sesta posizione. Non è detto che il punteggio in posizione 4 (A) dipenda solo dal nucleotide che si trova in quella posizione: potrebbe dipendere da quali altri nucleotidi sono presenti nelle vicinanze. In altre parole, a volte non vale la semplice proprietà additiva per calcolare l’affinità di legame GTCACTT Il metodo del vettore dim pesi associa un punteggio ad un’intera parola anziché ad una singola base
Decomposizione secondo la direzione di massima dipendenza Francesco Piva Ist Biologia e Genetica, Ancona
Reti neurali artificiali Francesco Piva Ist Biologia e Genetica, Ancona
Osservatorio Astronomico di Trieste INAF SISSA Scuola Internazionale Superiore di Studi Avanzati Campus di Padriciano Campus di Basovizza Osservatorio Astronomico di Trieste INAF the abdus salam international centre for theoretical physics Istituto talassografico Laboratorio di biologia marina Il castello di Miramare