La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004.

Presentazioni simili


Presentazione sul tema: "Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004."— Transcript della presentazione:

1 Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

2 Obiettivi della bioinformatica Banche dati: raccolta dati, ordinamento, correlare quelli che trattano i diversi aspetti di uno stesso tema, renderli fruibili in modo semplice, unificare le banche adti. Ricerca dei geni in un genoma Inferire la funzione delle proteine a partire dalla sequenza del gene, da qui la possibilità di creare nuove proteine con nuove funzioni Prevedere lo splicing dellmRNA a partire dalla sequenza del pre-mRNA, capire leffetto delle mutazioni Descrivere la rete genica di una cellula, chi attiva o reprime chi, da chi si fa attivare o reprimere. Prevedere al computer leffetto di uno stimolo esogeno… sapere come compensarlo. Sapere che stimolo generare per produrre certi effetti Capire levoluzione delle specie Poter prevedere la ricombinazione nel DNA Francesco Piva Ist Biologia e Genetica, Ancona

3 Metodi della bioinformatica database Risorse umane, formazione, mezzi Teoria dellinformazione, studio dei linguaggi, ridondanza, entropia, correlazione… Metodi statistici Data mining Reti neurali Algoritmi matematici: FFT, Wavelet, ICA, PCA, teoria delle reti… … Francesco Piva Ist Biologia e Genetica, Ancona

4 Predizione teorica dei geni in un genoma metodi Analisi discriminante lineare e quadratica Modelli di Markov a variabili nascoste Metodo del perceptron Stima degli esameri codificanti Metodo della matrice di pesi e del vettore di pesi Decomposizione secondo le direzioni di massima dipendenza Alberi di decisione Reti neurali artificiali Francesco Piva Ist Biologia e Genetica, Ancona

5 Analisi discriminante lineare e quadratica Lobiettivo di questo metodo è: Identificare le variabili e le relazioni tra di esse che permettono di differenziare due o più gruppi di dati Classificare nuovi casi nei gruppi ricavati (predittività) Concentrazione di A Concentrazione di B Es: distinguere gli individui sani e malati in base alla misura della concentrazione di due enzimi. Con il metodo dei minimi quadrati si minimizza lerrore di classificazione e si ottiene una relazione lineare tra le due variabili Concentrazione di A Concentrazione di B Nel caso del riconoscimento degli esoni in una sequenza di pre-mRNA, come variabili si sceglie la frequenza di certe triplette nei siti di splicing in 5 e in 3. lineare quadratico Francesco Piva Ist Biologia e Genetica, Ancona

6 Modelli di Markov a variabili nascoste Un sistema viene descritto da una successione di stati discreti e dalla probabilità di transizione da uno stato allaltro A A C C G T G T 0,32 0,31 0,18 0,36 0,37 0,35 0,260,20 0,15 0,20 0,17 0,16 0,18 0,15 0,36 A C G T A Data una sequenza esonica: …catga… Possiamo rappresentarla come la successione di stati di un sistema e ricavare un modello descrittivo che a partire da un certo stato indichi la probabilità di transizione verso un altro stato. La parola nascosti indica che uno stato non può essere osservato Gli schemi di transizione sono caratteristici delle zone codificanti e non. Francesco Piva Ist Biologia e Genetica, Ancona

7 Date le cinque sequenze sotto, cerchiamo di ricavare un modello di Markov Si ricava questo modello E.g. P(ACACATC) = (0.8 * 1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8) A C A C A T C (S = logP(sequenza) - lunghezza(sequenza)*log0.25 ) Inserzione di uno stato (regioni altamente variabili) Stati principali Francesco Piva Ist Biologia e Genetica, Ancona

8 Lattuale modello di predizione di un gene Stati principali Inserzione di uno stato (regioni altamente variabili) Stati particolari (es: n) - si possono rappresentare regole semplici - non si considera la frequenza dei dinucleotidi - non si considera la dipendenza (correlazione) fra i nucleotidi - in realtà ci vorrebbe un modello di Markov per gli esoni, uno per gli introni, uno per le regioni non tradotte Francesco Piva Ist Biologia e Genetica, Ancona

9 Perceprton w1w1 w2w2 w3w3 wnwn x1x1 x2x2 x3x3 xnxn b bias weights inputs non linear function assoni sinapsi dendriti assone corpo E un algoritmo realizzato con una rete neurale artificiale che realizza lanalisi discriminante lineare, questo prova iterativamente vari piani di separazione cercando ad ogni passo di minimizzare lerrore di discriminazione. Francesco Piva Ist Biologia e Genetica, Ancona

10 Stima degli esameri Le sequenze vengono trattate come successioni di parole. Ciascuna parola è un insieme di basi, ad esempio sei simboli formano un esamero La distinzione tra sequenze codificanti e non, si basa sulla frequenza con cui si trovano certi esameri Alcune parole sono caratteristiche delle sequenze codificanti Es: CAGCAG Altre sono caratteristiche di quelle non codificanti Es: TAATAA Dallosservazione dei geni si ricava un punteggio che viene assegnato ad ogni esamero. Il punteggio può essere positivo o negativo a seconda che sia indizio di una sequenza codificante o meno. In fase di analisi, data una sequenza che potrebbe rappresentare un potenziale gene, si estraggono tutti gli esameri e si ricava un punteggio totale. Francesco Piva Ist Biologia e Genetica, Ancona

11 Metodo della marice di pesi Questo metodo è usato per assegnare un punteggio ad un sito di DNA o RNA per indicare quanto questo sia affine a legare una proteina o altro Punto debole: non si tiene conto delle correlazioni tra basi in diversa posizione Es: Punteggio (gtcacgt) = = 3,54 GTCACGT GTCACTT Questi siti di legame differiscono solo per la sesta posizione. Non è detto che il punteggio in posizione 4 (A) dipenda solo dal nucleotide che si trova in quella posizione: potrebbe dipendere da quali altri nucleotidi sono presenti nelle vicinanze. In altre parole, a volte non vale la semplice proprietà additiva per calcolare laffinità di legame Il metodo del vettore dim pesi associa un punteggio ad unintera parola anziché ad una singola base

12 Decomposizione secondo la direzione di massima dipendenza Francesco Piva Ist Biologia e Genetica, Ancona

13 Reti neurali artificiali Francesco Piva Ist Biologia e Genetica, Ancona

14 Campus di Padriciano Campus di Basovizza SISSA Scuola Internazionale Superiore di Studi Avanzati the abdus salam international centre for theoretical physics Osservatorio Astronomico di Trieste INAF Laboratorio di biologia marina Istituto talassografico Il castello di Miramare


Scaricare ppt "Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004."

Presentazioni simili


Annunci Google