Introduzione alla bioinformatica

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Teoria e Tecniche del Riconoscimento
Le distribuzioni di probabilità continue
Ricorrenze Il metodo di sostituzione Il metodo iterativo
____________________
Geni costitutivi e non costitutivi
Proprietà degli stimatori
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.
Introduzione Cosa sono le reti di Petri?
Bioinformatica Corso di Laurea specialistica in Informatica RNA: trascrizione e maturazione 21/03/2011.
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Lez. 3 - Gli Indici di VARIABILITA’
Riconoscimento di forme
Attività cerebrale I neuroni si attivano in gruppi sotto lazione di uno stimolo Attività in gruppi ben delimitati con alta o bassa attività Il gruppo.
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
6. Catene di Markov a tempo continuo (CMTC)
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
4. Automi temporizzati Il comportamento dei sistemi ad eventi temporizzati non è definito semplicemente da una sequenza di eventi o di valori dello stato,
STRUTTURA DUPLICAZIONE SINTESI DELLE PROTEINE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
TRASCRIZIONE del DNA.
Processi Aleatori : Introduzione – Parte I
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Realizzazione e caratterizzazione di una semplice rete neurale per la separazione di due campioni di eventi Vincenzo Izzo.
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
BIOINGEGNERIA S. Salinari Lezione 4.
La Sintesi Proteica.
PATTERN RECOGNITION.
Metodi basati sulle similitudini per dedurre la funzione di un gene
Lezione 4 Probabilità.
Intelligenza Artificiale Algoritmi Genetici
Espressione genica.
Modelli del colore 2 Daniele Marini.
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Introduzione alle reti neurali
O G M RGANISMI ENETICAMENTE ODIFICATI Prof. Rossella Menna
Ivana Calarco DIFFERENZIAMENTO 29/03/2017.
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Modelli predittivi delle agenzie di rating internazionali: il modello MEU evoluto (maximum expected utility) Mattia Ciprian*, Daria Marassi°, Valentino.
UNITA’ DIDATTICA: L’RNA
La varietà dei genomi valore C: quantità totale di DNA contenuta in un genoma aploide Il genoma comprende geni e sequenze non codificanti. Le dimensioni.
CORSO DI BIOLOGIA - Programma
Classificazione (aka Cluster Analysis)
La vita in codice Prof.ssa Carmela Allocca.
Il Genoma umano.
Cosa sono i GENI I geni rappresentano l’unità strutturale e funzionale della genetica Un gene è una successione lineare di unità chimiche semplici (nucleotidi)
Regressione Lineare parte 1
La verifica d’ipotesi Docente Dott. Nappo Daniela
IL CAMPIONE.
TRADUZIONE del RNA.
DATA MINING.
APPROSSIMAZIONE DI FUNZIONI
Dal neolitico al Xxi secolo.
La trascrizione del DNA
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Annotazione strutturale dei genomi
STRUTTURA DUPLICAZIONE SINTESI DELLE PROTEINE
La Fabbrica delle Proteine
Genetica ricombinante nei batteri
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Jacob, Monod – Parigi,1961 il modello dell’Operon-lac
Transcript della presentazione:

Introduzione alla bioinformatica Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Novembre 2004

Obiettivi della bioinformatica Banche dati: raccolta dati, ordinamento, correlare quelli che trattano i diversi aspetti di uno stesso tema, renderli fruibili in modo semplice, unificare le banche adti. Ricerca dei geni in un genoma Inferire la funzione delle proteine a partire dalla sequenza del gene, da qui la possibilità di creare nuove proteine con nuove funzioni Obiettivi della bioinformatica Prevedere lo splicing dell’mRNA a partire dalla sequenza del pre-mRNA, capire l’effetto delle mutazioni Descrivere la rete genica di una cellula, chi attiva o reprime chi, da chi si fa attivare o reprimere. Prevedere al computer l’effetto di uno stimolo esogeno… sapere come compensarlo. Sapere che stimolo generare per produrre certi effetti Capire l’evoluzione delle specie Poter prevedere la ricombinazione nel DNA Francesco Piva Ist Biologia e Genetica, Ancona

Metodi della bioinformatica Risorse umane, formazione, mezzi database Teoria dell’informazione, studio dei linguaggi, ridondanza, entropia, correlazione… Metodi statistici Metodi della bioinformatica Reti neurali Algoritmi matematici: FFT, Wavelet, ICA, PCA, teoria delle reti… Data mining … Francesco Piva Ist Biologia e Genetica, Ancona

Predizione teorica dei geni in un genoma metodi Analisi discriminante lineare e quadratica Alberi di decisione Modelli di Markov a variabili nascoste Reti neurali artificiali Metodo del perceptron Decomposizione secondo le direzioni di massima dipendenza Stima degli esameri codificanti Metodo della matrice di pesi e del vettore di pesi Francesco Piva Ist Biologia e Genetica, Ancona

Analisi discriminante lineare e quadratica L’obiettivo di questo metodo è: Identificare le variabili e le relazioni tra di esse che permettono di differenziare due o più gruppi di dati Classificare nuovi casi nei gruppi ricavati (predittività) lineare quadratico Concentrazione di B Concentrazione di B Concentrazione di A Concentrazione di A Es: distinguere gli individui sani e malati in base alla misura della concentrazione di due enzimi. Con il metodo dei minimi quadrati si minimizza l’errore di classificazione e si ottiene una relazione lineare tra le due variabili Nel caso del riconoscimento degli esoni in una sequenza di pre-mRNA, come variabili si sceglie la frequenza di certe triplette nei siti di splicing in 5’ e in 3’. Francesco Piva Ist Biologia e Genetica, Ancona

Modelli di Markov a variabili nascoste   Un sistema viene descritto da una successione di stati discreti e dalla probabilità di transizione da uno stato all’altro Data una sequenza esonica: …catga… A C G T 0,32 0,31 0,18 0,36 0,37 0,35 0,26 0,20 0,15 0,17 0,16 C A T G A Possiamo rappresentarla come la successione di stati di un sistema e ricavare un modello descrittivo che a partire da un certo stato indichi la probabilità di transizione verso un altro stato. La parola nascosti indica che uno stato non può essere osservato Gli schemi di transizione sono caratteristici delle zone codificanti e non. Francesco Piva Ist Biologia e Genetica, Ancona

Date le cinque sequenze sotto, cerchiamo di ricavare un modello di Markov Si ricava questo modello Inserzione di uno stato (regioni altamente variabili) Stati principali E.g. P(ACACATC) = (0.8 * 1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8) A C A C A T C (S = logP(sequenza) - lunghezza(sequenza)*log0.25 ) Francesco Piva Ist Biologia e Genetica, Ancona

L’attuale modello di predizione di un gene Stati particolari (es: n) Inserzione di uno stato (regioni altamente variabili) Stati principali - si possono rappresentare regole semplici - non si considera la frequenza dei dinucleotidi - non si considera la dipendenza (correlazione) fra i nucleotidi - in realtà ci vorrebbe un modello di Markov per gli esoni, uno per gli introni, uno per le regioni non tradotte Francesco Piva Ist Biologia e Genetica, Ancona

Perceprton assoni sinapsi corpo x1 w1 dendriti x2 w2 assone x3 w3 xn wn non linear function b inputs weights bias E’ un algoritmo realizzato con una rete neurale artificiale che realizza l’analisi discriminante lineare, questo prova iterativamente vari piani di separazione cercando ad ogni passo di minimizzare l’errore di discriminazione. Francesco Piva Ist Biologia e Genetica, Ancona

Stima degli esameri Le sequenze vengono trattate come successioni di parole. Ciascuna parola è un insieme di basi, ad esempio sei simboli formano un esamero La distinzione tra sequenze codificanti e non, si basa sulla frequenza con cui si trovano certi esameri Alcune parole sono caratteristiche delle sequenze codificanti Es: CAGCAG Altre sono caratteristiche di quelle non codificanti Es: TAATAA Dall’osservazione dei geni si ricava un punteggio che viene assegnato ad ogni esamero. Il punteggio può essere positivo o negativo a seconda che sia indizio di una sequenza codificante o meno. In fase di analisi, data una sequenza che potrebbe rappresentare un potenziale gene, si estraggono tutti gli esameri e si ricava un punteggio totale. Francesco Piva Ist Biologia e Genetica, Ancona

Metodo della marice di pesi Questo metodo è usato per assegnare un punteggio ad un sito di DNA o RNA per indicare quanto questo sia affine a legare una proteina o altro Punteggio (gtcacgt) = -0.21 -0.5 +0.73 +1.32 +0.94 +0.99 +0.27 = 3,54 Punto debole: non si tiene conto delle correlazioni tra basi in diversa posizione Es: GTCACGT Questi siti di legame differiscono solo per la sesta posizione. Non è detto che il punteggio in posizione 4 (A) dipenda solo dal nucleotide che si trova in quella posizione: potrebbe dipendere da quali altri nucleotidi sono presenti nelle vicinanze. In altre parole, a volte non vale la semplice proprietà additiva per calcolare l’affinità di legame GTCACTT Il metodo del vettore dim pesi associa un punteggio ad un’intera parola anziché ad una singola base

Decomposizione secondo la direzione di massima dipendenza Francesco Piva Ist Biologia e Genetica, Ancona

Reti neurali artificiali Francesco Piva Ist Biologia e Genetica, Ancona

Osservatorio Astronomico di Trieste INAF SISSA Scuola Internazionale Superiore di Studi Avanzati Campus di Padriciano Campus di Basovizza Osservatorio Astronomico di Trieste INAF the abdus salam international centre for theoretical physics Istituto talassografico Laboratorio di biologia marina Il castello di Miramare