Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2003.

Slides:



Advertisements
Presentazioni simili
Come analizzare i dati (principali test statistici impiegati)
Advertisements

Teoria e Tecniche del Riconoscimento
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
1 Processi e Thread Processi Thread Meccanismi di comunicazione fra processi (IPC) Problemi classici di IPC Scheduling Processi e thread in Unix Processi.
Sequential Statements. – Il VHDL simula lo svolgersi in parallelo di varie operazioni – Loggetto fondamentale e il PROCESS – Un PROCESS contiene una serie.
Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Automatic Text Segmentation: Text Relationship Map (Salton 1996) Ing. Leonardo.
MySQL Esercitazioni. Ripasso Connessione a MySQL. Creazione delle basi di dati e delle tablelle. Inserimento dei dati. Interrogazioni.
Lezione /X/06 Cosa dobbiamo sapere La doppia elica: orientamento dei due filamenti 5-3 DNA pol i cromatidi da cosa sono costituiti ? quale è il verso.
HDM Information Design notation v.4. HDM Information Design.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Pubmed CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.
La predizione della struttura genica e lo splicing alternativo
TIPOLOGIA DELLE VARIABILI SPERIMENTALI: Variabili nominali Variabili quantali Variabili semi-quantitative Variabili quantitative.
1. Conoscere luso delle collezioni in Java Comprendere le principali caratteristiche nelle varie classi di Collection disponibili Saper individuare quali.
6.6Ordinamento di Vettori Ordinamento di dati –Applicazione computazionale importante –Virtualmente ogni organizzazione deve ordinare dei dati Enormi quantità
Introduzione alla bioinformatica
1 Implementazione di Linguaggi 2 PARTE 6 Implementazione di Linguaggi 2 PARTE 6 Massimo Ancona DISI Università di Genova Testo: A.V. Aho, R. Sethi, J.D.Ullman.
2000 Prentice Hall, Inc. All rights reserved. 1 Capitolo 6: Classi e astrazione dati 1.Introduzione 2.Definizione delle strutture 3.Accedere ai membri.
Sottoprogrammi e Unità di Compilazione Nicola Fanizzi Laboratorio - Corso di Programmazione (B) C.d.L. in Informatica DIB - Università degli Studi di Bari.
Sequence. CREARE UNA SEQUENCE CREATE SEQUENCE nome [INCREMENT BY n] [START WITH n] [MAXVALUE n | NOMAXVALUE] [MINVALUE n | NOMINVALUE] [CYCLE | NOCYCLE]
FUNZIONI DI GRUPPO Le funzioni di gruppo operano su un set di record restituendo un risultato per il gruppo. AVG ([DISTINCT|ALL] n) media, ignora i valori.
MIC 2008, Roma Antonio Pistoia Università Politecnica delle Marche MOODLELab Uno strumento per MOODLE per la gestione dei telelaboratori durante i corsi.
Presentazione Finale Team 2 1. Decomposizione in sottosistemi 2.
Un esempio: Registrazione e lettura di dati in un file
Microsoft Access Maschere.
1 Università degli Studi di Messina Facoltà di Ingegneria Visilab – Computer Vision and Image Processing Lab Nanodesktop Software development kit per sistemi.
Muoversi tra le finestre
C aso di Studio Gruppo9: DAvino,Vetrano,Monda,Papa, Berardini,Schettino.
JavaScript Lezione 5 Tipizzazione ed operazioni tra tipi diversi Istruzioni di input.
I 7 strumenti della qualità
una generalizzazione del Modello Media-Varianza
DISPOSITIVI ASIC Application Specific Integrated Circuit De Faveri Martina Classe 3 BET.
CROMOSOMI E DNA.
La risoluzione determina il dettaglio dell'immagine, quindi le massime dimensioni di stampa che potete raggiungere mantenendo una buona qualità. La fotocamera.
CLASSE 2^ A settore chimico - biologico CASARANO (LE) a. s Il campeggio ……in verde! Progetto di Ricerca sulla Macchia mediterranea Realizzazione.
Primi passi con Windows: Gestione del Desktop Barra Applicazioni Menu Avvio ISTITUTO COMPRENSIVO N.7 - VIA VIVALDI - IMOLA Via Vivaldi, Imola.
NetApp: NON solo storage Metro Cluster e Cluster Mode
DA NATIVI DIGITALI A INTERNAUTI CONSAPEVOLI
Creare grafici con un foglio di calcolo Copyright© owned by Ubaldo Pernigo, please contact: Tutti i contenuti, ove non diversamente.
La Biblioteca del Polo biologico Brevi note per un utilizzo consapevole della nostra biblioteca.
PCR Restriction Analysis
L’azienda prima dell’intervento:
Analisi del video: Come può essere così difficile? Dopo aver visto il documentario, sul sito
OUTPUT FORMATTATO La funzione printf consente di effettuare la stampa a video formattata. Sintassi: printf ( stringa_formato, arg0, arg1, … ); La stringa.
Piattaforma educativa per micro e nanotecnologie ideata per scuole medie, professionali e istituti tecnici Il Lotuseffekt®
Modulo 1 bis Menù Incolla Esercitazione Un computer è quasi umano, a parte il fatto che non attribuisce i propri errori a un altro computer. (Anonimo)
Moduli o Form I Moduli permettono all'utente di immettere informazioni...
Istituto degli InnocentiRegione Molise C orso di formazione La comunicazione pubblica La redazione web Campobasso 12/13 Aprile 2004.
Perché insegnare statistica a scuola Utilità della Statistica 1.è a fondamento della crescita democratica di un nazione moderna 2.è essenziale per monitorare.
Meteo e stato del mare (modelli) 09 febbraio 2010 Minimo barometrico nel mediterraneo occidentale. Stato del mare in crescente agitazione nel corso della.
OR4 (MODELLI) NOV- FEB.
INTERNET Internet è una rete a livello mondiale che permette alle persone di comunicare ed ad accedere a banca dati da qualunque parte del mondo e su qualunque.
Gruppo 4: Gelmi Martina, Morelato Francesca, Parisi Elisa La mia scuola ha un sito Web: modelli per la qualità dei siti (Ingegneria del Web)
Sistema Informativo Demanio Idrico marzo Per aumentare lefficienza del servizio abbiamo realizzato un sistema in grado di gestire in modo integrato.
LAVORO ED ENERGIA L’energia è la capacità di un sistema di compiere lavoro In natura esistono diverse forme di energia e ognuna di esse si trasforma continuamente.
Attività Formativa Sviluppo di un WORKFLOW ENGINE di Dott. Riccardo Gasperoni Alessandro Caricato Gabriele Trabucco in collaborazione con Progesi S.p.A.
THE BIG DATA ERA Researchers need to be obliged to document and manage their data with as much professionalism as they devote to their experiments. Nature.
SPLICING eliminazione introni unione esoni esone1 introne1 esone2
SUBQUERY Chi ha un salario maggiore di quello di Abel? Occorre scomporre la query in due sotto problemi: MAIN : quali impiegati hanno un salario maggiore.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Uso di Genome Browser per l'annotazione di sequenze genomiche.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Corso di Web Services A A Domenico Rosaci Patterns di E-Business D. RosaciPatterns per l'e-Business.
Introduzione al linguaggio C. Cos’e’ il C? Il C e’ un linguaggio ad alto livello Un compilatore C prende in input un file contenente codice sorgente C.
Collection & Generics in Java
"We firmly believe that the on-the-run issues should command a high liquidity premium in the current environment. But with very high probability, the.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Organizzazione delle unità di ripetizione dei geni per gli istoni in diverse specie.
Transcript della presentazione:

Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2003

Obiettivi della bioinformatica Banche dati: raccolta dati, ordinamento, correlare quelli che trattano i diversi aspetti di uno stesso tema, renderli fruibili in modo semplice, unificare le banche adti. Ricerca dei geni in un genoma Inferire la funzione delle proteine a partire dalla sequenza del gene, da qui la possibilità di creare nuove proteine con nuove funzioni Prevedere lo splicing dellmRNA a partire dalla sequenza del pre-mRNA, capire leffetto delle mutazioni Descrivere la rete genica di una cellula, chi attiva o reprime chi, da chi si fa attivare o reprimere. Prevedere al computer leffetto di uno stimolo esogeno… sapere come compensarlo. Sapere che stimolo generare per produrre certi effetti Capire levoluzione delle specie Poter prevedere la ricombinazione nel DNA Francesco Piva Ist Biologia e Genetica, Ancona

Metodi della bioinformatica database Risorse umane, formazione, mezzi Teoria dellinformazione, studio dei linguaggi, ridondanza, entropia, correlazione… Metodi statistici Data mining Reti neurali Algoritmi matematici: FFT, Wavelet, ICA, PCA, teoria delle reti… … Francesco Piva Ist Biologia e Genetica, Ancona

cromosoma mRNA Cloni di cDNA cDNA Il trascrittoma: quanti e quali geni? Quanti e quali geni sono contenuti in un genoma? Quali geni sono espressi in un tessuto? E in un tessuto patologico? Cellule o tessuti Sequenziamento …EST Francesco Piva Ist Biologia e Genetica, Ancona

TTTTTT AAAAAA3UTR 5UTRESONE 1ESONE 2 mRNA TTTTTT 3 GGGGGG Rimozione dellRNA e attacco di un poly (G) al cDNA TTTTTT Le sequenze di cDNA ottenute dallmRNA sono generalmente tronche La costruzione del cDNA Francesco Piva Ist Biologia e Genetica, Ancona

AAAAAA 3 TTTTTT 5 GGGGGG CCCCCC Produzione del cDNA complementare Metilazione dei due cDNA per proteggere i siti di restrizione CH 3 AAAAAA TTTTTT GGGGGG CCCCCC GAATTC CTTAAG GAATTC CTTAAG Aggiunta di siti di restrizione Eco RI Francesco Piva Ist Biologia e Genetica, Ancona

Digestione con Eco RI AAAAAA TTTTTT GGGGGG CCCCCC GAATTC CTTAAG GAATTC CTTAAG AAAAAA TTTTTT GGGGGG CCCCCC AATTC G G CTTAA vector Ligazione del cDNA nei plasmidi Francesco Piva Ist Biologia e Genetica, Ancona

La potenzialità di una libreria di cDNA è in relazione al numero di inserti di cDNA indipendenti che siamo riusciti a clonare. Supponendo di prelevare unaliquota di batteri trasformati, il titolo è dato dal numero di colonie per unità di volume di batteri ricombinanti Francesco Piva Ist Biologia e Genetica, Ancona

Come stimare la potenzialità di una libreria di cDNA? Si potrebbe digerire il DNA plasmidico con enzimi di restrizione e analizzare i frammenti tagliati 3kb vettore inserti I cloni 7, 8, 9 e 13 non sono ricombinanti: quindi 4/16 = 25% Esempio di una libreria: Titolo: 100 unità formanti colonia/microlitri % cloni non ricombinanti: 10% Volume totale di batteri trasformati: 1 ml Potenzialità: ( cloni totali – non ricombinanti) = inserti di cDNA

Calcolo delle probabilità applicato alle librerie di cDNA Che probabilità abbiamo di trovare il clone A2B che ha frequenza dell 1% (f=0.01) in una libreria di 100 (N=100) cloni? Dalla formula Ricaviamo P = 63.4% Quanti cloni devo sequenziare (N = ?) per essere abbastanza sicuro (99% P=0.99) di trovare il clone A2B che ha una frequenza dell1% (f=0.01)? Dalla stessa formula ricaviamo N = 458 Francesco Piva Ist Biologia e Genetica, Ancona

Un caso reale Quanti cloni devo sequenziare per avere il 99% delle probabilità di trovare un particolare clone di mio interesse? In una cellula ho circa molecole di mRNA quelli più abbondanti sono rappresentati in – copie per cellula f=10000/ quelli mediamente abbondanti in 200 – 500 copie per cellula f=500/ quelli rari in 1 – 15 per cellula f=15/ per gli abbondanti risulta… N=230 per i mediamente abbondanti… N=4600 per i rari… N= Francesco Piva Ist Biologia e Genetica, Ancona

Anziché mettersi a sequenziare in modo furioso, si può cercare di operare sulla libreria in modo di aumentare la probabilità di trovare il cDNA di interesse. Questo lo si può fare in vari metodi : Metodo di arricchimento Frazionamento in gel Clonazione per sottrazione Francesco Piva Ist Biologia e Genetica, Ancona

Metodo di arricchimento P er arricchire la libreria del cDNA di interesse si può - selezionare in partenza le cellule o i tessuti più ricchi del trascritto - rimuovere dalla libreria le sequenze che non interessano - indurre o aumentare la trascrizione del particolare gene con stimoli specifici Francesco Piva Ist Biologia e Genetica, Ancona

Frazionamento in gel Se si sa la lunghezza del cDNA che stiamo cercando, si possono selezionare su gel prima di legarli al vettore Francesco Piva Ist Biologia e Genetica, Ancona

Clonazione per sottrazione Linea cellulare + Linea cellulare - Sintesi del cDNA dallmRNA Eliminazione dellmRNA Ibridazione mRNA non appaiati cDNA non appaiati Recupero del cDNA non appaiato tramite colonnine di idrossiapatite. Ottengo solo quello non comune alle due linee mRNA Francesco Piva Ist Biologia e Genetica, Ancona

Tipo di cDNA N° di copie Normalizzazione delle librerie di cDNA Tipo di cDNA N° di copie Supponendo di avere il cDNA di 8 geni espressi con intensità diversa, mostriamo il grafico dellabbondanza di copie di cDNA prima e dopo la normalizzazione della libreria Si perdono le informazioni sul livello di espressione dei geni Al fine di trovare con la stessa probabilità sia le sequenze abbondanti che quelle rare si attua una normalizzazione delle librerie di cDNA. Per far questo si sfrutta il fatto che i cDNA più abbondanti, si appaiano o ibridizzano più rapidamente e possono essere rimossi dallinsieme di cDNA di partenza. In questo modo linsieme rimanente si svuota delle sequenze più abbondanti ovvero si arricchisce di quelle più rare. Francesco Piva Ist Biologia e Genetica, Ancona

Generazione delle sequenze EST: etichette di sequenza espressa AAAAAAA cDNA clone sequencing primers 3 EST 5 EST Francesco Piva Ist Biologia e Genetica, Ancona

Scarsa qualità delle sequenze: errori dovuti ad un sequenziamento automatizzato, senza la supervisione di un operatore, sequenza a passaggio singolo. Quello che importa è determinare la presenza di un trascritto non la sua sequenza. In questo modo si perdono le informazioni sulle mutazioni. >T27784 g | T27784 CLONE_LIB: Human Endothelial cells. LEN: 337 b.p. FILE gbest3.seq 5-PRIME DEFN: EST16067 Homo sapiens cDNA 5' end AAGACCCCCGTCTCTTTAAAAATATATATATTTTAAATATACTTAAATATATATTTCTAATATCTTTAAATATA TATATATATTTNAAAGACCAATTTATGGGAGANTTGCACACAGATGTGAAATGAATGTAATCTAATAGANGCCT AATCAGCCCACCATGTTCTCCACTGAAAAATCCTCTTTCTTTGGGGTTTTTCTTTCTTTCTTTTTTGATTTTGC ACTGGACGGTGACGTCAGCCATGTACAGGATCCACAGGGGTGGTGTCAAATGCTATTGAAATTNTGTTGAATTG TATACTTTTTCACTTTTTGATAATTAACCATGTAAAAAATG Francesco Piva Ist Biologia e Genetica, Ancona

Problemi con gli EST Le sequenze provenienti dallo stesso trascritto vanno raggruppate clustering Questa operazione non è banale perchè bisogna tener conto dei seguenti problemi: - presenza di polimorfismi, le mie EST potrebbero non allineare con la sequenza genomica poiché le EST sono del mio organismo, il genomico è di un organismo diverso da quello che sto studiando - un gene può avere anche centinaia di varianti di splicing - i geni paraloghi (fisicamente in posizioni cromosomiche diverse ma con trascritti quasi identici) - presenza negli EST di pezzi di vettore plasmidico - presenza di sequenze genomiche batteriche - presenza di sequenze ripetute come le Alu - artefatti dovuti al fatto che due inserti di cDNA entrano in tandem in un vettore plasmidico e io li leggo come un unico trascritto In generale questi problemi sono completamente superabili solo quando si conosce la sequenza genomica della specie che sto studiando Francesco Piva Ist Biologia e Genetica, Ancona

cDNA, EST e banche dati dbEST (pronuncia the best) Divisione di GenBank che contiene tutte le sequenze EST, classificate per specie, tessuto, patologia… Francesco Piva Ist Biologia e Genetica, Ancona

dbEST release Summary by Organism - October 31, 2003 Number of public entries: 18,971,362 Homo sapiens (human) 5,427,521 Mus musculus + domesticus (mouse) 3,915,334 Rattus sp. (rat) 538,251 Triticum aestivum (wheat) 500,902 Ciona intestinalis 492,488 Gallus gallus (chicken) 451,565 Zea mays (maize) 383,759 Danio rerio (zebrafish) 362,445 Hordeum vulgare + subsp. vulgare (barley) 348,233 Xenopus laevis (African clawed frog) 344,747 Glycine max (soybean) 341,578 Bos taurus (cattle) 329,387 Drosophila melanogaster (fruit fly) 261,414 Oryza sativa (rice) 260,890 Saccharum officinarum 246,301 Caenorhabditis elegans (nematode) 215,200 Silurana tropicalis 209,240 Arabidopsis thaliana (thale cress) 190,732 Medicago truncatula (barrel medic) 187,763 Sus scrofa (pig) 171,920 Francesco Piva Ist Biologia e Genetica, Ancona

1: BM ie94h04.y1 Melton...[gi: ] IDENTIFIERS dbEST Id: EST name: ie94h04.y1 GenBank Acc: BM GenBank gi: CLONE INFO Clone Id: IMAGE: (5') Source: University of Pennsylvania & Harvard University (HHMI) & Washington University (GSC) Other ESTs on clone:ie94h04.x1 DNA type: cDNA PRIMERS PolyA Tail: Unknown SEQUENCE GCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCTTTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATA ACTTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACATTTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAA ATATGGAAAGTTGCAGATGAGGTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGGCTGTGTCCTAAGCCATGGCCACA AGCAGTTGATGTGCTTGGCTAGATCTGTTCCAGTAAGGCGAAGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGAACTCT AAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCTGGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACG ATTCC Quality: High quality sequence stops at base: 429 Entry Created: Nov Last Updated: Mar COMMENTS Library was constructed by Dr. Douglas Melton DNA sequencing by: Washington University Genome Sequencing Center For information on obtaining a clone please contact: Juliana Brown This sequence now available from the IMAGE consortium, for clone orders contact: PUTATIVE ID Assigned by submitter SW:CFTR_HUMAN P13569 CYSTIC FIBROSIS TRANSMEMBRANE CONDUCTANCE REGULATOR ; LIBRARY Lib Name: Melton Normalized Human Islet 4 N4 - HIS 1 Organism: Homo sapiens Sex: Both Organ: Pancreas Tissue type: Islets of Langerhans Develop. stage: Adult Lab host: DH10B R. Site 1: Not 1 R. Site 2: Sal 1 Inserendo homo sapiens e CFTR Francesco Piva Ist Biologia e Genetica, Ancona

Integrated Molecular Analysis of Genomes and their Expressions Francesco Piva Ist Biologia e Genetica, Ancona

Attenzione: la ricerca è case sensitive quindi se digitate cftr non trova nulla, si deve digitare CFTR maiuscolo. Francesco Piva Ist Biologia e Genetica, Ancona

Geni noti in NCBI Reference Sequence Geni non noti in NCBI Reference Sequence In IMAGE si trovano due tipi di cluster di geni a seconda che corrispondano a geni già noti Full: Cluster i cui cloni allineano pienamente con un gene noto Predicted full: Cluster che contengono una ORF completa ma il cui gene è stato solo predetto sperimentalmente Unknown: Cloni di cui non si sa se rappresentano lintera ORF (perché è stato determinato un solo EST del clone) Partial: Cloni che non rappresentano lintera ORF (gli EST al 5 e al 3 non coprono lintera regione del clone) Empties: Cluster già noto ma di cui in questa libreria non ci sono cloni Multi-member: Cluster contenente più cloni e il cui gene non è ne noto ne predetto Singletons: Singolo clone che non si può raggruppare con altri già noti e contiene almeno 50 nucleotidi in cui non ci sono sequenze ripetute Francesco Piva Ist Biologia e Genetica, Ancona

descrizione del gene Identificativo del cluster, attenzione perché può cambiare Numero di cloni che coprono interamente la sequenza codificante, se ne esiste almeno uno allora abbiamo un full cluster

E possibile vedere gli allineamenti dei cloni che compongono il cluster o quello delle singole sequenze EST Francesco Piva Ist Biologia e Genetica, Ancona

In questa schermata troviamo i dati sui cloni e sugli EST Il bottone restituisce la descrizione del gene Francesco Piva Ist Biologia e Genetica, Ancona

clone EST Classificazione di un clone: predicted full, unknown, partial… Provenienza del clone Mammalian Gene Collection Lunghezza del clone: dimensione determinata, se si conosce un solo EST si indica la lunghezza minima chi ha verificato il clone A volte è ambiguo stabilire a quale cluster appartiene un certo clone, il numero a fianco indica a quanti altri cluster (oltre a questo) appartiene questo clone Bento Soares Columbia University Lavora alla creazione di librerie di EST normalizzate Francesco Piva Ist Biologia e Genetica, Ancona

Francesco Piva Ist Biologia e Genetica, Ancona

Si possono fare ricerche per identificativo dell librera, tassuto, stadio di sviluppo… Francesco Piva Ist Biologia e Genetica, Ancona

o per patologia… Francesco Piva Ist Biologia e Genetica, Ancona

Identificato un gene, mostra la descrizione della proteina

gli allineamenti… Francesco Piva Ist Biologia e Genetica, Ancona

Gli omologhi Francesco Piva Ist Biologia e Genetica, Ancona

UniGene Sviluppato da NCBI, contiene i cluster corrispondenti ai geni Gli EST sono stati filtrati, verificati con MegaBlast, tutti i cluster sono confrontati con i nuovi EST e verificati settimanalmente Nota: non fare riferimento agli ID (identificativi) dei cluster poiché possono cambiare settimanalmente Francesco Piva Ist Biologia e Genetica, Ancona

Francesco Piva Ist Biologia e Genetica, Ancona

Dalla schermata precedente cè un collegamento a questo sito Vengono fornite le sequenze di 10 basi (etichette) in ordine di occorrenza decrescente nel cluster per il gene di interesse

STACK Sviluppato dal South African National Bioinformatics Institute, contiene i dati sui cluster, il criterio di allineamento è un po diverso da quello di UniGene perché inizialmente si verifica se due EST sono parzialmente sovrapposti controllando se hanno parti in comune Francesco Piva Ist Biologia e Genetica, Ancona

TIGR In generale i dati di clustering differiscono da una banca dati allaltra a causa dei diversi criteri adottati Francesco Piva Ist Biologia e Genetica, Ancona

Francesco Piva Ist Biologia e Genetica, Ancona

ORF nelle tre fasi, nel filamento diretto e inverso Zona e direzione in cui allineano gli EST Per ciscun EST e possibile avere informazioni dal sito TIGR, da GenBank Nucleoride e da IMAGE Francesco Piva Ist Biologia e Genetica, Ancona

Francesco Piva Ist Biologia e Genetica, Ancona

Noi possiamo allineare i trascritti sul DNA genomico tramite programmi disponibili su siti internet Questi programmi tengono conto che - il trascritto deve essere completamente contenuto nel DNA genomico - lappaiamento potrebbe non essere perfetto - lappaiamento può essere interrotto da introni Francesco Piva Ist Biologia e Genetica, Ancona

Francesco Piva Ist Biologia e Genetica, Ancona

Francesco Piva Ist Biologia e Genetica, Ancona

Francesco Piva Ist Biologia e Genetica, Ancona

Predizione teorica dei geni in un genoma metodi Analisi discriminante lineare e quadratica Modelli di Markov a variabili nascoste Metodo del perceptron Stima degli esameri codificanti Metodo della matrice di pesi e del vettore di pesi Decomposizione secondo le direzioni di massima dipendenza Alberi di decisione Reti neurali artificiali Francesco Piva Ist Biologia e Genetica, Ancona

Analisi discriminante lineare e quadratica Lobiettivo di questo metodo è: Identificare le variabili e le relazioni tra di esse che permettono di differenziare due o più gruppi di dati Classificare nuovi casi nei gruppi ricavati (predittività) Concentrazione di A Concentrazione di B Es: distinguere gli individui sani e malati in base alla misura della concentrazione di due enzimi. Con il metodo dei minimi quadrati si minimizza lerrore di classificazione e si ottiene una relazione lineare tra le due variabili Concentrazione di A Concentrazione di B Nel caso del riconoscimento degli esoni in una sequenza di pre-mRNA, come variabili si sceglie la frequenza di certe triplette nei siti di splicing in 5 e in 3. lineare quadratico Francesco Piva Ist Biologia e Genetica, Ancona

Modelli di Markov a variabili nascoste Un sistema viene descritto da una successione di stati discreti e dalla probabilità di transizione da uno stato allaltro A A C C G T G T 0,32 0,31 0,18 0,36 0,37 0,35 0,260,20 0,15 0,20 0,17 0,16 0,18 0,15 0,36 A C G T A Data una sequenza esonica: …catga… Possiamo rappresentarla come la successione di stati di un sistema e ricavare un modello descrittivo che a partire da un certo stato indichi la probabilità di transizione verso un altro stato. La parola nascosti indica che uno stato non può essere osservato Gli schemi di transizione sono caratteristici delle zone codificanti e non. Francesco Piva Ist Biologia e Genetica, Ancona

Date le cinque sequenze sotto, cerchiamo di ricavare un modello di Markov Si ricava questo modello E.g. P(ACACATC) = (0.8 * 1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8) A C A C A T C (S = logP(sequenza) - lunghezza(sequenza)*log0.25 ) Inserzione di uno stato (regioni altamente variabili) Stati principali Francesco Piva Ist Biologia e Genetica, Ancona

Lattuale modello di predizione di un gene Stati principali Inserzione di uno stato (regioni altamente variabili) Stati particolari (es: n) - si possono rappresentare regole semplici - non si considera la frequenza dei dinucleotidi - non si considera la dipendenza (correlazione) fra i nucleotidi - in realtà ci vorrebbe un modello di Markov per gli esoni, uno per gli introni, uno per le regioni non tradotte Francesco Piva Ist Biologia e Genetica, Ancona

Perceprton w1w1 w2w2 w3w3 wnwn x1x1 x2x2 x3x3 xnxn b bias weights inputs non linear function assoni sinapsi dendriti assone corpo E un algoritmo realizzato con una rete neurale artificiale che realizza lanalisi discriminante lineare, questo prova iterativamente vari piani di separazione cercando ad ogni passo di minimizzare lerrore di discriminazione. Francesco Piva Ist Biologia e Genetica, Ancona

Stima degli esameri Le sequenze vengono trattate come successioni di parole. Ciascuna parola è un insieme di basi, ad esempio sei simboli formano un esamero La distinzione tra sequenze codificanti e non, si basa sulla frequenza con cui si trovano certi esameri Alcune parole sono caratteristiche delle sequenze codificanti Es: CAGCAG Altre sono caratteristiche di quelle non codificanti Es: TAATAA Dallosservazione dei geni si ricava un punteggio che viene assegnato ad ogni esamero. Il punteggio può essere positivo o negativo a seconda che sia indizio di una sequenza codificante o meno. In fase di analisi, data una sequenza che potrebbe rappresentare un potenziale gene, si estraggono tutti gli esameri e si ricava un punteggio totale. Francesco Piva Ist Biologia e Genetica, Ancona

Metodo della marice di pesi Questo metodo è usato per assegnare un punteggio ad un sito di DNA o RNA per indicare quanto questo sia affine a legare una proteina o altro Punto debole: non si tiene conto delle correlazioni tra basi in diversa posizione Es: Punteggio (gtcacgt) = = 3,54 GTCACGT GTCACTT Questi siti di legame differiscono solo per la sesta posizione. Non è detto che il punteggio in posizione 4 (A) dipenda solo dal nucleotide che si trova in quella posizione: potrebbe dipendere da quali altri nucleotidi sono presenti nelle vicinanze. In altre parole, a volte non vale la semplice proprietà additiva per calcolare laffinità di legame Il metodo del vettore dim pesi associa un punteggio ad unintera parola anziché ad una singola base

Decomposizione secondo la direzione di massima dipendenza Francesco Piva Ist Biologia e Genetica, Ancona

Reti neurali artificiali Francesco Piva Ist Biologia e Genetica, Ancona