GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.

Slides:



Advertisements
Presentazioni simili
Organizzazione del genoma umano I
Advertisements

IL PROGETTO GENOMA UMANO (HGP)
Progetto genoma umano Il genoma tappe dello studio del genoma umano
GENE: segmento di DNA che trasporta l’informazione per un determinato
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
BASI DI DATI BIOLOGICHE - 3
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
LICEO SCIENTIFICO STATALE “LEONARDO da VINCI” di FIRENZE
Metodi basati sulle similitudini per dedurre la funzione di un gene
Il concetto di aplotipo
Clonaggio funzionale Clonaggio posizionale
Array di oligonucleotidi
Software per la Bioinformatica
Clonaggio: vettori plasmidici
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
Polimorfismi, mutazioni e metodi per evidenziarli
Il progetto genoma umano
La varietà dei genomi valore C: quantità totale di DNA contenuta in un genoma aploide Il genoma comprende geni e sequenze non codificanti. Le dimensioni.
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS
Alcuni esempi di domande di esame
Sintesi di una proteina Cos’è il patrimonio genetico
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Dip. Scienze Biomolecolari e Biotecnologie
Sequenze e Banche Dati Biologiche
AVVISO Il materiale riportato in queste diapositive è di esclusiva proprietà del Prof. Liborio Stuppia. La pubblicazione.
DNA – REPLICAZIONE (1) Semiconservativa: Catene genitrici
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
Applicazioni genetica umana e molecolare II parte
TRADUZIONE del RNA.
GQuery ( ncbi. nlm. nih
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIMOnline Mendelian Inheritance in Man LOCUSLINKcurated sequence and descriptive information about genetic.
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
La parola “Bioinformatica”
Allineamento di sequenze
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
Cenni di Bioinformatica
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
POSTGENOMICA O GENOMICA FUNZIONALE
La Drosophila è un ottimo sistema modello:
Definizione di genoteca (o library) di DNA
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.
I cambiamenti della sequenza del DNA: Evoluzione
Arrays di acidi nucleici
Clonaggio per espressione e clonaggio funzionale
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
STRUTTURE DI MACROMOLECOLE & BANCHE DATI STRUTTURALI.
CLONAGGIO POSIZIONALE
La Fabbrica delle Proteine
Clonaggio funzionale Clonaggio posizionale Conoscenza proteina Malattia genetica Determinazione sequenza amminoac.Mappatura genetica con marcatori polimorfici.
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
Genetica ricombinante nei batteri
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
DNA Barcoding. Cos’è il DNA barcoding? Ottenimento di una breve sequenza di DNA che permette l’identificazione o il riconoscimento di specie all’interno.
Transcript della presentazione:

GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence Database Collaboration (DNA DataBank of Japan (DDBJ), European Molecular Biology Laboratory (EMBL), GenBank all NCBI)  Scambio di informazioni ogni giorno

dbEST (sezione di GenBank) database pubblico di "Expressed Sequence Tags" (sequenze espresse contrassegnate), contiene tutte le sequenze ottenute dal sequenziamento parziale o totale di cloni di cDNA. dbEST release Number of public entries: 9,372,718 Summary by Organism - October 26, 2001 Homo sapiens (human) 3,859,807 Mus musculus + domesticus (mouse) 2,328,188 Rattus sp. (rat) 317,076 Drosophila melanogaster (fruit fly) 255,456...

Sono disponibili le sequenze di entrambe le estremità del clone e le immagini dei cromatogrammi di sequenza possono essere facilmente raggiunte per controllarne la qualità. I cloni EST sono uno strumento molto utile per esperimenti di caratterizzazione di geni e studi di espressione. Una singola EST corrisponde ad un segmento molto breve rispetto all'estensione della regione codificante di un gene, ma essa costituisce il punto di partenza per la sua identificazione, che può essere ottenuta sia con i tradizionali sistemi di sequenziamento, che con metodi esclusivamente informatici (ad es. mediante "ESTassembly") che tentano di ricostruire la presumibile sequenza di consenso tra diverse EST parzialmente sovrapposte, identificandole nei database disponibili.

Come e’ fatta un’entry di GenBank ?

ENTREZ I Database: Nucleotide Protein Genome Structure PopSet Database Interlinking

Nucleotide Dati di sequenza da GenBank, EMBL, and DDBJ Protein Traduzione delle sequenze codificanti in GenBank, EMBL and DDBJ e sequenze di proteine sottomesse a PIR, SWISSPROT, PRF, Protein Data Bank (PDB) (sequenze da strutture risolte) Genome Sequenze di genomi completi di molti organismi Cromosomi completi Mappe di contigui Mappe genetiche/fisiche integrate

Structure Dati sperimentali di cristallografia e NMR Cn3D program PopSet Sequenze allineate, risultato di studi di genetica di popolazione, filogenesi e mutazione. Sia proteine che nucleotidi Database Interlinking

UniGene UniGene è il principale "gene indexing" database, mantenuto all'NCBI UniGene si propone di rappresentare l'insieme dei geni umani espressi attraverso il raggruppamento in un unico "cluster" di tutte le EST e le sequenze annotate di DNA genomico, mRNA, derivanti dai database GenBank e dbEST, simili tra loro e ipoteticamente afferenti alla medesima unità trascrizionale.

Il sistema di "clusterizzazione" si basa sulla similarità di sequenza e non sull'allineamento e le sequenze di scarsa qualità non vengono prese in considerazione. Le sequenze vengono comparate ognuna con tutte le altre in occasione di ciascuna delle frequenti versioni di UniGene e quelle che mostrano una similarità statisticamente significativa vengono inserite in un unico gruppo. Non viene costruita alcuna sequenza di consenso tra quelle di un "cluster", poiché a una singola unità trascrizionale possono corrispondere diversi contigui di sequenze espresse, a causa di fenomeni molto comuni quali o lo splicing alternativo o l'uso di diversi promotori per diverse isoforme.

Il processo di "clusterizzazione" si svolge in diversi passaggi, con stringenza decrescente. Prima vengono filtrate le sequenze contaminanti, ripetute o a bassa complessità e quelle ribosomiali e mitocondriali, in modo che ogni restante sequenza, di lunghezza superiore a 100 bp sia candidata per far parte di un "UniGene cluster". Poi vengono comparate tra loro e raggruppate le sequenze di geni e messaggeri; a questi "cluster" vengono aggiunte le EST correlate per similarità di sequenza o per informazioni sul clone di derivazione.

I "cluster" che non contengono il segnale di poliadenilazione vengono scartati, mantenendo solo i "cluster" "ancorati", ovvero quelli per cui è nota la sequenza 3', requisito fondamentale per l'identificazione di un gene. Gli ultimi stadi del processo provvedono all'assegnazione delle EST "orfane" e dei "cluster" di dimensione 1 a uno dei "cluster" "ancorati", con minore stringenza. Infine a ogni "cluster" viene assegnato il numero di identificazione, cercando di assicurare la massima continuità possibile con le precedenti versioni del database.

I parametri usati da UniGene per il processo di raggruppamento delle sequenze in "UniGene entry" sono caratterizzati da un grado di stringenza piuttosto basso percio’ ci si aspetta che esista in UniGene un singolo gruppo di trascritti a rappresentare ogni gene umano, ovvero che, di converso, le sequenze di trascritti diversi, ottenuti per splicing alternativo da un medesimo gene, siano raggruppate insieme in un'unica "entry".

SAGE (Serial Analysis of Gene Expression) SAGE è un metodo sperimentale ideato per avere informazioni quantitative di espressione genica. SAGE consiste nel sequenziamento da messaggeri cellulari di brevi oligonucleotidi, che fungono da brevi etichette di sequenza (TAG) e si basa su tre principi:  - una sequenza di 9 paia di basi permette di identificare 4 9 (262144) diversi trascritti, dal momento che una "tag" viene ottenuta da una posizione specifica di ogni trascritto,  - le "tag" possono essere unite insieme in serie, a costituire lunghe molecole di DNA, che vengono clonate e sequenziate,  - il numero di volte in cui una singola "tag" viene osservata permette di quantificare l'abbondanza del messaggero identificato nella popolazione dei messaggeri e, indirettamente, il livello di espressione del gene corrispondente.

cDNA microarrays Hundreds of thousands ESTs arranged in a single microscope slide by a robot The basic principle is HYBRIDIZATION OF COMPLEMENTARY SEQUENCES Determination of the level of activity of the genes represented by ESTs in the cell Differential expression of genes in different samples (tissue type, normal/disease state, drugs effects)