FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.

Slides:



Advertisements
Presentazioni simili
Introduzione al linguaggio C++
Advertisements

DBMS (DataBase Management System)
Commenti C#.
Introduzione alla programmazione A. Ferrari. Il linguaggio C Nel 1972 Dennis Ritchie nei Bell Laboratories progettò il linguaggio C Il linguaggio possiede.
PHP.
I Titoli di credito 3^ITT.
WEB OF SCIENCE ISI Web of Knowledge
LIGHTHOUSE help utenti Lo scopo di questo breve tutorial, indirizzato agli utenti di SBBL, riguarda alcune funzioni fondamentali ed aiuta a familiarizzare.
STRUTTURA DUPLICAZIONE SINTESI DELLE PROTEINE
BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.
BASI DI DATI BIOLOGICHE - 3
VERIFICA DELLA DOCUMENTAZIONE TECNICA SECONDO LA DIRETTIVA 2007/47/CEE
JavaScript Laboratorio di Applicazioni Informatiche II mod. A.
File.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Medline CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: le banche dati
Posta elettronica : per iniziare : per iniziare Primi passi con la posta elettronica Primi passi con la posta elettronica
SOFTWARE I componenti fisici del calcolatore (unità centrale e periferiche) costituiscono il cosiddetto Hardware (alla lettera, ferramenta). La struttura.
Entrez + MedLine => PubMed
Tutorial base di Manuela Kustermann.
Modulo 7 – reti informatiche u.d. 2 (syllabus – )
Ll Questionario Introduzione al software SAS (Parte 2) Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°2.
Riservato Cisco 1 © 2010 Cisco e/o i relativi affiliati. Tutti i diritti sono riservati.
Internet L’essenziale.
La classificazione della biodiversità
CAP. 2 ANALISI LESSICALE 2.1 Il ruolo dell'analizzatore lessicale
HTML Lezione 5 Immagini. URL Un Uniform Resource Locator o URL (Localizzatore di risorsa uniforme) è una sequenza di caratteri che identifica univocamente.
Progettare un database
Lo sviluppo del software e i linguaggi di programmazione
HTML Lezione 8 I collegamenti ipertestuali (link).
Creare pagine web Xhtlm. Struttura di una pagina.
HTML Lezione 3 Stili.
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Script 1 Marco D. Santambrogio – Ver. aggiornata al 2 Dicembre 2013.
Alcuni esempi di domande di esame
DATABASE Introduzione
Microsoft Access Chiavi, struttura delle tabelle.
Registro Elettronico Istituto Comprensivo Sassano
La ricerca bibliografica
Ufficio coordinamento Polo regionale SBN VIA Catalogazione di monografie in Polo e in Indice SBN Treviso, 26 maggio 2010.
Sequenze e Banche Dati Biologiche
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
Modulo 5 DataBase ACCESS. Informazioni e Dati INFORMAZIONI vengono scambiate con linguaggio scritto o parlato DATI rappresentazione di informazioni in.
L’accesso alle banche dati bibliografiche per l’area economica La ricerca economica per la tesi di laurea: abilità strumentali e strategie informative.
Lezione 3 Struttura lessicale del linguaggio
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
Internet e HTML Diffusione di informazioni mediante la rete Internet.
Introduzione a Javascript
INTERFACCE Schede elettroniche che permettono al calcolatore di comunicare con le periferiche, che possono essere progettate e costruite in modo molto.
IV D Mercurio DB Lezione 2
TITOLO CONVEGNO Luogo, data.
EDIFICI DI VALORE STORICO: PROGETTARE LA RIQUALIFICAZIONE. Una panoramica, dalle prestazioni energetiche alla qualità dell’aria interna Roma, febbraio.
Microsoft Access Chiavi, struttura delle tabelle.
Data Base ACCESS EM 09.
Universita` degli studi di Perugia Corso di Laurea in Matematica Attribute Certificate Valentina Hamam Rosa Leccisotti.
Allineamento di sequenze
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
STRUTTURA DUPLICAZIONE SINTESI DELLE PROTEINE
Nome Cognome 2 Titolo relazione Titolo relazione Titolo relazione Titolo relazione Titolo relazione Titolo relazione Titolo Nome Cognome Ente o Società.
1 “ Le Basi di Dati ”. 2 Parte 5: Tabelle –Creazione di una tabella –Indici e chiavi primarie –Relazioni e integrità referenziale Basi di Dati Struttura.
La sanità nel XXI secolo si avvale non soltanto di diverse abilità mediche, ma anche di migliori informazioni sull’efficacia di ogni trattamento.
Modulo 5 – Database ACCESS LICEO SCIENTIFICO “ B. RESCIGNO COMPUTER SCUOLA PIANO INTEGRATO 2008/09 ESPERTO prof.ssa Rita Montella.
La Fabbrica delle Proteine
Linguaggio SQL. Linguaggi per database La diffusione del modello relazionale ha favorito l’uso prevalente di linguaggi non procedurali: in questo modo.
Il linguaggio SQL (Structured Query Language) è il linguaggio standard per creare, manipolare e interrogare database relazionali. SQL non è case-sensitive:
FINGERPRINTING DI PIANTE E FIORI: UTILE STRUMENTO PER LA CERTIFICAZIONE GENETICA DEL MATERIALE PROPAGATO DAI VIVAISTI.
Creare e gestire il proprio profilo autore con ResearcherID Ornella Russo Biblioteca d’Area della Ricerca.
Come Orientarsi. 2 Se ti colleghi da fuori Azienda: Senza password: medico-sicentifica-on-linehttp://
ARPI. INTERFACCIA AUTORE E AMMINISTRATORE. IL LAVORO DI VALIDAZIONE Raffaella Sprugnoli Università di Pisa 24 giugno 2016.
Transcript della presentazione:

FILE DEI DATABASE FASTA GBFF XML ASN

Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file di testo (*.txt oppure *.fas) che, nella prima riga, comincia con il segno di maggiore; di seguito viene scritto il codice univoco della sequenza e la sua descrizione. A capo si scrive la sequenza la sequenza può avere caratteri maiuscoli o minuscoli Esempio: >gi| |gb|AF | Cynara scolymus clone CLIB12 microsatellite sequence CTCTTGCTTACGCGTGGACTACTGCAAGAAGAAACAAGATGCCAAATTTCGAAACTTT ATTTGCAATCCTTCATGGCACCTGCACTCAAACACCTTCCCACACACAGACACACACA CACACATATATATACACTTCCTTGTATCATCATAACTGAAATTTTAACAG

Formato GBFF IL FORMATO DELLA GenBank Il formato di scambio utilizzato per rappresentare la sequenza è il GBFF GBFF significa GenBank FlatFile. Il file GBFF può essere scomposto in tre parti. 1. HEADER 2. DEFINITION 3. FEATURE TABLE

Formato GBFF: HEADER 1-HEADER  La parte iniziale è la più specifica del file, il primo elemento del file è LOCUS che indica il nome del locus, dal punto di vista storico il nome dovrebbe rappresentare anche il nome del record. Solitamente è un insieme di lettere e numeri (massimo 10) ad esempio HUMBB indica il locus della beta-globulina umana.  Al fine di evitare errori o confusioni viene assegnato anche un numero di accesso indicato come un insieme di caratteri alfanumerici, questo numero è unico e specifico.  La lunghezza della sequenza viene indicata con il numero di coppie (da 1 a 350,000), in pratica si trovano sequenze da 10 bp in su; è sempre più frequente ritrovare sequenze corte circa 20 basi, che spesso figurano come “patented”: è possibile che siano sequenze di primer che amplificano geni che sono stati brevettati.  Il termine DNA indica il tipo di molecola utilizzata nella determinazione della sequenza, i tipi possono essere : DNA, RNA, tRNA, rRNA, mRNA e uRNA.  La data rappresenta il giorno in cui la sequenza è stata resa disponibile.

Formato GBFF: DEFINITION  2-DEFINITION  Con questo termine si riportano le informazioni di tipo biologico relative al record. In generale esiste un certo accordo tra i diversi data base circa la strutturazione della definizione.  L’ACCESSION, rappresenta la chiave primaria ed univoca di accesso a un determinato record.  Questo numero viene anche citato nella pubblicazione relativa (molte riviste richiedono l’accession number per una pubblicazione.  Anche se la sequenza viene aggiornata il numero non cambia. Le possibilità sono di avere una lettera Maiuscola e 5 numeri, oppure da due lettere e 6 numeri.  Si può ritrovare una versione aggiornata dell’accession ma andra solo a sommarsi  Es: ACCESSION AJ VERSION AJ GI:  Possiamo trovare anche un numero di accesso secondario, che costituisce il retaggio di un vecchio sistema di classificazione.

Formato GBFF: DEFINITION  KEYWORDS  Rappresentano un retaggio storico, attualmente l'uso è scoraggiato in quanto molti autori hanno inserito dei termini non contenuti nel vocabolario del data base; inoltre, l ’ inserimento delle parole chiave non è stato applicato in modo uniforme all ’ intero database.  SOURCE  Indica il nome comune o il nome scientifico dell ’ organismo, in molti casi sono presenti anche informazioni relative alla tassonomia  Se si effettua una ricerca per specie, puo essere molto utile il:  TAXONOMY BROWSER presente in NCBI TAXONOMY BROWSER presente in NCBI  Ogni records della GenBank riporta una referenza bibliografica, e un link alla pubblicazione di MEDLINE.  Nella parte finale sono riportati i commenti e le note, nel passato si trovavano anche precise indicazioni sugli autori come ad esempio gli indirizzi di posta elettronica o specifiche URL, attualmente questa tendenza viene scoraggiata, in quanto gli indirizzi elettronici tendono a cambiare con una rapidità maggiore rispetto agli indirizzi postali.

Formato GBFF: DEFINITION  A livello scientifico MEDLINE rappresenta la banca dati bibliografica più importante, ogni articolo viene registrato con un codice di identificazione (MUID), attraverso questo numero è facile risalire all'articolo e alla rivista.  Recentemente la NCBI, con MEDLINE e altri editori ha introdotto un nuovo identificatore chiamato PubMed (PMID) che contiene sia gli articoli pubblicati sia anche articoli non ancora pubblicat

Formato GBFF: FEATURE TABLE 3-FEATURE TABLE Rappresenta il nucleo informativo di maggior interesse del record. SOURCE E’ l’unica rappresentazione comune a tutti i records della GenBank, contiene una serie di qualificatori legali e alcuni qualificatori obbligatori (esempio il tipo di organismo). Il qualificatore dell’organismo può essere descritto come genere e specie, sovente l’organismo viene descritto a livello di subspecie. CDS Le CDS costituiscono una serie di istruzioni per leggere e interpretare la sequenza.

NCBI

DEPOSITIAMO UNA SEQUENZA BANKIT GenBank Direct Submission