La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.

Presentazioni simili


Presentazione sul tema: "FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file."— Transcript della presentazione:

1 FILE DEI DATABASE FASTA GBFF XML ASN

2 Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file di testo (*.txt oppure *.fas) che, nella prima riga, comincia con il segno di maggiore; di seguito viene scritto il codice univoco della sequenza e la sua descrizione. A capo si scrive la sequenza la sequenza può avere caratteri maiuscoli o minuscoli Esempio: >gi|28916628|gb|AF527032.1| Cynara scolymus clone CLIB12 microsatellite sequence CTCTTGCTTACGCGTGGACTACTGCAAGAAGAAACAAGATGCCAAATTTCGAAACTTT ATTTGCAATCCTTCATGGCACCTGCACTCAAACACCTTCCCACACACAGACACACACA CACACATATATATACACTTCCTTGTATCATCATAACTGAAATTTTAACAG

3 Formato GBFF IL FORMATO DELLA GenBank Il formato di scambio utilizzato per rappresentare la sequenza è il GBFF GBFF significa GenBank FlatFile. Il file GBFF può essere scomposto in tre parti. 1. HEADER 2. DEFINITION 3. FEATURE TABLE

4 Formato GBFF: HEADER 1-HEADER  La parte iniziale è la più specifica del file, il primo elemento del file è LOCUS che indica il nome del locus, dal punto di vista storico il nome dovrebbe rappresentare anche il nome del record. Solitamente è un insieme di lettere e numeri (massimo 10) ad esempio HUMBB indica il locus della beta-globulina umana.  Al fine di evitare errori o confusioni viene assegnato anche un numero di accesso indicato come un insieme di caratteri alfanumerici, questo numero è unico e specifico.  La lunghezza della sequenza viene indicata con il numero di coppie (da 1 a 350,000), in pratica si trovano sequenze da 10 bp in su; è sempre più frequente ritrovare sequenze corte circa 20 basi, che spesso figurano come “patented”: è possibile che siano sequenze di primer che amplificano geni che sono stati brevettati.  Il termine DNA indica il tipo di molecola utilizzata nella determinazione della sequenza, i tipi possono essere : DNA, RNA, tRNA, rRNA, mRNA e uRNA.  La data rappresenta il giorno in cui la sequenza è stata resa disponibile.

5 Formato GBFF: DEFINITION  2-DEFINITION  Con questo termine si riportano le informazioni di tipo biologico relative al record. In generale esiste un certo accordo tra i diversi data base circa la strutturazione della definizione.  L’ACCESSION, rappresenta la chiave primaria ed univoca di accesso a un determinato record.  Questo numero viene anche citato nella pubblicazione relativa (molte riviste richiedono l’accession number per una pubblicazione.  Anche se la sequenza viene aggiornata il numero non cambia. Le possibilità sono di avere una lettera Maiuscola e 5 numeri, oppure da due lettere e 6 numeri.  Si può ritrovare una versione aggiornata dell’accession ma andra solo a sommarsi  Es: ACCESSION AJ507825 VERSION AJ507825.1 GI:27475615  Possiamo trovare anche un numero di accesso secondario, che costituisce il retaggio di un vecchio sistema di classificazione.

6 Formato GBFF: DEFINITION  KEYWORDS  Rappresentano un retaggio storico, attualmente l'uso è scoraggiato in quanto molti autori hanno inserito dei termini non contenuti nel vocabolario del data base; inoltre, l ’ inserimento delle parole chiave non è stato applicato in modo uniforme all ’ intero database.  SOURCE  Indica il nome comune o il nome scientifico dell ’ organismo, in molti casi sono presenti anche informazioni relative alla tassonomia  Se si effettua una ricerca per specie, puo essere molto utile il:  TAXONOMY BROWSER presente in NCBI TAXONOMY BROWSER presente in NCBI  Ogni records della GenBank riporta una referenza bibliografica, e un link alla pubblicazione di MEDLINE.  Nella parte finale sono riportati i commenti e le note, nel passato si trovavano anche precise indicazioni sugli autori come ad esempio gli indirizzi di posta elettronica o specifiche URL, attualmente questa tendenza viene scoraggiata, in quanto gli indirizzi elettronici tendono a cambiare con una rapidità maggiore rispetto agli indirizzi postali.

7 Formato GBFF: DEFINITION  A livello scientifico MEDLINE rappresenta la banca dati bibliografica più importante, ogni articolo viene registrato con un codice di identificazione (MUID), attraverso questo numero è facile risalire all'articolo e alla rivista.  Recentemente la NCBI, con MEDLINE e altri editori ha introdotto un nuovo identificatore chiamato PubMed (PMID) che contiene sia gli articoli pubblicati sia anche articoli non ancora pubblicat

8 Formato GBFF: FEATURE TABLE 3-FEATURE TABLE Rappresenta il nucleo informativo di maggior interesse del record. SOURCE E’ l’unica rappresentazione comune a tutti i records della GenBank, contiene una serie di qualificatori legali e alcuni qualificatori obbligatori (esempio il tipo di organismo). Il qualificatore dell’organismo può essere descritto come genere e specie, sovente l’organismo viene descritto a livello di subspecie. CDS Le CDS costituiscono una serie di istruzioni per leggere e interpretare la sequenza.

9 NCBI

10 DEPOSITIAMO UNA SEQUENZA BANKIT GenBank Direct Submission http://www.ncbi.nlm.nih.gov/BankIt/index.html


Scaricare ppt "FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file."

Presentazioni simili


Annunci Google