Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.

Slides:

Advertisements

Presentazioni simili

Organizzazione del genoma umano I

Advertisements

Allineamento Pairwise e Multiplo di Bio-Sequenze.

GENE: segmento di DNA che trasporta l’informazione per un determinato

gruppi di amminoacidi in base alle catene laterali

RICERCA DI SIMILARITA’ IN BANCHE DATI

Allineamento di sequenze

Le proteine: come sono fatte, come funzionano, e come si sono evolute

Bioinformatica Prof. Mauro Fasano

BASI DI DATI BIOLOGICHE - 3

Biologia.blu B - Le basi molecolari della vita e dell’evoluzione

Corso di ingegneria genetica

Biologia computazionale

Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dell’RNA 27/04/2011.

Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.

Caratterizzazione di un gene clonato

Introduzione alla bioinformatica

Metodi basati sulle similitudini per dedurre la funzione di un gene

Clonaggio funzionale Clonaggio posizionale

1) Algoritmi di allineamento 2) Algoritmi di ricerca in database

Array di oligonucleotidi

Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Il sequenziamento genico

ALLINEAMENTI GLOBALI E LOCALI

Funzioni, struttura e caratteristiche

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)

Allineamenti multipli

Software per la Bioinformatica

Come si può studiare la struttura di una proteina

Informatica e Bioinformatica – A. A

Università degli Studi di Genova Laurea Specialistica in Biotecnologie Medico-Farmaceutiche Corso di: Biotecnologie Diagnostiche A.A. 2004/2005 Utilizzo.

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia

In questa lezione ci occuperemo

Ricerca di similarità di sequenza (FASTA e BLAST)

Tipi di allineamenti.

Il progetto genoma umano

Alcuni esempi di domande di esame

Sequenze e Banche Dati Biologiche

Esempio di utilizzo del programma BLAST disponibile all’NCBI

Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.

Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.

A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.

Purtroppo non esiste un modo univoco per indicare un gene

GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

III LEZIONE Allineamento di sequenze

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

WORKING WITH BIOSEQUENCES Alignments and similarity search.

La parola “Bioinformatica”

Allineamento di sequenze

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

ALLINEAMENTO DI SEQUENZE

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.

Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.

Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.

I cambiamenti della sequenza del DNA: Evoluzione

---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.

Clonaggio per espressione e clonaggio funzionale

Annotazione strutturale dei genomi

FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.

CLONAGGIO POSIZIONALE

DIAGNOSI MOLECOLARE DI UNA MALATTIA GENETICA E SVILUPPO DI UNA TERAPIA GIUSEPPINA ANDREOTTI M.VITTORIA CUBELLIS.

La Fabbrica delle Proteine

Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:

Clonaggio funzionale Clonaggio posizionale Conoscenza proteina Malattia genetica Determinazione sequenza amminoac.Mappatura genetica con marcatori polimorfici.

Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.

Genetica ricombinante nei batteri

Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.

Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.

Transcript della presentazione:

Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto fondamentale: integrazione

Esempio di interrogazione PubMed Esercitazione 1: trovare articoli recenti e non troppo specialistici sulla proteina p53. Dopo averne scelto uno, identificare i documenti correlati esistenti nel database Esercitazione 2: trovare articoli recenti e ad elevato impatto pubblicati sulla proteina p53 da laboratori italiani Esercitazione 3: trovare gli articoli più importanti pubblicati su Nature, Cell o Science negli ultimi tre anni.

Come orientarsi nei database di sequenze? Miliardi di basi sequenziate Elevata ridondanza nei diversi database Sequenze di qualità molto variabile, sia per ciò che riguarda l’informazione primaria che per l’annotazione

Sequenziamento delle sole regioni esoniche (Expressed Sequence Tags) cDNA-library plasmidica direzionale Picking singoli cloni Preparazione DNA Primer 5’ 3’ Sequenziamento automatico Deposito in banca dati ( bp)

AAAAAAAA mRNA (10 copie di cDNA nella library) ESTTratto non sequenziato del clone Inserti

Come orientarsi nei database di sequenze? Esercitazione 4: trovare con un’unica ricerca sequenze di cDNA ben annotate corrispondenti a geni implicati nel cancro del colon. Esercitazione 5: scegliere una sequenza e identificare le sequenze simili presenti nella banca dati. Esercitzione 6: analisi in silico dell’espressione genica

Principali database di sequenze GeneBank (Nucleotide, Protein) Unigene RefSeq Locus link (problema dei nomi molteplici) Entrez Gene Genome Structure

Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che gli atomi costituenti assumono nello spazio. Questa a sua volta dipende dalla sequenza delle unità elementari (in genere si tratta di aminoacidi, ma lo stesso discorso vale anche per i nucleotidi). Molecole che hanno sequenza primaria simile tendono ad avere strutture secondarie e terziarie simili. Se due proteine sono identiche al 50%, è altamente probabile che la loro struttura tridimensionale sia quasi completamente sovrapponibile.

Sequenze identiche al 62% Chymotrypsin MLGITVLAALLACASSCGVPSFPPNLSARVVGGEDARPHSWPWQISLQYLKNDTWRHTCG :..:..:.: : ::: :..::.. ::::::.:::.:::::.::::.: : :::: Elastase MIRTLLLSTLVAGALSCGDPTYPPYVT-RVVGGEEARPNSWPWQVSLQYSSNGKWYHTCG Chymotrypsin GTLIASNFVLTAAHCISNTRTYRVAVGKNNLEVEDEEGSLFVGVDTIHVHKRWNALLLR- :.:::...:::::::::..:::::..:..:: : : ::: :.:. : ::: ::.. Elastase GSLIANSWVLTAAHCISSSRTYRVGLGRHNLYVA-ESGSLAVSVSKIVVHKDWNSNQISK Chymotrypsin -NDIALIKLAEHVELSDTIQVACLPEKDSLLPKDYPCYVTGWGRLWTNGPIADKLQQGLQ :::::.:::. : :.: ::.::::..::..::::::::::: :::. : :::: Elastase GNDIALLKLANPVSLTDKIQLACLPPAGTILPNNYPCYVTGWGRLQTNGAVPDVLQQGRL Chymotrypsin PVVDHATCSRIDWWGFRVKKTMVCAGGDGVISACNGDSGGPLNCQLENGSWEVFGIVSFG :::.:::: ::: ::.:.:::::::::.::::::::::::.: :.: :::::: Elastase LVVDYATCSSSAWWGSSVKTSMICAGGDGVISSCNGDSGGPLNCQASDGRWQVHGIVSFG Chymotrypsin SRRGCNTRKKPVVYTRVSAYIDWINEKM-QL :: :::.:: :.:::: ::::::.. Elastase SRLGCNYYHKPSVFTRVSNYIDWINSVIANN

Sequenze identiche al 62%

Allineamento globale e allineamento locale Alcuni programmi, date due sequenze, generano in ogni caso l’allineamento migliore possibile tra di esse, su tutta la lunghezza. Questo tipo di allineamento prende il nome di allineamento globale. Non necessariamente un allineamento globale ha significato biologico. Altri programmi, date due sequenze, non le allineano necessariamente su tutta la lunghezza, ma vanno a cercare soltanto i tratti in cui l’omologia tra le due sequenze (ossia lo score) supera una certa soglia. In questi si parla di allineamento locale.

Come funziona BLAST? La sequenza di cui si vogliono trovare gli omologhi viene scomposta in tutte le possibili parole di una lunghezza prefissata (ad esempio due o tre se si tratta di aminoacidi) MLFFRRQPKHCSDTEF MLFLFFFFRFRRRRQRQPQPK PKHKHCHCSCSDSDTDTETEF Le parole di tre lettere vengono quindi cercate in tutte le sequenze della banca dati (operazione estremamente rapida)

Query: MLFFRRQPKHCSDTEF MLFLFFFFRFRRRRQRQPQPK PKHKHCHCSCSDSDTDTETEF Subject: ASDDERTGLFDRKQPKACMDSEFKATT QPK ::: In seguito l’allineamento viene esteso HCSDTEF : :.: MLFFRR :: :. Subject: ASDDERTGLFDRKQPKACMDSEFKATT QPK ::: Query:

Gapped BLAST

Versioni disponibili del programma Blast BlastN = ricerca in un database di sequenze nucleotidiche le sequenze omologhe ad una sequenza nucleotidica data. BlastP = ricerca in un database di sequenze aminoacidiche le sequenze omologhe ad una sequenza aminoacidica data. BlastX = data una sequenza nucleotidica, la traduce in tutte e sei le possibili cornici di lettura (traduzione dinamica), e cerca le seqeunze omologhe alle traduzioni in un database di sequenze aminoacidiche tBlastN = data una sequenza aminoacidica, la confronta con tutte le possibili traduzioni di un database di sequenze nucleotidiche. tBlastX = data una sequenza nucleotidica, confronta la sua traduzione dinamica con tutte le possibili traduzioni di un database di sequenze nucleotidiche.

ATA SSGGYRKGVTEAKLKVAINGFGRIGRNFLRCWHGRKDSPLDIIAIND-TGGV 99 ATB AQIIPKAVTTSTPVRGETVAKLKVAINGFGRIGRNFLRCWHGRKDSPLEVVVLND-SGGV 119 HS MG--KVKVGVNGFGRIGRLVTRAAF--NSGKVDIVAINDPFIDL 40 MM MVKVGVNGFGRIGRLVTRAAI--CSGKVEIVAINDPFIDL 38 XL MVKVGINGFGCIGRLVTRAAF--DSGKVQVVAINDPFIDL 38 DM MSKIGINGFGRIGRLVLRAAI--DKG-ANVVAVNDPFIDV 37 CE MS--KANVGINGFGRIGRLVLRAAV--EKDTVQVVAVNDPFITI 40 SP MA--IPKVGINGFGRIGRIVLRNAI--LTGKIQVVAVNDPFIDL 40 ATC MADKKIRIGINGFGRIGRLVARVVL--QRDDVELVAVNDPFITT 42 OS MG--KIKIGINGFGRIGRLVARVAL--QSEDVELVAVNDPFITT 40 SC MVRVAINGFGRIGRLVMRIAL--SRPNVEVVALNDPFITN 38 ECA MTIKVGINGFGRIGRIVFRAAQ--KRSDIEIVAIND-LLDA 38 HI MAIKIGINGFGRIGRIVFRAAQ--HRDDIEVVGIND-LIDV 38 ECC MSKVGINGFGRIGRLVLRRLL-EVKSNIDVVAIND-LTSP 38.:.:**** ***. * ::: :**. ATA KQASHLLKYDSTLGIFDADVKPSGETAISVD-----GKIIQVVSNRNPSLLPWKELGIDI 154 ATB KNASHLLKYDSMLGTFKAEVKIVDNETISVD-----GKLIKVVSNRDPLKLPWAELGIDI 174 HS NYMVYMFQYDSTHGKFHG-TVKAENGKLVIN-----GNPITIFQERDPSKIKWGDAGAEY 94 MM NYMVYMFQYDSTHGKFNG-TVKAENGKLVIN-----GKPITIFQERDPTNIKWGEAGAEY 92 XL DYMVYMFKYDSTHGRFKG-TVKAENGKLIIN-----DQVITVFQERDPSSIKWGDAGAVY 92 DM NYMVYLFKFDSTHGRFKG-TVAAEGGFLVVN-----GQKITVFSERDPANINWASAGAEY 91 CE DYMVYLFKYDSTHGQFKG-TVTYDGDFLIVQKDGKSSHKIKVFNSKDPAAIAWGSVKADF 99 SP DYMAYMFKYDSTHGRFEG-SVETKGGKLVID-----GHSIDVHNERDPANIKWSASGAEY 94 ATC EYMTYMFKYDSVHGQWKHNELKIKDEKTLLFG----EKPVTVFGIRNPEDIPWAEAGADY 98 OS DYMTYMFKYDTVHGQWKHSDIKIKDSKTLLLG----EKPVTVFGIRNPDEIPWAEAGAEY 96 SC DYAAYMFKYDSTHGRYAG-EVSHDDKHIIVD-----GKKIATYQERDPANLPWGSSNVDI 92 ECA DYMAYMLKYDSTHGRFDG-TVEVKDGHLIVN-----GKKIRVTAERDPANLKWDEVGVDV 92 HI EYMAYMLKYDSTHGRFDG-TVEVKDGNLVVN-----GKTIRVTAERDPANLNWGAIGVDI 92 ECC KILAYLLKHDSNYGPFPW-SVDFTEDSLIVD-----GKSIAVYAEKEAKNIPWKAKGAEI 92. ::::.*: * : : : : ::. : * Allineamento multiplo generato dal programma CLUSTALW

Caratteristiche di famiglie di proteine derivabili da allineamenti multipli: Profilo= rappresentazione numerica dell’allineamento che valuta: a)Quali residui sono presenti in ogni posizione e con quale frequenza. b)Presenza di residui assolutamente conservati. c)Presenza di eventuali gap. Dagli allineamenti multipli si possono costruire delle position-specific scoring tables (PSST), che riflettono la probabilità di trovare un certo aminoacido in ogni posizione.

Caratteristiche di famiglie di proteine derivabili da allineamenti multipli: Pattern= rappresentazione dell’allineamento che valuta unicamente la presenza di determinati residui per ogni posizione. [IV]-G-x-G-T-[LIVMF]-x(2)-[GS] Motivo= sequenza conservata di aminoacidi che conferisce una specifica funzione o struttura. Blocco= regione conservata di un allineamento multiplo priva di gaps.

Analisi di domini conservati PFAM: database di allineamenti multipli e HMMs ProfileScan: HMMER: costruzione di HMMs e ricerca di database BLOCKS: CDD search:

Mutazioni e polimorfismi: OMIM e SNPs

Browsers genomici e genomica integrativa