La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Annotare i geni 5’ 3’ Gene xxxx 3 esoni proteina y Gene zzzz 7 esoni proteina w.

Presentazioni simili


Presentazione sul tema: "Annotare i geni 5’ 3’ Gene xxxx 3 esoni proteina y Gene zzzz 7 esoni proteina w."— Transcript della presentazione:

1 Annotare i geni 5’ 3’ Gene xxxx 3 esoni proteina y Gene zzzz 7 esoni proteina w

2 Il primo passo... Abbiamo la sequenza completa del DNA di un organismo: Abbiamo la sequenza completa del DNA di un organismo: Quanti geni contiene in tutto? Quanti geni contiene in tutto? Dove sono localizzati i geni? Dove sono localizzati i geni? A cosa serve ciascun gene (ovvero, qual è la funzione della proteina codificata, ammesso che effettivamente codifichi per una proteina)? A cosa serve ciascun gene (ovvero, qual è la funzione della proteina codificata, ammesso che effettivamente codifichi per una proteina)? Quali sono gli splicing alternativi più comuni di ciascun gene? Quali sono gli splicing alternativi più comuni di ciascun gene?

3 “Annotare” i geni Dato un genoma, servono altri due elementi: Dato un genoma, servono altri due elementi: mRNA e proteina mRNA e proteina Tre indizi fanno una prova: Tre indizi fanno una prova: Conosciamo la proteina (la abbiamo “vista” e sequenziata)? Conosciamo la proteina (la abbiamo “vista” e sequenziata)? Conosciamo il trascritto che codifica per la proteina (lo abbiamo sequenziato)? Conosciamo il trascritto che codifica per la proteina (lo abbiamo sequenziato)? Conosciamo il gene che produce il trascritto (abbiamo sequenziato la regione corrispondente del genoma)? Conosciamo il gene che produce il trascritto (abbiamo sequenziato la regione corrispondente del genoma)?

4 Leggere le sequenze Ovviamente, è possibile determinare anche la sequenza di un trascritto (mRNA), e, con diverse tecniche, anche quella di una proteina Ovviamente, è possibile determinare anche la sequenza di un trascritto (mRNA), e, con diverse tecniche, anche quella di una proteina Quindi, se conosco la sequenza di un mRNA, posso localizzare lungo la sequenza genomica la regione che lo produce (e - a tratti - uguale al trascritto!) Quindi, se conosco la sequenza di un mRNA, posso localizzare lungo la sequenza genomica la regione che lo produce (e - a tratti - uguale al trascritto!) Se conosco anche la sequenza della proteina codificata, allora ho completato la annotazione del gene Se conosco anche la sequenza della proteina codificata, allora ho completato la annotazione del gene

5 Leggere le sequenze Attenzione, però: mentre il DNA è “statico”, e quindi la sua sequenza è presente nella stessa forma in tutte le cellule, lo stesso non vale per gli RNA: Attenzione, però: mentre il DNA è “statico”, e quindi la sua sequenza è presente nella stessa forma in tutte le cellule, lo stesso non vale per gli RNA: NON tutti i geni sono trascritti in tutte le cellule NON tutti i geni sono trascritti in tutte le cellule A seconda di A seconda di Stadio di sviluppo Stadio di sviluppo Tipo di tessuto/cellula Tipo di tessuto/cellula Stimoli esterni Stimoli esterni Possono variare i geni trascritti e i relativi splicing alternativi Morale: mentre abbiamo sequenze di genomi completi, non siamo ancora sicuri di avere trascrittomi (e proteomi) completi anche per gli organismi più studiati! Morale: mentre abbiamo sequenze di genomi completi, non siamo ancora sicuri di avere trascrittomi (e proteomi) completi anche per gli organismi più studiati!

6 Annotare i geni mRNA DNA(doppiofilamento)

7 Quindi, se abbiamo la sequenza del DNA di un organismo possiamo: Quindi, se abbiamo la sequenza del DNA di un organismo possiamo: Prendere le sequenze di tutti i trascritti che conosciamo Prendere le sequenze di tutti i trascritti che conosciamo Cercare regioni su uno dei due filamenti che sono uguali al trascritto “a pezzi” Cercare regioni su uno dei due filamenti che sono uguali al trascritto “a pezzi” Queste regioni sono... i “geni”! Queste regioni sono... i “geni”!

8 Un gene, schematicamente 5’ 3’ Il trascritto (mRNA) è costituito dalla giunzione dei tratti corrispondenti ai rettangoli (esoni), per i quali si trova una corrispondenza ESATTA su uno dei due filamenti del DNA Sul DNA, gli esoni sono inframmezzati da parti di sequenza che non sono contenuti nell’mRNA, gli introni Le frecce indicano di quale dei due filamenti il trascritto è una copia esatta Gli introni sono sul DNA ma non nel trascritto

9 Un gene, schematicamente 5’ 3’ Il trascritto (mRNA) è costituito dalla giunzione dei tratti corrispondenti ai rettangoli (esoni), per i quali si trova una corrispondenza ESATTA su uno dei due filamenti del DNA Sul DNA, gli esoni sono inframmezzati da parti di sequenza che non sono contenuti nell’mRNA, gli introni Le frecce indicano di quale dei due filamenti il trascritto è una copia esatta Gli introni sono sul DNA ma non nel trascritto

10 Un gene in un computer Tre esoni: il gene è localizzato sul filamento “antisenso” (quello sotto), detto anche “negativo” (il gene si annota sul filamento che contiene la copia esatta dell’mRNA)

11 I “Browser” genomici Come dice il nome stesso, sono strumenti che permettono ai ricercatori di “navigare” all’interno dei genomi di cui si conosce la sequenza, visualizzando tutte le annotazioni che sono disponibili Come dice il nome stesso, sono strumenti che permettono ai ricercatori di “navigare” all’interno dei genomi di cui si conosce la sequenza, visualizzando tutte le annotazioni che sono disponibili Sono accessibili via internet: Sono accessibili via internet: genome.ucsc.edu (University of California Santa Cruz - sito di riserva - secondo sito di riserva) genome.ucsc.edu (University of California Santa Cruz - sito di riserva - secondo sito di riserva) genome.ucsc.edusito di riserva secondo sito di riserva genome.ucsc.edusito di riserva secondo sito di riserva (sviluppato da EMBL- EBI e dal Sanger Center) (sviluppato da EMBL- EBI e dal Sanger Center)

12 Le Coordinate Genomiche In ogni sequenza nota, gli elementi che la compongono sono numerati da 1 fino all’ultimo In ogni sequenza nota, gli elementi che la compongono sono numerati da 1 fino all’ultimo Sia le sequenze nucleotidiche che quelle aminoacidiche sono orientate Sia le sequenze nucleotidiche che quelle aminoacidiche sono orientate I nucleotidi si leggono da 5’ a 3’ I nucleotidi si leggono da 5’ a 3’ Gli amminoacidi si leggono da N (terminale) a C (terminale) Gli amminoacidi si leggono da N (terminale) a C (terminale) Quindi, anche tutti i cromosomi di una specie sono numerati da 1 in poi Quindi, anche tutti i cromosomi di una specie sono numerati da 1 in poi Ciascun paio di basi in un genoma è definito da due coordinate: Ciascun paio di basi in un genoma è definito da due coordinate: Numero di cromosoma Numero di cromosoma Posizione all’interno del cromosoma Posizione all’interno del cromosoma I browser mostrano uno dei due filamenti del DNA, ed (implicitamente) anche l’altro I browser mostrano uno dei due filamenti del DNA, ed (implicitamente) anche l’altro

13 Cliccando uno dei due link si accede al browser

14 Scelgo il gruppo Scelgo la specie “versione” tratto da visualizzareVIA!

15 “pulsanti” per muoversi lungo il cromosoma “pulsanti” per avvicinare (zoom in) o allontanare (zoom out) la visuale

16 Un solo gene, con tanti piccoli esoni ed intoni molto più ampi In più di paia di basi “RefSeq” - trascritti “rappresentativi del gene (all’epoca di un gene-un trascritto) UCSC Known Gene - idem, ma annotati dai curatori del sito

17 Ricerca per coordinate Tornate alla pagina iniziale, e mantendendo le stesse selezioni di prima, provate ad inserire queste coordinate: Tornate alla pagina iniziale, e mantendendo le stesse selezioni di prima, provate ad inserire queste coordinate:chr7:155,288, ,297,728 (potete copiare ed incollare)

18 Si viene portati alla regione genomica corrispondente. Tutti i trascritti “mappati” sul genoma sono cliccabili: cliccandoci sopra è possibile cambiare la modalità di visualizzazione e/o accedere a tutte le informazioni disponibili sul gene in questione Se provate a cliccare sulla “riga” nera sotto “Human mRNA from GenBank”....

19 .... si scopre che ci sono tanti trascritti che provengono da questa regione, non solo uno... e in particolare i diversi trascritti “condividono” alcuni esoni, altri no  splicing “alternativi”

20 ... riassumendo...

21 Ricerca per parole chiave Procedendo come si è visto, è possibile esplorare i diversi genomi disponibili Procedendo come si è visto, è possibile esplorare i diversi genomi disponibili Ma: è possibile utilizzare la casella “coordinate” per effettuare una ricerca per parole chiave Ma: è possibile utilizzare la casella “coordinate” per effettuare una ricerca per parole chiave Ad esempio, si può cercare un gene, dato il nome Ad esempio, si può cercare un gene, dato il nome

22 Lunga lista di risultati, tipo “google”... ma se guardiamo con attenzione c’è un gene che si “chiama” shh sia nella lista “known” che nella lista RefSeq. Cliccando sul link corrispondente...

23 ... si ritorna dove eravamo prima!

24 Annotare bioinformaticamente i geni Il genome browser permette anche di trovare la corrispondenza trascritto  regione genomica come si era visto in precedenza Il genome browser permette anche di trovare la corrispondenza trascritto  regione genomica come si era visto in precedenza Nella barra blu in cima alla pagina, cliccate su “Blat” Nella barra blu in cima alla pagina, cliccate su “Blat”

25 “BLAT” Selezionate il genoma che vi interessa Incollate la sequenza da cercare

26 “Blat” Provate a copiare e incollare la sequenza 1 che trovate alla pagina del corso Provate a copiare e incollare la sequenza 1 che trovate alla pagina del corso

27 Come si può vedere, la vostra sequenza “mappa” in diverse regioni del genoma, su diversi cromosomi; per ogni risultato l’interfaccia vi indica da dove a dove è stata trovata corrispondenza per il trascritto (START-END) Quello che ci interessa, per ora, è il “match” che copre tutto il trascritto, con identità del 100%, ovvero il primo risultato. Cliccando sul link “browser” corrispondente, si viene mandati...

28 Questa è la vostra sequenza mappata sul genoma

29 “Blat” E’ possibile inserire nella casella di ricerca anche la sequenza di una proteina (sequenza 2 della pagina) E’ possibile inserire nella casella di ricerca anche la sequenza di una proteina (sequenza 2 della pagina) L’interfaccia cercherà una regione genomica che - spezzettata in esoni ed introni - tradotta tripletta per tripletta codifica per la proteina che avete sottomesso L’interfaccia cercherà una regione genomica che - spezzettata in esoni ed introni - tradotta tripletta per tripletta codifica per la proteina che avete sottomesso

30 Come si può vedere, in questo caso la proteina è andata a “cadere” in una regione dove è già annotato un gene, con il trascritto corrispondente. Però, stavolta, la regione “coperta” dalla proteina è più corta di quella coperta dal trascritto... come mai? E... come mai sono state trovate altre due regioni in cui, almeno parzialmente, è stata trovata corrispondenza per la proteina? Cliccando sul link in corrispondenza del secondo risultato..

31 In questo caso, siamo andati a finire in una regione (e su un cromosoma!) completamente differente... eppure nella regione è annotato un gene, che tradotto a triplette codifica per qualcosa di simile alla nostra proteina di partenza, e le regioni corrispondenti cadono proprio sugli esoni del gene…

32 “BLAT” Terzo esperimento: sempre partendo dalla proteina, nell’interfaccia di “BLAT” selezioniamo il genoma del topo Terzo esperimento: sempre partendo dalla proteina, nell’interfaccia di “BLAT” selezioniamo il genoma del topo Cosa succederà, confrontando una proteina umana “contro” il genoma del topo? Cosa succederà, confrontando una proteina umana “contro” il genoma del topo?

33 Compaiono ben 6 (!) regioni di corrispondenza... notate in particolare che le prime tre coprono regioni abbastanza ampie della proteina, con un’alta percentuale di identità. Cliccando su “browser” in corrispondenza del primo risultato...

34 ... andiamo a cadere proprio in corrispondenza di un gene di topo... la proteina sembra anche coprire tutto il trascritto! Quindi, apparentemente, nel genoma del topo c’è un gene che codifica per una proteina che “assomiglia” a quella dell’uomo? Andiamo a riprendere il primo risultato dell’uomo

35 I due geni sono localizzati su due cromosomi diversi (topo - 5, uomo 7)... ma: Hanno tutti e due 3 esoni... e qualcuno ha dato lo stesso nome (Shh) sia al gene dell’uomo che a quello del topo... TOPO UOMO

36 “BLAT” Ora effettuiamo il procedimento inverso: a partire dalla proteina del gene SHH di topo, andiamo a mapparla sul genoma umano Ora effettuiamo il procedimento inverso: a partire dalla proteina del gene SHH di topo, andiamo a mapparla sul genoma umano Selezionate “Blat”, e “Human” come organismo Selezionate “Blat”, e “Human” come organismo

37 Ancora tre risultati.... e cliccando sul primo...

38 .... si ritorna al gene chiamato “shh” dell’uomo! Provando a ritornare indietro, selezionando stavolta il secondo risultato..

39 ... ritroviamo l’IHH, che era stato il secondo “match” di quando avevamo utilizzato la proteina dell’uomo contro il genoma dell’uomo morale.....

40 SHH UOMO SHH TOPO SHH UOMO IHH UOMO DHH UOMO SHH TOPO IHH TOPO DHH TOPO Partendo da….. Trovo…..

41 ... e gli altri animali? Proviamo, sempre con BLAT, a selezionare una specie evolutivamente più lontana, utilizzando la proteina dell’uomo.. Proviamo, sempre con BLAT, a selezionare una specie evolutivamente più lontana, utilizzando la proteina dell’uomo proviamo con la Drosophila!.... proviamo con la Drosophila!

42 In questo caso, la regione che corrisponde alla nostra proteina è molto più piccola, ed è più piccolo anche il frammento di proteina che riusciamo a fare corrispondere... Eppure, c’è una corrispondenza con un gene della Drosophila, che cade esattamente su un esone (e, non a caso, il gene si chiama “hh”....)

43 L’evoluzione al lavoro Duplicazione Speciazione uomo/topo SHH DHH uomo IHH SHH DHH topo IHH HH Drosophila Ad ogni duplicazione compare un nuovo “HH” HH Oggi milioni di anni fa

44 I geni omologhi A questo punto, si può ipotizzare che i vari geni “simili” tra loro che troviamo nelle diverse specie, lo siano perché “parenti”, ovvero discendenti dallo stesso/i gene/i in specie antenate (speciazione) o nella stessa specie (duplicazione) A questo punto, si può ipotizzare che i vari geni “simili” tra loro che troviamo nelle diverse specie, lo siano perché “parenti”, ovvero discendenti dallo stesso/i gene/i in specie antenate (speciazione) o nella stessa specie (duplicazione) Due sequenze (sia DNA, sia RNA, sia proteine) per cui possiamo fare questa ipotesi – basandoci sulla loro similarità – sono dette sequenze omologhe Due sequenze (sia DNA, sia RNA, sia proteine) per cui possiamo fare questa ipotesi – basandoci sulla loro similarità – sono dette sequenze omologhe Quindi l’SHH dell’uomo è omologo dell’SHH di topo e dell’HH della Drosophila Quindi l’SHH dell’uomo è omologo dell’SHH di topo e dell’HH della Drosophila Ma anche l’IHH dell’uomo è omologo di SHH dell’uomo, in quanto duplicati dello stesso gene di partenza Ma anche l’IHH dell’uomo è omologo di SHH dell’uomo, in quanto duplicati dello stesso gene di partenza

45 Omologhi: ortologhi e paraloghi Per complicare un po’ la nomenclatura: due sequenze omologhe sono dette Per complicare un po’ la nomenclatura: due sequenze omologhe sono dette Ortologhe, se sono in specie diverse Ortologhe, se sono in specie diverse Paraloghe, se sono nella stessa specie Paraloghe, se sono nella stessa specie Esempio: SHH topo è ortologo a SHH dell’uomo; DHH uomo è ortologo a DHH del topo e paralogo a IHH e SHH dell’uomo Esempio: SHH topo è ortologo a SHH dell’uomo; DHH uomo è ortologo a DHH del topo e paralogo a IHH e SHH dell’uomo Sulla base della similarità riusciamo anche a ipotizzare se si sia verificata prima una duplicazione o una speciazione Sulla base della similarità riusciamo anche a ipotizzare se si sia verificata prima una duplicazione o una speciazione

46 Omologhi e paraloghi SHH uomo è più simile a SHH topo che a IHH e DHH uomo SHH uomo è più simile a SHH topo che a IHH e DHH uomo Quindi, gli eventi di duplicazione sono più lontani nel tempo rispetto all’evento di speciazione uomo/topo Quindi, gli eventi di duplicazione sono più lontani nel tempo rispetto all’evento di speciazione uomo/topo Ma: considerando ad esempio i geni dell’uomo, quanto è comune trovare ortologhi in altre specie? L’uomo ha dei geni “propri”? Ma: considerando ad esempio i geni dell’uomo, quanto è comune trovare ortologhi in altre specie? L’uomo ha dei geni “propri”?

47 I geni dell’uomo e di altre specie Per la quasi totalità dei geni dell’uomo si trova un ortologo negli altri mammiferi (inclusi quelli tessuto-specifici, che “caratterizzano” particolari tipi di cellula) Per la quasi totalità dei geni dell’uomo si trova un ortologo negli altri mammiferi (inclusi quelli tessuto-specifici, che “caratterizzano” particolari tipi di cellula) Per la quasi totalità dei geni dell’uomo si trovano ortologhi in altri vertebrati (ci possono essere più o meno duplicati nelle diverse specie) Per la quasi totalità dei geni dell’uomo si trovano ortologhi in altri vertebrati (ci possono essere più o meno duplicati nelle diverse specie) Per buona parte dei geni dell’uomo si trovano ortologhi in altre specie animali (inclusi, ad esempio, gli invertebrati come gli insetti) Per buona parte dei geni dell’uomo si trovano ortologhi in altre specie animali (inclusi, ad esempio, gli invertebrati come gli insetti) Per i geni “di base” responsabili del “funzionamento” delle diverse cellule si riescono a trovare ortologhi negli eucarioti più semplici (unicellulari come il lievito), o addirittura nei procarioti come i batteri Per i geni “di base” responsabili del “funzionamento” delle diverse cellule si riescono a trovare ortologhi negli eucarioti più semplici (unicellulari come il lievito), o addirittura nei procarioti come i batteri

48 Usare i geni ortologhi Oltre che per studi evolutivi, l’ortologia di geni in specie diverse può servire anche allo studio di uno o più geni Oltre che per studi evolutivi, l’ortologia di geni in specie diverse può servire anche allo studio di uno o più geni Se non conosco la funzione di un gene umano, posso cercarne l’ortologo in topo e studiarlo lì (più “pratico” sperimentalmente) Se non conosco la funzione di un gene umano, posso cercarne l’ortologo in topo e studiarlo lì (più “pratico” sperimentalmente) Annotazione: se ho un gene “mancante” in una specie, posso cercare di localizzarlo basandomi su geni di altre specie Annotazione: se ho un gene “mancante” in una specie, posso cercare di localizzarlo basandomi su geni di altre specie Ovvero, posso cercare di annotare un gene in mancanza di “indizi” (trascritto e/o proteina) basandomi sulle sequenze di altre specie  se c’è una data proteina in topo mi posso aspettare che – da qualche parte – nel genoma dell’uomo ci sia un gene che codifica per qualcosa di simile Ovvero, posso cercare di annotare un gene in mancanza di “indizi” (trascritto e/o proteina) basandomi sulle sequenze di altre specie  se c’è una data proteina in topo mi posso aspettare che – da qualche parte – nel genoma dell’uomo ci sia un gene che codifica per qualcosa di simile

49 Annotare i geni con pochi indizi Manca la proteina: Manca la proteina: Posso utilizzare appositi programmi che predicono le possibili traduzioni di un trascritto in proteina Posso utilizzare appositi programmi che predicono le possibili traduzioni di un trascritto in proteina Verifico se in specie vicine a quella che sto studiando sono annotate (possibilmente, sperimentalmente) proteine simili a quella che ho predetto Verifico se in specie vicine a quella che sto studiando sono annotate (possibilmente, sperimentalmente) proteine simili a quella che ho predetto

50 Annotare i geni con pochi indizi Manca il trascritto Manca il trascritto Così come abbiamo fatto con la proteina di SHH, è possibile cercare nel genoma regioni che tradotte (e concatenate) producono la proteina stessa Così come abbiamo fatto con la proteina di SHH, è possibile cercare nel genoma regioni che tradotte (e concatenate) producono la proteina stessa E se mancano sia il trascritto che la proteina? E se mancano sia il trascritto che la proteina?

51 Annotare i geni con pochi indizi Basandoci sul principio “specie simili hanno più o meno gli stessi geni” possiamo - data una proteina di una specie - cercare una regione del genoma che codifica per qualcosa di simile (così come quando avevamo confrontato una proteina di uomo con il genoma del topo, e viceversa) Basandoci sul principio “specie simili hanno più o meno gli stessi geni” possiamo - data una proteina di una specie - cercare una regione del genoma che codifica per qualcosa di simile (così come quando avevamo confrontato una proteina di uomo con il genoma del topo, e viceversa) Procedura “tipica” per genomi come quello del cane, del gatto, dell’opossum (di cui ho la sequenza genomica, ma pochi trascritti) Procedura “tipica” per genomi come quello del cane, del gatto, dell’opossum (di cui ho la sequenza genomica, ma pochi trascritti) Ma: potrebbero esistere geni “fantasma” mai visti in nessuna specie (e quindi non riscontrabili con l’approccio comparativo?) Ma: potrebbero esistere geni “fantasma” mai visti in nessuna specie (e quindi non riscontrabili con l’approccio comparativo?)


Scaricare ppt "Annotare i geni 5’ 3’ Gene xxxx 3 esoni proteina y Gene zzzz 7 esoni proteina w."

Presentazioni simili


Annunci Google