PATTERN, MOTIVI E PROFILI IN ACIDI NUCLEICI

Slides:



Advertisements
Presentazioni simili
Geni costitutivi e non costitutivi
Advertisements

Regolazione dell’espressione genica
RICERCA DI SIMILARITA’ IN BANCHE DATI
Bioinformatica Corso di Laurea specialistica in Informatica RNA: trascrizione e maturazione 21/03/2011.
Lez 7 Processamento dell’RNA negli eucaroti: RNA splicing
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
SINTESI PROTEICA.
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Corso di ingegneria genetica
TRASCRIZIONE del DNA.
TRASCRIZIONE del DNA.
STUDIO ESPRESSIONE GENICA.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
La trascrizione e i tipi di molecole di RNA
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Metodi basati sulle similitudini per dedurre la funzione di un gene
STUDIO FUNZIONALE DI UNA PROTEINA ATTRAVERSO
Bioinformatica Andrea G. B. Tettamanzi.
DAL DNA ALLE PROTEINE la trascrizione genica
Espressione genica.
Compattamento del DNA nei cromosomi
APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Ivana Calarco DIFFERENZIAMENTO 29/03/2017.
Struttura delle proteine
Prof. Paolo Abis Speranzina Ferraro - 14 dicembre 2006.
Clonaggio: vettori plasmidici
Cap. 17 Regolazione dell’espressione genica negli Eucarioti. Pp
UNITA’ DIDATTICA: L’RNA
L’importanza del controllo dell’espressione dei geni
Upstream elements promoter elements transcription START site introns exons TRANSCRIPTION CAPPING SPLICING POLYADENYLATION m7Gm7G m7Gm7G AAAAAAAAAn m7Gm7G.
CORSO DI BIOLOGIA - Programma
CORSO DI BIOLOGIA - Programma
Alcuni esempi di domande di esame
CORSO DI BIOLOGIA - Programma
Molti composti possono essere ottenuti da culture batteriche
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Dip. Scienze Biomolecolari e Biotecnologie
Controllo trascrizionale
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
TERMINAZIONE IN PROCARIOTI ED EUCARIOTI
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
STRUTTURA  FUNZIONE  EVOLUZIONE STRUTTURA  (FUNZIONE)  EVOLUZIONE Organi, tessuti ecc. Geni o segmenti genomici.
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
PATTERN, MOTIVI E PROFILI IN ACIDI NUCLEICI
Allineamento di sequenze
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
Transcription termination RNA polymerase I terminates transcription at an 18 base terminator sequence. RNA polymerase III terminates transcription in poly(U)
La sintesi proteica La sintesi proteica è il processo che porta alla formazione delle proteine utilizzando le informazioni contenute nel DNA. Si tratta.
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Annotazione strutturale dei genomi
La Fabbrica delle Proteine
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
1.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Sintesi proteica Prof. Domenico Ripolo.
Jacob, Monod – Parigi,1961 il modello dell’Operon-lac
Gene reporter.
Transcript della presentazione:

PATTERN, MOTIVI E PROFILI IN ACIDI NUCLEICI REGOLAZIONE DELL’ESPRESSIONE GENICA PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI

PATTERN, MOTIVI E PROFILI IN ACIDI NUCLEICI REGOLAZIONE DELL’ESPRESSIONE GENICA PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI

REGOLAZIONE DELL’ESPRESSIONE GENICA ESPRESSIONE DEL GENOMA UMANO NELLE CELLULE DIFFERENZIATE Tutte le cellule di un organismo hanno lo stesso corredo genomico (~40000 geni) L’espressione genica tessuto specifica determina il fenotipo morfo-funzionale dei tipi cellulari e tissutali In ogni cellula differenziata ed in ogni particolare momento dello sviluppo e’ attivo solo un sottoinsieme di geni

REGOLAZIONE DELL’ESPRESSIONE GENICA Restrizione spaziale e temporale dell’espressione genica Geni housekeeping Geni con espressione ristretta nello spazio Espressione in piu’ organi/tessuti diversi Stesso ruolo in piu’ tessuti Il gene codifica per diverse isoforme (promotori alternativi e/o splicing alternativo tessuto specifico) Espressione specifica per tessuto, linea o tipo cellulare Espressione solo in singole cellule Distribuzione intracellulare o extracellulare Geni con espressione ristretta nel tempo Stadio di sviluppo Stadio di differenziamento Momento del ciclo cellulare Espressione inducibile da parte di fattori ambientali o extracellulari

REGOLAZIONE DELL’ESPRESSIONE GENICA DNA Pre RNA mRNA PRIMARY TRANSLATION ACTIVE PROTEIN

REGOLAZIONE DELL’ESPRESSIONE GENICA Negli Eucarioti superiori si svolge pricipalmente come controllo della trascrizione Puo’ agire su ciascuno dei livelli che caratterizzano il passare dell’informazione genica dal DNA alle proteine INIZIO DELLA TRASCRIZIONE La RNA polimerasi riconosce l’inizio del gene. Viene diretta sul TSS (Transcription Start Site) sulla base della sua affinita’ per la specifica sequenza upstream al gene, ovvero il promotore. La doppia elica viene aperta dove inizia la sintesi del messaggero. 2 steps I TF legano la sequenza promotrice (e gli enhancers) formando un complesso multiproteico Il complesso recluta la pol II complessata ad alcuni GTF e questa si lega al promotore core

REGOLAZIONE DELL’ESPRESSIONE GENICA POL II PROMOTER ELEMENTS TSS (vicino alla regione Initiator) + sito di legame per un GTF (spesso TBP) CORE PROMOTER ELEMENTS TATA box Initiator Downstream promoter element TRANSCRIPTION FACTORS (TF) BINDING SITES CAAT box GC box Sp-1 sites GAGA boxes ENHANCER(S) SITES

REGOLAZIONE DELL’ESPRESSIONE GENICA Assemblaggio del complesso attivatore della trascrizione sul promotore prossimale e sulla regione core

Struttura schematica di un promotore per la Pol II PROMOTORE CORE  regione sufficiente a deteminare il TSS esatto PROM. PROSSIMALE  200-300 bp upstream al TSS, responsabile, almeno in parte, della modulazione dell’espressione PROMOTORE DISTALE  100 bp – 2 Mb

4 possibili assetti di promotori core funzionali GENERAL CORE PROMOTER MODULE A C B D

TAFs are required for initiation from TATA-less promoters. Sequenze nucleotidiche al 5’ del sito d’inizio della trascrizione di geni di E.coli trascritti attraverso il fattore housekeeping sigma70 della RNA polimerasi caaaacggttgacaacatga agtaaacacggtacgatgtaccacat aaagagtattgacttaaagt ctaacctataggatacttacagccat tggcggtgttgacataaata ccactggcggtgatactgagcacatc cgtgcgtgttgactatttta cctctggcggtgataatggttgcatg tgccgaagttgagtattttt gctgtatttgtcataatgactcctgt tctttttgatgcaattcgct ttgcttctgactataatagacagggt cattaacgtttacaatttaa atatttgcttatacaatcatcctgtt cgtcaggattgacaccctcc caattgtatgttttcatgcctccaaa aattgttgttgttaacttgt ttattgcagcttataatggttacaaa atgagctgttgacaattaat catcgaactagttaactagtacgcaa tgttgacaattt t t t tg tataatg c t Due regioni in cui la sequenza e’ conservata: -10 - 35 dallo start site (motivi TTGACA e TATAAT) IL TFIID e’ un complesso della TATA box binding protein (TBP) e di altre proteine chiamate TATA binding protein associated factors, o TAFs. L’inizio della transcrizione puo’ essere studiato in vitro (DNA + proteine purificate). L’inizio della trascrizione da promotori TATA-containing non richiede necessariamente TAFs. TAFs stimulate initiation from TATA-containing promoters that also have Inr's. TAFs are required for initiation from TATA-less promoters.

CONSENSUS SEQUENCE APPROACH TO THE IDENTIFICATION OF GENETIC SIGNALS I motivi TTGACA and TATAAT sono i segnali che vengono riconosciuti dalla subunita’ sigma70 della polimerasi. La “forza” relativa di un promotore e’ proporzionale alla sua similarita’ ad una specifica sequenza consenso. Mutazioni nelle regioni -10 and –35 alterano la “forza” del promotore. Esperimenti tipo footprinting o methylation interference confermano la loro attivita’.

GENETIC SIGNALS dobefmolecdaiularsqueihgensvweticskiprovsvillmmdescheplemolasusyretpb Gli ELEMENTI SEGNALE generalmente agiscono solo sulle molecole di DNA di cui fanno parte ("cis-acting elements“) Questi elementi segnale vengono “accesi” o “spenti” attraverso l’interazione con fattori di trascrizione I fattori di trascrizione sono PROTEINE. In generale, sono proteine in grado di diffondere nelle cellule e in grado di interagire con elementi bersaglio che possono trovarsi in una qualsiasi molecola di DNA (“trans-acting factors”) molec ular gen etics pro vi des ple asu re

ESEMPIO DI FATTORE DI TRASCRIZIONE MEF-2 (myocyte enhancer factor-2) PROTEINA DI 507 AA MGRKKIQITRIMDERNRQVTFTKRKFGLMKKAYELSVLCDCEIALIIFNSSNKLFQYASTMDKVLLKYTEYNEPHESRTNSDIVEALNKKEHRGCDSPDPDTSYVLTPHTEEKYKKINEFDNMMRNHKIAPGLPPQNFSMSVTVPVTSPNALSYTNPGSSLVSPSLAASSTLTDSSMLPPQTTLHRNVSPGAPQRPPSTGNAGGMLSTTDLTVPNGAGSSPVGNGFVNSRASPNLIGTGANSLGKVMPTKSPPPPGGGNLGMNSRKPDLRVVIPPSSKGMMPPLSEEEELELNTQRSSSQATQPLATPVVSVTTPSLPPQGLVYSAMPTAYNTDYSLTSADLSALQGFNSPGMLSGQVSAWQQHHLGQAALSSLVAGGQLSQGSNLSINTNQNISIKSEPISPPRDRMTPSGFQQQQQQQQQQPPPPPQPQPQPPQPQPRQEMGRSPVDSLSSSSSSYDGSDREDPRGDFHSPVLGRPPNTEDRESPSVKRMRMDAWVT

DATI NOTI: SEQUENZE REGOLATIVE IN GRADO DI LEGARE MEF-2 UPSTREAM AD ALCUNI GENI REGOLATI DA MEF-2 muscle-type creatine kinase (-1091 –1062) ... ggaggagaagctcgctCTAAAAATAAccct ... alpha-myosin heavy chain (-340 -313) ... cagaTTAAAAATAActaa ... myogenin (-131 –15) ... gcagccggacaagttttgatgcgaggcagcagcttagggtgggct aggtttcctttaggttttctatatttatctctgtgatttaatgccagcgccgg ggtttaaatggcaccgag ... ... Evidenze: DNase I footprinting, direct gel shift, supershift (antibody binding) e methylation protection

MATRICE DI MEF-2 POS. A C G T 01 5 28 25 42 N 02 16 32 31 21 N 03 18 36 27 19 N 04 19 25 33 23 N 05 22 12 43 23 N 06 33 9 21 37 N 07 20 4 43 33 K (G o T, Keto) 08 3 85 3 9 C 09 3 8 0 89 T 10 85 0 0 15 A 11 57 0 0 41 W (A O T, Weak) 12 91 0 1 8 A 13 96 0 0 4 A 14 93 0 1 6 A 15 0 0 0 100 T 16 100 0 0 0 A 17 9 0 90 1 G 18 34 46 11 9 M (A o C, Amino) 19 36 28 8 28 N 20 20 37 15 28 N 21 30 34 13 23 N 22 23 23 22 32 N SEQUENZA CONSENSO LEGANTE MEF-2: NNNNNNKCTAWAAATAGMNNNN

ANALISI DELL’ALLINEAMENTO METODO SEQUENZE UPSTREAM ALLINEAMENTO LOCALE ANALISI DELL’ALLINEAMENTO PATTERN DISCOVERY MOTIVO

TRANSFAC http://transfac.gbf.de/TRANSFAC/index.html

TRANSFAC

MODELLO DI ORGANIZZAZIONE DI UN PROMOTORE. COMPLESSO MODELLO DI ORGANIZZAZIONE DI UN PROMOTORE COMPLESSO RANTES/CCL5 - chemokine – inflammation Promoter characterized

PATTERN, MOTIVI E PROFILI IN ACIDI NUCLEICI REGOLAZIONE DELL’ESPRESSIONE GENICA PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI

Sono disponibili le sequenze di molti genomi interi PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI Sono disponibili le sequenze di molti genomi interi Per diversi organismi procariotici ed eucariotici virtualmente tutti i geni sono noti o predetti Informazioni funzionali ancora parziali: regolazione espressione genica funzione proteine L’analisi di singoli promotori con i metodi tradizionali e’ molto lenta e dispendiosa, non “scaled up” alla quantita’ di dati disponibili Applicazione di metodi di “PATTERN DISCOVERY” allo studio di sequenze regolative

I “segnali genetici” non sono pattern esatti ma approssimati PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI Perche’ si possono applicare metodi di “PATTERN DISCOVERY” allo studio di sequenze regolative di geni ? E’ verosimile che: gruppi di geni espressi in modo simile (nel tempo, nello spazio) co-regolati ovvero che siano controllati da sottogruppi simili di fattori di trascrizione condividano almeno parte degli elementi regolativi cis-acting, cioe’ i segnali nelle sequenze promotoriali Pattern discovery  scoprire sottostringhe comuni tra piu’ stringhe (es. Sequenze di DNA) Problemi: I “segnali genetici” non sono pattern esatti ma approssimati Possono esserci o non esserci nelle sequenze analizzate

PATTERN MATCHING/RECOGNITION PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI PATTERN MATCHING/RECOGNITION vs PATTERN DISCOVERY PATTERN MATCHING  trovare TUTTE le volte in cui uno specifico PATTERN esatto si presenta (occurences) in una stringa o in un insieme di stringhe (sequenze di DNA o aminoacidi) Es.: trovare il PATTERN “HHKHKK” in AMVOIBGJFDHHKHKKUUUPFIRJRNTMDHHKHKKHJHKKSAAW PATTERN RECOGNITION  riconoscere le occurences approssimate di uno specifico PATTERN in una una stringa o in un insieme di stringhe Es.: trovare il PATTERN “HH*HKK” in AMVOIBGJFDHHKHKKUUUPFIRJRNTMDHHAHKKHJHKKSAAW

PATTERN MATCHING/RECOGNITION PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI PATTERN MATCHING/RECOGNITION vs PATTERN DISCOVERY PATTERN DISCOVERY  identificare PATTERN SIGNIFICATIVI in una stringa o in un insieme di stringhe senza conoscerli a priori Es.: trovare i PATTERN SIGNIFICATIVI in ATTCAGTCTTGTGCTTTTAGTCTCTTAGCTAGTCTCTAATTTAGACAGTCTA Uno puo’ essere: AGTCT, infatti:

Approaches to pattern recognition Quali siti potenzialmente leganti fattori di trascrizione si trovano sulla mia sequenza e dove sono localizzati ? Query: 250 bp upstream al gene per un canale Na+/Ca++ espresso nel muscolo e nel tessuto nervoso

Approaches to pattern recognition Quali siti potenzialmente leganti fattori di trascrizione si trovano sulla mia sequenza e dove sono localizzati ? Tabella dei risultati Sp1

http://www.cbil.upenn.edu/cgi-bin/tess

Approaches to pattern discovery Pattern driven: Enumerazione di tutti (o alcuni) dei possibili patterns fino a una certa lunghezza, per ciascun pattern si calcola un punteggio basato sulla frequenza e si scelgono i punteggi piu’ alti Non fattibile per pattern anche di dimensione modesta Sequence driven:  Ricerca dei pattern basata sull’allineamento delle sequenze

Algoritmi pattern driven I metodi "pattern driven" cercano in una sequenza specifiche classi di pattern e valutano la loro frequenza di apparizione. Il numero di pattern possibili aumenta esponenzialmente con la lunghezza dell'input. Per pattern esatti, ad esempio, e' quadratico. L'utilizzo di una struttura di dati ad albero dei suffissi migliora l'efficienza del metodo e permette di trovare tutte le sequenze piu' (o meno) rappresentate dell'atteso in tempo lineare con la dimensione dell'input

Algoritmi pattern driven Il problema e’ trovare pattern significativi, tra tutti i possibili pattern. I pattern sono sottostringhe. Considero tutti i possibili pattern lunghi 10 nucleotidi nella seguente sottostringa: AGTCTTGTGCTTTTAGTCTTGTGCCTAGTCTCTAATTTAGACAGTCT AGTCTTGTGC GTCTTGTGCT TCTTGTGCTT CTTGTGCTTTT TTGTGCTTTTA TGTGCTTTTAG GTGCTTTTAGT TGCTTTTAGTC GCTTTTAGTCT CTTTTAGTCTT TTTTAGTCTTG TTTAGTCTTGT TTAGTCTTGTG TAGTCTTGTGC AGTCTTGTGCC GTCTTGTGCCT ... Sono rappresentati tutti 1 volta, mentre la sottostringa AGTCTTGTGCC e’ rappresentata 2 volte. Voglio sapere se trovare una sottostringa lunga 10 rappresentata 2 volte e’ SORPRENDENTE.

Algoritmi pattern driven Per calcolare quanto un fenomeno sia sorprendente ci si riferisce a quello che ci si aspetta, sotto un’ipotesi probabilistica. La frequenza attesa di una sottostringa dipende dalla composizione della stringa. se %G=%C=%A=%T=25% posso immaginare una sorgente casuale che crea delle stringhe in modo che la probabilita’ di osservare un certo nucleotide in una certa posizione e’ indipendente dalla sequenza precedentemente generata (Modello di Bernoulli) A ATGCTGT T sempre 25% G C Approccio enumerativo:  enumerare tutti i possibili pattern di una certa lunghezza contenuti in una stringa  calcolare la significativita’ statistica di ciascuno  prendere in considerazione i pattern piu’ significativi Pero’ esistono 410 (1,048,574) possibili pattern lunghi 10 in un alfabeto di 4 nucleotidi

Algoritmi pattern driven Poiche’ il problema e’ computazionalmente complesso, sono stati introdotti approcci euristici per limitare il “search space”: si cerca solo un sottogruppo di pattern and esempio imponendo restrizioni sulla posizione dei “mismatches” si usano particolari strutture-dati che facilitano la ricerca Un Suffix Tree e’ una struttura-dati che permette di risolvere “agevolmente”molti problemi con le stringhe tree substrings tree-->|---mississippi m .. mississippi | |---i-->|---ssi-->|---ssippi i .. ississippi | | | | | |---ppi issip,issipp,issippi | | | |---ppi ip, ipp, ippi |---s-->|---si-->|---ssippi s .. ssissippi | | | | | |---ppi ssip, ssipp, ssippi | |---i-->|---ssippi si .. sissippi | | | |---ppi sip, sipp, sippi |---p-->|---pi p, pp, ppi |---i p, pi

Algoritmi pattern driven Verbunculus ANALYSIS OF MULTIPLE SEQUENCES: trova le parole sopra- o sotto-rappresentate in un gruppo di sequenze Enumera tutti i possibili pattern che ricorrono in almeno q sequenze, con em mutazioni, se m e’ la lunghezza del pattern Weeder

Algoritmi sequence driven Si basano su: Raggruppamento di sequenze simili o “funzionalmente equivalenti” Per ogni gruppo, ricerca di pattern comuni tra le sequenze Raggruppamento di pattern simili e ripetizione dello step precedente fino a che rimane un solo gruppo I metodi "sequence driven" lavorano combinando i risultati della comparazione a coppie di sequenze, con il fine di evidenziare le regioni simili. Il problema di enumerare tutti i possibili pattern con occorrenze non esatte e' piuttosto impegnativo, percio' molti programmi cercano soluzioni "quasi ottimali" attraverso algoritmi euristici.

LAVORO “SPERIMENTALE” ANALISI BIOINFORMATICA E COMPUTAZIONALE DELLE SEQUENZE DI DNA A MONTE DI GENI DIFFERENZIALMENTE ESPRESSI NELLA RETINA SCOPO IDENTIFICARE SEQUENZE REGOLATIVE ANCORA SCONOSCIUTE E DI SVILUPPARE NUOVI MODELLI DI REGIONI REGOLATIVE TESSUTO-SPECIFICHE METODI PREDIZIONE DI PROMOTORI RICERCA E SCOPERTA DI NUOVI PATTERNS

LAVORO “SPERIMENTALE” ANALISI BIOINFORMATICA E COMPUTAZIONALE DELLE SEQUENZE DI DNA A MONTE DI GENI DIFFERENZIALMENTE ESPRESSI NELLA RETINA DATI: SEQUENZE DI DNA A MONTE DI GENI RETINA-SPECIFICI >NM_000539.2 rhodopsin (opsin 2, rod pigment)(RHO)chr3:147548167-147549166 exons in upper case CCTTCAGACTGGAGTCCCCTGAAGGGTTCTGCCCCTCCCCTGCTCTGGTAGCCCCCTCCATCCTCCCTCCCTCCACTCCATCTTTGGGGGCATTTGAGTCACCTTTCTACACCAGTGATCTGCCCAAGCCACTGCTCACTTTCCTCTGGATAAAGCCAGGTTCCCCGGCCTAGCGTTCAAGACCCATTACAACTGCCCCCAGCCCAGATCTTCCCCACCTAGCCACCTGGCAAACTGCTCCTTCTCTCAAAGGCCCAAACATGGCCTCCCAGACTGCAACCCCCAGGCAGTCAGGCCCTGTCTCCACAACCTCACAGCCACCCTGGACGGAATCTGCTTCTTCCCACATTTGAGTCCTCCTCAGCCCCTGAGCTCCTCTGGGCAGGGCTGTTTCTTTCCATCTTTGTATTCCCAGGGGCCTGCAAATAAATGTTTAATGAACGAACAAGAGAGTGAATTCCAATTCCATGCAACAAGGATTGGGCTCCTGGGCCCTAGGCTATGTGTCTGGCACCAGAAACGGAAGCTGCAGGTTGCAGCCCCTGCCCTCATGGAGCTCCTCCTGTCAGAGGAGTGTGGGGACTGGATGACTCCAGAGGTAACTTGTGGGGGAACGAACAGGTAAGGGGCTGTGTGACGAGATGAGAGACTGGGAGAATAAACCAGAAAGTCTCTAGCTGTCCAGAGGACATAGCACAGAGGCCCATGGTCCCTATTTCAAACCCAGGCCACCAGACTGAGCTGGGACCTTGGGACAGACAAGTCATGCAGAAGTTAGGGGACCTTCTCCTCCCTTTTCCTGGATCCTGAGTACCTCTCCTCCCTGACCTCAGGCTTCCTCCTAGTGTCACCTTGGCCCCTCTTAGAAGCCAATTAGGCCCTCAGTTTCTGCAGCGGGGATTAATATGATTATGAACACCCCCAATCTCCCAGATGCTGATTCAGCCAGGAGCTTAGGAGGGGGAGGTCACTTTATAAGGGTCTGGGGGGGTCAGAACCC >NM_000172.1 guanine nucleotide binding protein (G protein), alpha transducing activity polypeptide 1 (GNAT1)chr3:55664892-55665891 AAAAAAAAAAAAAAAAAAGGCCAGGCACGGTGGCTCATGCCTGTAATCCCAGCACTTTGGGAGGCCGAGGCGGGCAGATCACGAGGTCAGGAGACTGAGACCATCCTGGCTAACACGGTGAAACCCTGTCTTTACTAAAATACAAAAAAAGTAGCCCGACGTAGTGGCGGGCACCTGTTGTCCCAGCTACTCAGGAGGCTGAGGCAGGAGAATGGCGTGAACCTGGGAGGTGGAGCTTGCAGTGAGCTGAGATTGCGCCACTGCACTCCAGCCTGAGCAACAGAGCGAGACTCCATCTCAGAAAAAAAAAAAAAAAAGACACATACACCGAGGCACACAGAGCAGATATGCATGCCCACCACAGTCCGCTGGAAGCAGAGGACCTCCTTGGGGCAGCTCCAGCCTGTGATATGGGATGAATGCAATGCCCACTGTTTCCCTCTCTCTGGATTCCCTGCAGGTCATAAAATCCCAGTCCAGAGTCACCAGCCCTTCTTAACCACTTCCTACTGTGTGACCCTTTCAGCCTTTACTTCCTCATCAGTAAAATGAGGCTGATGATATGGGCATCCATACTCCAGGGCCAGTGTGAGCTTACAACAAGATAAGGAGTGGTGCTGAGCCTGGTGCCGGGCAGGCAGCAGGCATGTTTCTCCCAATTATGCCCTCTCACTGCCAGCCCCACCTCCATTGTCCTCACCCCCAGGGCTCAAGGTTCTGCCTTCCCCTTTCTCAGCCCTGACCCTACTGAACATGTCTCCCCACTCCCAGGCAGTGCCAGGGCCTCTCCTGGAGGGTTGCGGGGACAGAAGGACAGCCGGAGTGCAGAGTCAGCGGTTGAGGGATTGGGGCTATGCCAGCCCGATTAGAAGGGTTGGGGGGGCTGAGCTGGATTCACCTGTCCTTGTCTCTGATTGGCTCTTGGACACCCCTAGCCCCCAAATCCCACTAAGCAGCCCCACCAGGGATTGCACAGGTCCGTAGAGAGCCAGTTGATTGC >NM_021200.1 PH domain containing protein in retina 1 (PHRET1) chr11:78311616-78312615 CACAAAGAAATGTAAAAGTTACTTGTTGGCTTATTAGTCTCAATAAGTTTTAGTTGATTGAACAAACAAAGTCTCTCACAGCCAGGACTGCTGCGGCTGGAATTCCTGACATACTGTCATACCTCTCACTCGTCAATCTACACTCTCCTCCCATCTACACAGCTCTGGAAATTAAAAACAATCCAACCATGACTATCATGGCTTCAGAGGTCTATGAACTCCCAGGAATTATACGCAGATTTTTTCCTGAGGACAGTCTACACTTCCTTATTGGCTTCTCAAAGAGGGTCACTGACCAGCTTTTAGAGACATGGGCCAAGTCCGGCTACGTTTAGATTCGGTAGTAGTGTCTGTGGTTTTAGTTTGCCACGTCCTTTCCTCTTTTTTTCGTCATAGTGCCCGCTCTTTGGGAGGTAGGGGAGAGTCTTCCCCTGAAGTCTCCACTGCTGCTGGAGAACCTTCCTTTTTCATCTGGTTGCTAAATCCAGAGAATGAAATCTAGGAGATGATTGCACCGTCCCCGCCCCTCAACATGAAGGATGCCCCACTGCCCATCGGGGAGGGGAGCAGGGAGAGCTGGAGAGAGGCTGGGTCGGGGCAGGACCCAGGCGCAGATCCTCCGAGGCCAGCTGCAGCCCTACCTACCTGCCTTCCCCTCTTTCCCCTCCCTTCTTTTCTCCTTCTGTCTTTCCTTCCTTCCATATCTCTTTCCTTGCCTCTTTCCCCCTCCCACTGCTTCCTTTCTTCCTTCCACTGTGGAGGTGGAAAATTTAGCTAGGAGAAGCTGGGACTGGGACGTTCCAGGAACCAGACAGAGAGTGAGTTAAAGGCACAGAGATGAAAACGCGGTTTGGGAGAGCTGGTTCTTGAGTCGGCTAAGAGGGGATGAACTCAATGGTTAATAGGATTGGCCATGGCGAATCCCTCAGCAGGGCACGCACCGCACAAAGGGCCGAAGCGCGAGGGTAGCTCGAGGTCAGGATTACAGAGACTCAGGAGC <

MEME

Gibbs Sampler Teiresias SPLASH Saco Patterns Cerca "parole" non-degenerate, sovrarappresentate in un gruppo di sequenze (positive set) rispetto ad un gruppo di controllo (negative set) Saco Patterns

LIMITI DEI PROGRAMMI ESISTENTI: DISPONIBILITA’ DEL SOFTWARE POSSIBILITA’ DI REGOLARE I PARAMETRI DI RICERCA LENTEZZA NON FUNZIONAMENTO PER LA RICERCA DI PATTERN MEDIO LUNGHI E CON ALCUNE WILDCARDS INCAPACITA’ DI TROVARE SEGNALI RAPPRESENTATI IN UNA FRAZIONE NON MAGGIORITARIA DELLE SEQUENZE INPUT ESPLOSIONE DELL’OUTPUT OUTPUT “ILLEGGIBILE”

IL “CHALLENGE PROBLEM” Trovare un segnale lungo 15 nucleotidi con 4 wildcards (15-4) In 20 sequenze tutte conteneti un’istanza del segnale stesso. Performances dei diversi programmi: Sostanzialmente una frazione molto piccola dei segnali viene ritrovata e questa frazione tende a zero non appena la lunghezza delle sequenze in analisi supera il centinaio di basi

COMPLESSITA’ REALE DEL PROBLEMA: La lunghezza delle sequenze promotoriali varia da 300 a 2000 paia di basi a seconda del gene e del fatto che si consideri il promotore core, quello prossimale o anche quello distale. I segnali non sono pattern esatti. Non tutti i promotori di geni presumibilmente coregolati contengono il medesimo segnale. E’ NECESSARIO FARE RICORSO ALLE CONOSCENZE BIOLOGICHE PER FILTRARE L’INPUT E L’OUTPUT DI PROGRAMMI DI PATTERN DISCOVERY: ANALISI SU LARGA SCALA DELLE MATRICI DI TRANSFAC UTILIZZO DI SIMULAZIONI MASCHERAMENTO DELLE SEQUENZE ???

“Predicting gene regulatory elements in silico on a genomic scale” BRAZMA et al. 1998, Genome Research Analisi sistematica di regioni upstream a geni di lievito per cercare di scoprire “regular expression-type patterns” ed identificare nuovi elementi regolativi presunti Nuovo algoritmo di pattern discovery che cerca in modo esaustivo pattern sconosciuti a priori che siano piu’ rappresentati nelle sequenze upstream a geni che in un insieme di sequenze extrageniche di lievito, prese come campione di riferimento Data set: >6000 sequenze upstream a geni di lievito Metodo: cercano i pattern che si trovano piu’ frequentemente nelle regioni upstream a geni che non nel resto del genoma numero di seq. upstr. che contengono il pattern Punteggio= numero di sequenze random che lo contengono Risultati: tra i pattern con i punteggi piu’ alti molti sono simili a sequenze note per legare fattori di trascrizione di lievito