Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte
Orario di ricevimento Stefano Forte Lunedi e Mercoledi – Ufficio 34 dipartimento di Matematica e Informatica (Sopra box bidelli) Tel
Ricerca di pattern e motivi funzionali Data una nuova sequenza, cosa si puo dire della funzione da essa codificata? Ua volta evidenziata, tramite un allineamento multiplo, una regione altamente conservata e possibile identificare nuove sequenze che abbiano regioni simili? La ricerca di pattern studia lorganizzazione e il disegno di sistemi che riconoscono motivi e regolarita nei dati a disposizione
Definizione di un motivo Un motivo e definito come un insieme di caratteri (nucleotidi o aminoacidi) non necessariamente contigui in sequenza, che si trovano sempre o spesso associati ad una precisa struttura o funzione biologica. Una sequenza consenso e un tipico esempio di motivo I motivi possono essere rappresentati utilizzando le espressioni regolari. Queste sono formule che si possono usare per definire pattern testuali.
Le espressioni regolari Le espressioni regolari sono composte da caratteri (nello stesso alfabeto su cui si definisce il pattern) e metacaratteri (altri caratteri a quali vengono attribuiti significati particolari. Esempi di metacaratteri. qualsiasi caratteri singolo * nessuna o piu occorrenze di qualsiasi carattere [abc] uno dei caratteri elencati dentrole parentesi $ fine stringa
Le espressioni regolari Ad esempio, lespressione regolare C*TT.A$ Identifica le stringhe: CGTTTA TTCGTTCGTTTA ACGTGTGGTGTTAA Ma non CTTGCA
Le espressioni regolari e i motivi Attraverso le espressioni regolari possiamo definire un motivo che identifica una o piu sequenze di caratteri. Le espressioni regolari specificano motivi di tipo deterministico: una sequenza puo contenere o non contenere il patter. Altre espressioni piu complesse possono specificare per motivi di tipo probabilistico, in cui esiste una certa associazione probabilistica tra un pattern e le sequenze associate ad una funzione
Motivi funzionali ideali e reali Un motivo funzionale e ideale se tutte le sequenze associate ad una funzione e soltanto le sequenze associate a quella funzione sono identificate dal motivo Il motivo funzionale e reale se identifica anche delle sequenze non associate a quella funzione o se esistono delle sequenze associate a quella funzione che non sono identificate dal motivo funzionale
Calcolare laffidabilita di un motivo Sensitivita =VP / (VP + FN) –Essa rappresenta la misura della proporzione di sequenze della famiglia selezionate dal motivo selettivita = VP / (VP + FP) –Misura la proporzione di sequenze della famiglia sul totale delle sequenze identificate dal motivo Specificita = VN / (VN + FP) –Misura la proporzione di sequenze che non fanno parte della famiglia che non vengono selezionate dal motivo
Scanprosite PROSITE consists of documentation entries describing protein domains, families and functional sites as well as associated patterns and profiles to identify them. The ScanProsite tool allows to scan protein sequence(s) against the PROSITE database. The user can provide either an UniProt Knowledgebase or Protein Data Bank (PDB) sequence identifier(s) (AC(s) or/and ID(s)) or a sequence(s) in fasta or UniProtKB format. By default the motifs to search for the occurrence are PROSITE patterns and profiles The ScanProsite tool also allows to search for hits by specific motif(s) in protein sequence database(s).
Scanprosite
Sintassi dei pattern di Scanprosite