UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 3 Mappe genetiche
2 Alfabeti, parole, linguaggi Alfabeto = insieme finito di elementi detti lettere, caratteri o simboli Esempi = {0,1} Alfabeto binario = {a, b, c,..., v, z} Alfabeto italiano = {A, C, G, T} Alfabeto del DNA = {GLY, ALA, VAL, LEU, …}Alfabeto delle proteine
3 Alfabeti, parole, linguaggi Parola, stringa o sequenza su = lista ordinata di simboli di scritti consecutivamente da sinistra a destra Formalmente: Una stringa w = a 1 a 2 …a n è una funzione w: {1,2,…,n} con w(i) = a i carattere i-esimo di w n lunghezza di w (denotata anche con |w|) ESEMPIO: w = AATGCA|w| = 6 Parola vuota | | = 0 ESEMPIO: w = AATGCA|w| = 6 Parola vuota | | = 0 L’insieme delle parole su viene indicato con * (chiusura di ) L’insieme delle parole su viene indicato con * (chiusura di )
4 Alfabeti, parole, linguaggi Sottosequenza di w = sequenza ottenuta per cancellazione di uno o più caratteri di w Esempio w = AATGCATTCGCT w’= A TG AT CG T Supersequenza di w’ Sottosequenza di w
5 Alfabeti, parole, linguaggi Sottostringa di w = stringa formata da caratteri consecutivi di w Esempio w’= TGCATTC Una sottostringa di w è anche sottosequenza di w (ma non vale il viceversa) Una sottostringa di w è anche sottosequenza di w (ma non vale il viceversa) Superstringa di w’ w = AATGCATTCGCT Sottostringa di w
6 Alfabeti, parole, linguaggi v = AATGC w = ATTCGCT vw = AATGCATTCGCT Concatenazione di w e v, w v = stringa formata dai caratteri di w, seguiti da quelli di v Esempio
7 Alfabeti, parole, linguaggi Prefisso di w = stringa v tale che w = vt per qualche t * Esempio Suffisso di w = stringa t tale che w = vt per qualche v * Esempio w = A A T G C A T T C G C T
8 Gene hunting R icerca del gene responsabile di un particolare evento (in genere malattia) Esempio 4Malattia: fibrosi cistica (frequenza 1/2500) 4Causa: gene alterato presente con frequenza 1/25 (se ereditato da ambedue i genitori causa la malattia) 4Scoperte: 4primi anni ‘80: inizia la ricerca del gene responsabile della FC (per diagnosi prenatale e cura) 41985: viene individuato il cromosoma 7 su cui risiede il gene 41989: il gene viene localizzato sul cromosoma 7 (la proteina corrispondente comprende 1480 aminoacidi)
9 Mappaggio genetico Posizionamento approssimato di un gene su un particolare cromosoma (prima fase del gene hunting) Idea generale: analizzare la frequenza di diverse combinazioni di fenotipi nella discendenza per determinare l’ordine dei geni Prima mappa genetica: sei geni della Drosophila Melanogaster (Sturtevant, 1913)
10 Mappaggio genetico: un esempio Organismo modello semplice (unico cromosoma) 4Numero di geni: 3 (colore di occhi, pelle, capelli) 4Ogni gene può essere nello stato 4R: fenotipo rosso 4V: fenotipo verde 4Dati un individuo madre (m 1, m 2, m 3 ) e un individuo padre (p 1, p 2, p 3 ), con m i e p i stati dei geni, un figlio è un individuo con insieme degli stati fornito da una particolare posizione di ricombinazione i compresa tra 0 e 3 (ad esempio (m 1, p 2, p 3 ) per i=1) NB: per la stessa posizione di ricombinazione, l’insieme degli stati poteva anche essere ( p 1, m 2, m 3 ) 4Ogni coppia di individui può dare luogo a 8 ricombinazioni diverse 4La probabilità di ricombinazione alla posizione i è pari a 1/4
11 Gen1 abc Gen2 def abc def aef dbc abf dec abc def Mappaggio genetico: un esempio Dati i fenotipi di un grande numero di figli di un genitore tutto rosso e uno tutto verde, si vuol trovare l’ordine dei geni
12 Mappaggio genetico: un esempio Le diverse possibilità di ricombinazione tra un individuo (R, R, R) e uno (V, V, V) sono: per i=0: (V, V, V) o (R, R, R) per i=1: (R, V, V) o (V, R, R) per i=2: (R, R, V) o (V, V, R) per i=3: (R, R, R) o (V, V, Mappe genetiche) NB: - Probabilità di avere caratteri diversi per i geni in posizione 1 e 2: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 2 e 3: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 1 e 3: 1/2 NB: - Probabilità di avere caratteri diversi per i geni in posizione 1 e 2: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 2 e 3: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 1 e 3: 1/2
13 Mappaggio genetico: un esempio Generalizzando si ottiene 4Numero di geni: n 4Ogni gene può essere nello stato 4R: fenotipo rosso 4V : fenotipo verde 4Dati un individuo madre (m 1, m 2, …, m n ) e un individuo padre (p 1, p 2, …, p n ), con m i e p i stati dei geni, un figlio è un individuo con insieme degli stati fornito da una particolare posizione di ricombinazione i compresa tra 0 e n ((m 1, …, m i, p i+1, …, p n ) o (p 1, …, p i, m i+1, …, m n )) 4Ogni coppia di individui può dare luogo a 2(n+1) ricombinazioni diverse 4La probabilità di ricombinazione alla posizione i (probabilità di avere diversi i caratteri per i geni nelle posizioni i e i+1) è pari a 1/(n+1) 4La probabilità di avere diversi i caratteri per i geni non consecutivi è pari a d/(n+1) con d distanza tra i caratteri
14 Mappaggio genetico: un esempio INPUT INPUT: un elevato numero di figli di un individuo tutto rosso (R, R, …, R) e di uno tutto verde (V, V, …, V) OUTPUT OUTPUT: ordine (g 1, g 2, …, g n ) dei geni nell’organismo modello Misurando la frequenza dei caratteri diversi nella popolazione dei figli, si risale alla stima delle distanze tra i geni g i e quindi al loro ordine sul cromosoma Misurando la frequenza dei caratteri diversi nella popolazione dei figli, si risale alla stima delle distanze tra i geni g i e quindi al loro ordine sul cromosoma
15 Mappaggio fisico del DNA Mappa fisica := localizzazione di marcatori lungo la sequenza del DNA Tecnica: RFLP (Restriction Fragments Length Polymorphism) Esempio: Siti di restrizione 1970: Hamilton Smith scopre che HindII taglia il DNA in corrispondenza di GTGCAC o GTTAAC Il DNA umano è tagliato in circa un milione di frammenti Mutazioni interne al sito di restrizione impediscono il taglio 1973: Danna et al. costruiscono la prima mappa di restrizione per il DNA del Simian Virus 40
16 Mappaggio fisico del DNA Il mappaggio fisico del DNA consiste nel 4creare alcune copie del DNA da mappare 4frammentare con enzimi di restrizione 4confrontare i frammenti e le loro sovrapposizioni êGenerazione di fingerprints per 4 analisi dei siti di restrizione ê Misura della lunghezza dei frammenti 4 ibridazione ê Ricerca di piccole sequenze che legano i frammenti
17 Analisi dei siti di restrizione Enzima A Enzima B Enzima A+B
18 Problema della doppia digestione (DDP) INPUT INPUT: tre multinsiemi di numeri interi: A = {a 1, a 2, …, a n } B = {b 1, b 2, …, b m } O = {o 1, o 2, …, o k } OUTPUT OUTPUT: due permutazioni di A e B, A e B, tali che, riportando su una retta gli elementi di A in segmenti consecutivi e ordinati secondo A e gli elementi di B in segmenti consecutivi e ordinati secondo B, si ottenga una suddivisione in segmenti corrispondenti agli elementi di O Il problema DDP è NP-completo (Goldstein e Waterman, 87)
19 Problema della doppia digestione (DDP) Esempio INPUT INPUT : A = {3, 6, 8, 10} B = {4, 5, 7, 11} O = {1, 2, 3, 3, 5, 6, 7} OUTPUT OUTPUT : AA BB 7356 A U B 123