La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Bioinformatica: un mix tra Biologia, Matematica e Informatica. Luca Bortolussi Dipartimento di Matematica e Informatica, Universita di Udine.

Presentazioni simili


Presentazione sul tema: "Bioinformatica: un mix tra Biologia, Matematica e Informatica. Luca Bortolussi Dipartimento di Matematica e Informatica, Universita di Udine."— Transcript della presentazione:

1 Bioinformatica: un mix tra Biologia, Matematica e Informatica. Luca Bortolussi Dipartimento di Matematica e Informatica, Universita di Udine.

2 Ringraziamenti Alberto Policriti, per le slides e i consigli! LucioTorelli, per lopportunità!

3 Di cosa parleremo Perche (e quando) i biologi hanno cominciato a parlare con gli informatici? Quali biologi e mentre facevano cosa si sono interessati alla computazione? Quali sono i problemi che ci vedono coinvolti? Quali sono gli strumenti che usiamo e che contributo possiamo (realisticamente) dare? Complessita. Che cosa ci viene in cambio? (Ci possiamo divertire?) … Che cose la Bioinformatica?

4 Algoritmica su stringhe – Matematica del discreto – String matching esatto e approssimato Systems biology – Matematica del continuo – Automi e biologia Computare usando il DNA – Le nuove frontiere Le aree Qualche spunto sugli sviluppi, qualche lettura consigliata.

5 Crick and Watson: 1953

6

7

8 1953: F. Crick e J. Watson scoprono la struttura a doppia elica del DNA anni 70: si sviluppano le tecniche per il sequenziamento di spezzoni di DNA (F. Sanger) anni 80: viene lanciato il progetto genoma e partono le prime sperimentazioni pilota (insieme alle prime compagnie per lo sfruttamento commerciale di queste ricerche) anni 90: vengono sequenziati i primi organismi (qualche M di paia di basi)

9 1990: viene pubblicato 1998: C. Venter annuncia la costituzione della compagnia privata Celera e sfida il consorzio pubblico per il sequenziaemnto del genoma umano: Celera otterra il risultato in 3 anni (e 300 M di $) (Cracking the code of life)

10 Clone-by-clone shotgun sequencing Dietro la sfida: Two main shotgun-sequencing strategies. Whole-genome shotgun sequencing

11 Programmi e algoritmi nella sfida Finally, perhaps the most essential element of any whole-genome shotgun-sequencing strategy is the availability of a robust assembly program that can accommodate the inevitably large collection of sequence reads. [...] include algorithms that account for the anticipated spatial relationship of read pairs emanating from individual subclones, which help to avoid misassemblies due to repetitive sequences. Strategies for the systematic sequencing of complex genomes Eric D. Green

12 Un problema iniziale (semplice?) T testo su un alfabeto P pattern su Come determino (tutte) le occorrenze di P in T? Quanto tempo impiego? T P |P| |T| confronti

13 Altri problemi algoritmici correlati Longest repeated substring (determina la piu lunga stringa ripetuta in una stringa data) strutture dati (non conviene rappresentare in memoria sequenze come stringhe ma come sistemi di indici per tutti i possibili suffissi della sequenza)

14 Tries & Trees Trie: Digital Search Tree over strings in alphabet C Each edge is a symbol, and siblings represent distinct symbols Final character of string cannot occur elsewhere in string – Add marker symbol ($) to alphabet Inefficient Eliminate Unary Nodes Suffix Tree Arcs are non-empty substrings Each non-terminal, non-root has two children Sibling arcs begin with different characters $ c $ a b c $ b c $ a b c $ a b c $ bcabc$ Trie $ c $ abc$ bc $ abc$ Tree

15 Come finita la sfida?

16 Human Genome Working Draft Sequence published February 15 & 16, 2001 Science and Nature

17 Problemi algoritmici in biologia computazionale Astronomy began when the Babylonians mapped the heavens. Our descendants will certainly not say that biology began with todays genome projects, but they may well recognize that a great acceleration in the accumulation of biological knowledge began in our era. To make sense of this knowledge is a challenge, and will require increased understanding of the biology of cells and organisms. But part of the challenge is simply to organise, classify and parse the immense richness of sequence data. Biological sequence analysis R. Durbin, S. Eddy, A. Krogh and G. Mitchinson

18 Among the most useful computer-based tools in modern biology are those that involve sequence alignments of proteins, since these alignements often provide insights into gene and protein function. There are several types of alignments: global alignments of pairs of proteins, multiple alignments of members of protein families, and alignments made driving data base searches to detect homologies. S. Henikoff and J.G.Henikoff PNAS 1992 Lallineamento di sequenze

19 GTTGAT_TAGCTTATCCCAAAGCAAGGCACTGAAAATG_CTAGAT GT_GATGTAGCTTAACCCAA_GCAAGGCACTAAAAATGCCTAGAT Input: GTTGATTAGCTTATCCCAAAGCAAGGCACTGAAAATGCTAGAT GTGATGTAGCTTAACCCAAGCAAGGCACTAAAAATGCCTAGAT Output: Cose un allineamento?

20 GTTGATTAGCTTA G T G A T 432 G 543 T 654 A 765 GTTGATTAGCTTATCCCAAAGCAAGGCACTGAAAATGCTAGAT GTGATGTAGCTTAACCCAAGCAAGGCACTAAAAATGCCTAGAT GTTGAT_TAGCTTATCCCAAAGCAAGGCACTGAAAATG_CTAGAT GT_GATGTAGCTTAACCCAA_GCAAGGCACTAAAAATGCCTAGAT

21 Algoritmi Needelman-Wunsh 1970 Smith –Waterman 1981 Landau-Vishkin 1986 Wu-Manber 1992 Myers 1994 Chang-Lawler

22 Complessita: le risorse che abbiamo sono finite Mathematics and Computer Science: Coping with Finiteness My favorite way to describe computer science is to say that it is the study of algorithms. Advances in our ability to compute are bringing us substantially closer to ultimate limitations. D.Knuth

23 Che risorse (computazionali) abbiamo? 40 miliardi di anni luce cm Universo protone

24 (maggiore o uguale al) numero di protoni nelluniverso Se assumiamo una unita di tempo pari al tempo necessario alla luce a viaggiare per cm e assumiamo che luniverso sia nato 10 miliardi di anni fa, il numero di unita di tempo trascorse e minore o uguale a 10 42

25 Che speranze abbiamo snail miles/h man 4 miles/h US auto 55 miles/h Jet 600 miles/h Supersonic jet 1200 miles/h man (pencil) 0.2/sec man (abacus) 1/sec calculator 4/sec computer /sec fast computer 2M/sec

26 Bill Gates (nel 2003) Alla COMDEX, una fiera di computer svoltasi di recente (tipo SMAU, n.d.t), Bill Gates ha fatto un parallelo tra l'industria del computer e quella dell'automobile, sentenziando che "Se la General Motors fosse progredita con la tecnologia tanto quanto l'industria dei computer, ora tutti noi guideremmo automobili da dollari che percorrono circa 400 Km. con un litro di benzina"

27 In risposta a queste osservazioni di Bill Gates, l'Ufficio Stampa della General Motors ha emesso il seguente comunicato: "Se la GM avesse sviluppato la propria tecnologia con gli stessi criteri con cui Microsoft ha sviluppato Windows, tutti noi guideremmo automobili con le seguenti caratteristiche: 1. senza alcun motivo particolare, l'automobile avrebbe incidenti due volte al giorno; 2. ogni volta che ridipingono le linee sulle strade, occorrerebbe comprare una nuova automobile; 3. di tanto in tanto l'automobile morirebbe in mezzo all'autostrada senza alcuna ragione particolare; dovremmo spingerla a lato della strada, chiudere tutte i finestrini, spegnere, riavviare e riaprire i finestrini per poter continuare.

28 occasionalmente, l'effettuare una semplice manovra, come la svolta a sinistra, provocherebbe lo spegnimento dell'automobile, che poi si rifiuterebbe di riaccendersi: in questo caso, sarebbe necessario reinstallare il motore; le spie dell'olio, dell'acqua troppo calda e della batteria verrebbero sostituite da una sola spia, indicante che "L'automobile ha effettuato una operazione illegale"; l'airbag, prima di entrare in funzione, chiederebbe: "sei sicuro? occasionalmente, di nuovo senza alcuna ragione, l'automobile ti chiuderebbe fuori e ti impedirebbe di rientrare fino a quando, con un'unica manovra, non sollevi la maniglia della portiera, giri la chiave nella serratura e sollevi l'antenna della radio; ogni volta che esce un nuovo modello di automobile, gli automobilisti dovrebbero imparare a guidare da capo, poiche nessuna delle levette, dei pedali e degli interruttori del precedente modello si comporterebbe come quelli del nuovo modello; sarebbe necessario premere il pulsante "Start" per spegnere il motore.

29 start finish Grid problem: calcolare il numero di cammini da start a finish

30 Il problema e difficile non ci sono metodi noti per calcolare il numero di cammini (in a reasonable amount of time) possiamo comunque generare dei cammini random e usare un teorema di statistica che ci dice che la stima migliore e data dalla media dei reciproci delle probabilita osservate otteniamo una stima enorme: (1.6 ± 0.3) 10 24

31 il problema di stabilire una (qualunque) proprieta dei cammini sulla griglia e algoritmicamente trattabile? non possiamo contare nemmeno su una procedura esaustiva per enumerare i cammini! Forse abbiamo bisogno di una teoria della complessita algoritmica che ci permetta di classificare questo come un problema difficile Un problema semplice (da enunciare) e pulito, ma...

32 Protein Folding Prediction Una proteina può essere vista come una sequenza di aminoacidi (stringa di lettere) Vi sono 20 tipi di aminoacidi PROBLEMA: – Data la sequenza di aminoacidi (struttura primaria) di una proteina, – Identificare la forma spaziale della proteina (Conformazione nativa o Struttura Terziaria)

33 Esempio Primaria: [k,s,c,c,p,n,t,t,g,t, …,y,p,k] Terziaria: Regolarità locali: sono la Struttura Secondaria.

34 Come si risolve? Si ritiene (assune) che alla conformazione nativa sia associata una energia minima. Si specifica lo spazio delle possibili soluzioni, In questo spazio si cerca quella che minimizza l'energia. PROBLEMA 1: come si calcola l'energia? PROBLEMA 2: lo spazio delle soluzioni ha dimensioni esponenziali in funzione della lunghezza della proteina.

35 Calcolo dell'energia Ogni conformazione spaziale è associata ad un valore di energia. Il valore è minimo per la conformazione nativa. Dipende dalla distanza tra gli aminoacidi e dai loro tipi. Assunzione: Assunzione: solo coppie di aminoacidi in contatto contribuiscono all'energia globale, secondo una tabella 20 x 20.

36 Spazio Ricerca - Si usano (anche) spazi discreti. - Uno usato e' il cubo a facce centrate (FCC) di lato 2. - Ogni punto ha 12 vicini (ognuno a distanza radice di 2). Dati 3 punti consecutivi, i valori ammissbili sono 60°, 90°, 120°, e 180° Dati 3 punti consecutivi, i valori ammissbili sono 60°, 90°, 120°, e 180° Gli angoli di 60° e 180° non occorrono in natura. Gli angoli di 60° e 180° non occorrono in natura. E' un modello realistico. E' un modello realistico. La struttura secondaria può essere codificata. La struttura secondaria può essere codificata.

37 Esempio: 1ENH Length: 54 Primary [r,p,r,t,a,f,s,s,e,q, l,a,r,l,k,r,e,f,n,e, n,r,y,l,t,e,r,r,r,q, q,l,s,s,e,l,g,l,n,e, a,q,i,k,i,w,f,q,n,k, r,a,k,i] Secondary [helix(8,20),strand(22,23), helix(26,36),helix(40,52)]

38 L'astrazione HP K. A. Dill, nel 90, propone di dividere gli aminoacidi in 2 famiglie: H, P L'energia si calcola con il numero di H in contatto. Già questa versione semplificata è NP-completa. -2

39 Systems Biology: Informatica e costruzione ed uso di modelli Le difficolta di comprensione in Biologia non dipendono, come in fisica, dalla scala ma dalla complessita. J. Monod Il caso e la necessita

40 Esempio: un orologio artificiale Three proteins: –LacI, tetR & cI –Arranged in a cyclic manner (logically, not necessarily physically) so that the protein product of one gene is rpressor for the next gene. LacI ! : tetR; tetR ! TetR TetR ! : cI; cI ! cI cI ! : lacI; lacI ! LacI

41 Modello Biologico Modello Matematico x1x1 x2x2 - x3x3 x4x4 - x5x5 x6x6 - dx 2 /dt = 2 X 6 g26 X 1 g X 2 h22 dx 4 /dt = 4 X 2 g42 X 3 g X 4 h44 dx 6 /dt = 6 X 4 g64 X 5 g X 6 h66 X 1, X 3, X 5 = const

42 La Bioinformatica deve fornire: strumenti per costruire modelli matematici potenti metodi per trattare diverse tipologie di input linguaggi di interrogazione (automatica) consentire una analisi di tipo discreto/continuo

43 Una notte del 1993 L. Adleman stava leggendo The molecular Biology of the Gene. Si sedette sul letto e disse a sua moglie:Dio mio, queste cose possono calcolare

44

45 dna Se usiamo il dna come software (hardware) di un calcolatore, che possibilita avremmo a disposizione? The thiniest treasure chest polymerase: 1ml di p 5 10^18 molecole ligase: 1 joule di energia 20 10^18 operazioni 1 g di dna 4 10^21 bit (1.000 G CDs) helicase estrae linformazione, polymerase la ricombina, ligase la rifinisce... ecc. ecc.... possiamo costruire un computer biologico! (non error free)

46

47 Conclusioni Biologia ed Informatica interagiscono lungo strade molto variegate. La Matematica e il linguaggio comune. Il termine Complessita (ed i modi e gli strumenti per affrontarla) non sono intesi da tutti nello stesso modo. Il lavoro di ricerca in questo campo e motivato dalle applicazioni ma tocca problematiche profonde: ricerca di base.

48 Bioinformatica tra Udine e Trieste Protein Structure Prediction Algorithms for genome analysis Computational System Biology Databases and Data Management Alberto Policriti (UD) Agostino Dovier (UD) Angelo Montanari (UD) Giuseppe Lancia (UD) Carla Piazza (UD) Andrea Sgarro (TS) Francesco Fabris (TS) Luca Bortolussi (UD) Nicola Vitacolonna (UD) Simone Scalabrin (UD) Marco Zantoni (UD) Cristian del Fabbro (UD) Michele Braidotti (CIB - TS)


Scaricare ppt "Bioinformatica: un mix tra Biologia, Matematica e Informatica. Luca Bortolussi Dipartimento di Matematica e Informatica, Universita di Udine."

Presentazioni simili


Annunci Google