La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Fragment Assembly of DNA Esempi, modelli e soluzioni I.Arduini, G.Caravagna, M.Pavesi.

Presentazioni simili


Presentazione sul tema: "Fragment Assembly of DNA Esempi, modelli e soluzioni I.Arduini, G.Caravagna, M.Pavesi."— Transcript della presentazione:

1 Fragment Assembly of DNA Esempi, modelli e soluzioni I.Arduini, G.Caravagna, M.Pavesi

2 Indice Storia Problema ed esempi Modelli Algoritmi Euristiche Assemblatori in pratica

3 Le tappe Phage Phi-x174: 5kb, 1977 Bacteriophage lambda: 50kb, 1982 Haemophilius influenzae: 1.9Mb, 1995 Drosophila: 180Mb, 2000 Human: 3B, 2001

4 Tappe dello shotgun sequencing 80’s Si sequenziavano 5/10 kbp <90 Si sequenziavano circa 40 kbp 1995 (H. influenzae) Si supera il limite massimo supposto di 50 kbp Primo programma efficiente La storia

5 Opinioni di G.Myers “I risultati del 1995 hanno ispirato me e J.Webber a proporre l’uso dello shotgun sequencing per sequenziare il genoma umano” US National Institutes of Health non li finanzia Maggio 1998: nasce Celera La storia (I)

6 Celera Obiettivi 1999: Drosophila 2001: Genoma umano La storia (II) Costi $ 0.01 per ogni base $ 130M per ogni anno di lavoro (≈3) $ 90M per software ed hardware

7 La storia (III) 26 Giugno 2000 Celera Genomics annuncia il completamento del primo assembly del genoma umano HGSC annuncia di aver completato una prima bozza dello stesso progetto

8 La storia (IV) Febbraio 2001 I due team pubblicano contemporaneamente le loro analisi comprovare i loro risultati ridurre le critiche dimostrare uno scopo comune

9 Celera v.s. HGP

10 Il problema Sequenziare lunghi filamenti di DNA 1.Problema biologico 2.Problema informatico

11 Il problema biologico Incapacità tecnica delle macchine Frammentazione dei filamenti Shotgun Sequencing dei frammenti Gel elettroforesi

12 Limiti tecnologici Metodi Gilbert-Sanger basi G.H. ≈ 3B di basi ABI PRISM® 3100 Genetic Analyzer

13 Frammentazione Clonazione Virus Shotgun Enzima

14 Gel Elettroforesi Tecnica che permette di separare frammenti di acido nucleico, in funzione del peso molecolare.

15 Il problema informatico frammenti di lunghezza tra le 200 e le 700 basi. Riassemblare i frammenti

16 Esempi Caso ideale Complicazioni Modelli Algoritmi Approccio pratico

17 Caso ideale - frammenti A C C G T C G T G C T T A C T A C C G T

18 Caso ideale - overlap A C C G T C G T G C T T A C T A C C G T

19 Caso ideale – allineamento - - A C C G T C G T G C T T A C T A C C G T - - T T A C C G T G C

20 Complicazioni (caso reale) Errori Base call errors (BCE) Contaminazione Chimere Orientamento sconosciuto Mancanza di copertura Ripetizioni Dirette Inverse

21 BCE - frammenti Errore di lettura (biologico) A C C G T C G T G C T T A C T G C C G T

22 BCE - overlap Errore di lettura (biologico) A C C G T C G T G C T T A C T G C C G T

23 BCE - layout - - A C C G T C G T G C T T A C T G C C G T - - T T ? C C G T G C

24 BCE - soluzione A - A G ? Selezione per maggioranza 2 A 1 G 1 – Vince la A !!!

25 BCE – stringa di consenso - - A C C G T C G T G C T T A C T G C C G T - - T T A C C G T G C

26 Chimere Fusione di due sottosequenze non contigue in un unico frammento DNA frammento

27 Chimere Problema biologico Durante la clonazione Contaminazione dall’ospite DNA Arrays Soluzione Preprocessing dell’input

28 Chimere - frammenti A C C G T C G T G C T A C C G T T T A T G C

29 Chimere - overlap A C C G T C G T G C T A C C G T T T A T G C

30 Chimere – consenso - - A C C G T C G T G C T T A T T A C C G T G C T T A T G C

31 Contaminazioni Le chimere sono contaminazioni Il processo di clonazione “sporca” i filamenti con pezzi di genoma dell’organismo ospite DNA da clonare e dell’ospite Processo di clonazione DNA “sporco” e quello originale Unica soluzione il preprocessing

32 Orientamento Sconosciuto I frammenti clonati provengono da una qualsiasi delle sequenze In principio non sappiamo da quale Con n frammenti abbiamo 2n(n-1) coppie considerando le 2 eliche ACTG GTCA CAGT reverse complement

33 Orientamento - frammenti C A C G T A C T A C G G T A C T

34 Orientamento – quale elica? C A C G T A C T A C G G T A C T A C G T G C G T A G T A G T A C 1. genero tutti i possibili frammenti 2. ne scelgo alcuni (come?)

35 Orientamento – layout C A C G T C G T A G T A G T A C C A C G T A G T A C Ori.

36 Copertura La stringa target si riassembla da dei frammenti 1. Quanti frammenti vogliamo? 2. Quanti sono abbastanza? 3. Possono non bastare? abbastanza non lo sappiamo (non calcolabile) sì ?

37 Copertura Problema biologico Il sampling è un processo casuale Buon Principio Più frammenti abbiamo, più è sicuro il consenso basato sulla maggioranza quindi Quanti: tanti Quali: non si sa

38 Ripetizioni Sequenze che compaiono 2 o più volte nella sequenza target DNA xx Dato un frammento contenente x, in quale punto del target lo assemblo? sono sempre “pericolose” ?

39 I segmenti e disambiguano Ripetizioni – quelle facili Quelle facili DNA xx frammenti Facili quando sono contenute totalmente nei frammenti

40 Ripetizioni – quelle difficili Quelle difficili DNA xx frammenti Difficili se si spezza una ripetizione OK NO i frammenti collassano !

41 Ripetizioni difficili – XXX frammenti A x B x C x D DNA frammenti A x C x B x D consenso

42 Ripetizioni difficili – XYXY frammenti A x B y C x D y E DNA frammenti consenso A x D y C x B y E

43 Ripetizioni – dirette/inverse Abbiamo visto quelle dirette Facili Difficili Quelle inverse Facili Difficili Ce ne sono altre? xx xx Ruota 180°

44 Modelli SCS (Shortest Common Superstring) RECONSTRUCTION MULTICONTIG Nessuno risolve i problemi biologici Chimere Contaminazione

45 SCS Il problema: Data una collezione F di stringhe Trovare la più breve stringa S tale che per ogni f appartanente ad F, S sia una superstringa di f.

46 SCS (II) In biologia: La collezione F è l’insieme di frammenti orientati S è la sequenza del DNA della molecola target

47 SCS (III) Limiti: S deve essere una superstringa perfetta Non tiene conto degli errori Bisogna conoscere l’orientamento Quasi sempre impossibile La superstringa trovata potrebbe non essere la soluzione corretta Problema delle ripetizioni

48 SCS (IV) In conclusione: Il problema SCS è NP-hard Esistono algoritmi di approssimazione Non sono interessanti Limiti del modello

49 RECONSTRUCTION Il problema: Dati una collezione F di stringhe Un margine di errore ε, 0<ε<1 Trovare la più breve stringa S tale che per ogni f appartanente ad F, sia Min(d s (f,S),d s (-f,S))<= ε|f|

50 RECONSTRUCTION (II) Min(d s (f,S),d s (-f,S))<= ε |f| d s è la substring edit distance Edit distance ignorando cancellazioni alle estremità della seconda sequenza. d s (a,b)= min d(a,s) Dove s è una qualsiasi sottostringa di b ε è il livello di errore tollerato |f| è la lunghezza della stringa f Cosa significa tutto questo?

51 RECONSTRUCTION (III) Cosa significa tutto questo? Errore tollerato ε per ogni base. ε=0.05 significa che sono ammessi 5 errori ogni 100 basi. Cerco una stringa S di dimensioni minime ogni frammento (o inverso) è sottostringa di S con margine ε.

52 RECONSTRUCTION (IV) Vantaggi: Tiene conto degli errori Svantaggi: Non risolve il problema delle chimere Il problema è ancora NP-hard Contiene SCS come caso particolare con ε =0

53 MULTICONTIG Introduce il concetto di good linkage Def: good linkage Misura del livello di sovrapposizione di frammenti --TAATG TGTAA-- Livello di collegamento: 3

54 MULTICONTIG (PRO) PRO Errori (Base Call Errors) Orientamento Mancanza di copertura Ripetizioni?

55 MULTICONTIG (CONTRO) CONTRO Non sfrutta le informazioni relative alla dimensione della molecola target NP-hard Cammini Hamiltoniani Ripetizioni?

56 MULTICONTIG (Def. I) F : collezione di frammenti L : allineamento multiplo dei frammenti (Layout) T G T A A T A A T G G T A C

57 MULTICONTIG (Def. II) Numerazione delle colonne Per ogni frammento f si l(f) e r(f) Il valore di l e r dipende dalla colonna T G T A A T A A T G G T A C r(f1)=1 f1 l(f1)=1

58 MULTICONTIG (Def. III) |f|=r(f) - l(f) + 1 Overlap [x..y]: intersezione [l(f)..r(f)] e [l(g)..r(g)] Nonlink: se un altro frammento contiene propriamente [x..y] Link: altrimenti Weakest link: la più piccola dimensione dei link della collezione

59 MULTICONTIG (VII) T-contig Un layout L è un t-contig se il suo weakest link ha dimensione t Una collezione F ammette t-contig se è possibile costruire un t-contig con i suoi frammenti

60 MULTICONTIG (formulazione error-free) PROBLEMA: Multicontig INPUT F, collezione di stringhe t≥0, intero OUTPUT Una partizione di F nel minimo numero di sottocollezioni C i, 1≤i≤k, tale che ogni C i ammetta un t-contig

61 MULTICONTIG (esempio) F={GTAC,TAATG,TGTAA} t=3 t=2 t=1 T G T A A - - G T A C - - T A A T G T G T A A G T A C T A A T G T G T A A T A A T G G T A C

62 MULTICONTIG (errori) Si associa a L una sequenza di consenso S Immagine di f nel consenso: S[l(f)..r(f)] Tolleranza di errore: e e-consenso: S è un e consenso per questo contig quando la distanza di edit fra ciascuno frammento allineato f e la sua immagine nel consenso è al più e|f|.

63 MULTICONTIG (formulazione) PROBLEMA: Multicontig INPUT F, collezione di stringhe t≥0, intero 0≤e≤1, tolleranza di errore OUTPUT Una partizione di F nel minimo numero di sottocollezioni C i, 1≤i≤k, tale che ogni C i ammetta un t-contig con un e-consenso

64 MULTICONTIG (complessità) Np-arduo Anche nel caso error-free e orientamento noto Contiene una istanza di cammino hamiltoniano

65 Indice Algoritmi Rappresentare gli Overlap Overlap Multigraph Superstringhe e cammini SCS come cammini su grafi Algoritmo Greedy Sottografi aciclici

66 Rappresentare gli Overlap(I)  Dati due frammenti  f1= TACGAA  f2= AACA  Quanti modi ci sono di sovrapporli? TACG AA AA CA TACGA A A ACA TACGAA AACA t=2 t=1 t=0 t t t f1f2 Ordinamento  su un grafo f2  f1

67 Rappresentare gli Overlap(II)  F={TACGA, ACCC, CTAAAG, GACA}  Grafo  Escludendo da subito le sovrapposizioni nulle (concatenazioni di frammenti) TACGA CTAAAG GACA ACCC

68 Rappresentare gli Overlap(III) TACGA CTAAAG GACA ACCC TACGA ACCC GACA ACCC CTAAAG

69 Overlap Multigraph (I) OM (F)=(F,A) I nodi rappresentano i frammenti (a,b), con peso t≥ 0  A  suffix(a, t) = prefix(b, t) suffix(a,t) prefix(b,t) a b t ab t a b t = 2 TAGCAAAAGC 2 TAGC AA AA GC

70 Overlap Multigraph (II) Raffinamenti possibili: Elevato numero di nodi n Elevato numero di archi n 2 solo per t=0 Valore di soglia su t Eliminare gli overlap “troppo deboli” Poco significativi Errori?

71 Superstringhe e cammini I cammini in un OM rappresentano un allineamento multiplo. La sequenza di consenso è una superstringa comune ai frammenti del cammino Non necessariamente la più corta.

72 Superstringhe e cammini(II) Cammini come sequenze di archi Più di un arco tra due nodi TACG AA AA CA TACGA A A ACA TACGAA AACA t t t TAGCAAAAGC n overlap tra due frammenti generano n cammini fra due nodi

73 Superstringhe e cammini(III) Overlap multigraph Quanti cammini? TACGA CTAAAG GACA ACCC

74 Superstringhe e cammini(III) TACGA CTAAAG GACA ACCC TACGA ACCC CTAAAG GACA TACGACCCTAAAGACA

75 Superstringhe e cammini(III) TACGA CTAAAG GACA ACCC TACGA GACA ACCC CTAAAG TACGACACCCTAAAG consenso più corto

76 Considerazioni (I) Come scegliere un cammino? Due modi: Massimizzo  pesi Senza regole CS-Problem Common Superstring SCS-Problem Shortest Common Superstring

77 Considerazioni (II) Ma in fondo, quali cammini vogliamo? Hamiltonian Path (HAM) Un cammino in un grafo non orientato che visita tutti i vertici una e una sola volta HAM HAM  NP-C

78 Overlap Graph ( OG ) Vogliamo cammini di peso massimo Eliminiamo Tra archi paralleli quelli meno pesanti TAGCAAAAGC TAGCAAAAGC 2

79 L’Algoritmo Un tentativo “greedy” per calcolare Cammino di peso massimo sull’ OG Scegliere, al passo i-esimo, l’arco di peso massimo tra quelli non ancora attraversati. Questo arco non deve interferire con il cammino HAM che stavamo costruendo al passo (i-1)-esimo IDEA Ordinamento decrescente degli archi rispetto ai pesi

80 L’Algoritmo: terminazione OG è completo Tra due nodi esiste sempre un arco Se |F| = n, allora ci fermiamo quando il cammino è lungo ( n-1 ) nodi. Il cammino calcolato toccherà tutti i nodi del grafo.

81 L’Algoritmo: variazioni Vediamo l’algoritmo direttamente su F 1. Scegli ( f, g )  F di peso massimo 2. Sovrapponi f a g secondo l’overlap 3. Togli f e g da F 4. Aggiungi la sovrapposizione a F Ci fermiamo quando |F| = 1 Otteniamo sempre il miglior risultato?

82 Un esempio F = { GCC,ATGC,TGCAT } 13{ GCC,ATGCAT } ATGC GCC TGCAT Passo Peso F GCC 0 ATGCAT 20{ ATGCATGCC } ATGCATGCC

83 Un esempio(II) ATGC GCC TGCAT Un cammino alternativo migliore ATGCATGCC v.s. TCGCATGCC 0

84 SOTTOGRAFI ACICLICI Basato sul modello Multicontig Buon Campionamento I frammenti coprono l’intera molecola Le connessioni fra frammenti sono sufficienti

85 Campionamento S={A,C,G,T}* Campionamento di S Collezione A di intervalli di S A copre S Se per ogni 1 ≤ i ≤ |S| abbiamo almeno un intervallo [j..k] є A t.c. i є [j..k]

86 Connessione Due intervalli a e b sono connessi a livello t se |a ∩ b|≥t Un campionamento di A è connessa a livello t Se per ogni coppia a e b є A esiste una serie di intervalli ai con 0≤i≤l t.c. a=a 0, b=a l e ai è connessa a livello t con a i+1 per 0≤i≤l-1

87 Copertura: esempio Campionamento di A connesso a livello t È sufficiente che ogni coppia di intervalli abbia una catena di intervalli l’uno con l’altro sovrapposto a livello t G C C C C A T G T G A G A G T G GCC e AGTG non sono connessi a livello 2, ma il campionamento è comunque connesso a livello 2

88 Buon campionamento Un campionamento è buono se A è connesso ad un livello t’ prefissato t’ è 10, tipicamente. Studieremo quindi collezioni di frammenti connessi a livello t che coprono una stringa S

89 Modifica al grafo Si tagliano da OM (F) tutti gli archi da f a g che pesino meno di t Gli archi connettono solo nodi corrispondenti a intervalli connessi a livello t Si indica con OM (F,t)

90 Concettualmente Nel grafo gli archi sono le sovrapposizioni I nodi sono intervalli Stringa cercata = cammino che non visiti due volte un nodo e visiti tutti i nodi Cammino Hamiltoniano Esiste?

91 Cammini Hamiltoniani Si può dimostrare che, dati Una stringa S sull’alfabeto {A,C,G,T} Una collezione A connessa a livello t, campionamento di S. Allora il multigrafo OM (F,t) Con F generato da A Ammette un cammino Hamiltoniano P. Se A copre S, allora P può essere scelto tale che S(P)=S.

92 Intuitivamente Condizioni sufficienti per la presenza di un cammino hamiltoniano Il cammino hamiltoniano rappresenta una stringa ci si muove su frammenti sovrapposti, ovvero susseguenti In assenza di cicli, questo cammino si dimostra essere unico

93 Problema Abbiamo F, vogliamo ricostruire S Trovando un cammino hamiltoniano Possiamo farlo? Il problema sono le ripetizioni Sì, in assenza di ripetizioni Non si sa, altrimenti

94 Presenza di ripetizioni Cicli nel grafo => ripetizioni nel grafo Il contrario non sempre è vero Intersezione comune fra due intervalli è dovuta a uno fra Sovrapposizione (overlap) Ripetizione Si dimostra che in caso di ciclo nel grafo, esisten almeno una ripetizione

95 Unicità del cammino hamiltoniano Trasformare il multigrafo OM in un grafo aciclico OG Se S non ha riptezioni, il cammino hamiltoniano su OG esiste ed è unico Il cammino hamiltoniano rappresenta la stringa target ricercata

96 Topological sorting Questo approccio è noto come Topological Sorting Trovare un ordinamento di nodi consistente con un insieme aciclico di archi In cui gli archi rappresentino un ordinamento

97 Greedy VS Acyclic Subgraph S=AGTATTGGCAATCGATGCAAACCTT TTGGCAATCACT w=AGTATTGGCAATC z=AATCGATG u=ATGCAAACCT x=CCTTTTGG y=TTGGCAATCACT

98 Greedy VS Acyclic Subgraph w z u x y Greedy: w, y, z, u, x Sottografi aciclici: w, z, u, x, y

99 Greedy VS Acyclic Subgraph Greedy Lunghezza 36 Weakest Link 0 Superstringa Sottografi aciclici Lunghezza 37 Weakest Link 3 Superstinga

100 Vince Acyclic Subgraph Fra i due, prevale la logica del migliore livello di sovrapposizione Anche se la superstringa minore è quella generalmente preferibile

101 Euristiche Nessun formalismo è adeguato Ci buttiamo sulle euristiche Quanto è adeguato un allineamento? Scoring Coverage Linkage Assembly in pratica

102 Scoring Situazione ideale: In ogni colonna, un solo carattere Uniformità: bene Variabilità: male

103 Scoring: entropia Entropia: Definita su frequenze relative Bassa  una frequenza “spicca” nel gruppo Alta  frequenze omogenee Su una colonna: 4 A, 1 G Entropia bassa, si sceglie A 3 A, 2G Entropia alta, non si sa cosa scegliere

104 Scoring: in pratica Allineamento buono Entropia bassa Sappiamo cosa scegliere per ogni colonna

105 Coverage Un frammento “copre” una colonna? Siano l(f) e r(f) gli estremi sinistro e destro di f f copre la colonna i se l(f)≤i≤r(f) a=CAGTC--- b=--GTCAT- c=----CAT- a e b coprono la colonna, c no

106 Coverage (II) Coverage di una colonna: Numero di frammenti che la coprono Coverage=0 per una colonna Layout disconnesso CATAG AGTCGA CTAGACTA Coverage=0 !

107 Coverage (III) In conclusione: Più colonne con coverage=0 Qualsiasi permutazione delle regioni tra di esse è accettabile. Regione=contig Coverage alta = consensus affidabile

108 Linkage Il modo in cui ogni frammento si lega agli altri Presenza di overlaps ACTTTT TCCGAG------ACGGAC ACTTTT TCCGAG------ACGGAC Esempio di buona copertura ma scarso linkage

109 Assembly in pratica Un buon algoritmo deve: bilanciare Scoring Coverage Linkage trovare tutte le soluzioni buone Un compito difficile, quindi?

110 Assembly in pratica (II) Un compito difficile Si divide il problema in tre fasi: Trovare overlaps Costruire un layout Calcolare un consensus Modello overlap-layout-consensus

111 Assembly in pratica (III) Si divide il problema in tre fasi Pro: Più gestibile Contro: Difficile capire la relazione tra input e output

112 Assembly in pratica (IV) Di fatto I metodi usati nelle tre fasi sono spesso euristici Nessuna garanzia sulla qualità della soluzione Ci sono molte implementazioni Buone all’atto pratico Vale la pena studiare le tecniche

113 Trovare overlaps Proviamo ogni coppia di frammenti Anche i complementari inversi Con un margine di errore Algoritmo di programmazione dinamica Nessuna penalità per gaps alle estremità 1 match -1 mismatch -2 gaps

114 Costruire un layout Trovare un buon ordinamento dei frammenti in un contig. Ogni frammento si sovrappone al successivo Si trova il layout

115 Costruire un layout (II) Non esiste un algoritmo Semplice Generale Neanche affidandosi alle euristiche Facciamo considerazioni pratiche Da tenere a mente

116 Costruire un layout (III) Considerazioni pratiche Complementari inversi Espandere F con gli inversi Se due frammenti hanno overlap, anche i loro inversi lo hanno Errori Matching approssimato

117 Costruire un layout (IV) Considerazioni pratiche Trovare percorsi diretti sull’ OG Significa trovare ordinamenti Si costruisce contemporaneamente l’inverso Vengono costruiti entrambi i filamenti del DNA Due ostacoli: Mancanza di coverage Ripetizioni

118 Costruire un layout (V) Mancanza di copertura Deriva da un grafo disconnesso Ripetizioni Causano cicli nel grafo Se la copertura è buona Creano ambiguità Danno coverage stranamente alto Tutte le copie sono impilate insieme La coverage sale

119 Costruire un layout (VI) Per concludere: Percorsi complementari Ignorare frammenti contenuti Cicli indicano ripetizioni Coverage “strano” Può derivare da ripetizioni

120 Consensus Abbiamo un ordinamento di frammenti Come li disponiamo? Banale nel caso ideale Problematico con overlaps approssimati

121 Consensus (II) Abbiamo un ordinamento f  g  h f = CATAGTC g = TAACTAT h = AGACTATCC Due allineamenti possibili tra f e g CATAGTC--- --TAA-CTAT CATAGTC--- --TA-ACTAT Problema: stesso punteggio!

122 Consensus (III) Due allineamenti possibili tra f e g Con lo stesso punteggio Quando entra in gioco h: CATAGTC TAA-CTAT-- ---AGACTATCC CATAG?CTATCC CATAGTC TA-ACTAT-- ---AGACTATCC CATAGACTATCC

123 Consensus (IV) Evidenziamo le differenze tra frammenti e consensus CATAGTC TAA-CTAT-- ---AGACTATCC CATAG?CTATCC CATAGTC TA-ACTAT-- ---AGACTATCC CATAGACTATCC 2 differenze1 differenza

124 Consensus (V) In pratica Struttura dati che distingue Basi già “piazzate” da altri frammenti Basi con posizionamento “ambiguo” Sequenza come lista di nodi (basi)

125 Consensus (VI) Sequenza come lista di nodi (basi)

126 Assemblatori Due generazioni Prima (1992≈1998) CAP Phred & Phrap Seconda(1995≈..) TIGR Celera

127 Assemblatori: prima generazione Contig Assembly Program (CAP) di Xiaoqiu Huang, Genomics Risolve SCS con programmazione dinamica su coppie di frammenti Del 1992, migliorato in CAP2 nel 1996 “As to performance, CAP took 4 hours to assemble 1015 fragments of a total of 252,000 characters on a Sun SPARCstation SLC”

128 Assemblatori: prima generazione Phred Phrap di Phil Green, Laboratory of Phil Green Del 1998 Approccio Controllo della qualità dei frammenti Guidato da una euristica

129 Assemblatori: seconda generazione The Institute for Genomic Research (TIGR) Nel 1995 sequenzia H.influenzae (1.8Mb) Approccio Utilizzo di strutture dati sofisticate Unitigs (UNIquely Assemblable conTIG) Scaffold (unitigs contigui ed ordinati)

130 Assemblatori: seconda generazione Celera Genomics

131 Celera: pipeline Screener Cerca le ripetizioni conosciute in un database Il database per la Drosophila era “fatto a mano” Overlapper Ogni frammento viene comparato con quelli precedentemente esaminati Differenza < 6% Overlap più lunghi di 40 basi L’approccio è quello di BLAST

132 Celera: pipeline Unitigger Riunisce frammenti non ambigui in unitigs U-unitigs : quelli fuori dalle ripetizioni Scaffolder U-unitigs vengono raccolti in insiemi di contig di dimensione nota orientati ed ordinati

133 Celera: pipeline Repeat Resolution Elimina le ripetizioni note Aggiorna il database Consensus “La qualità della sequenza è così alta che il consenso è ottenuto da un semplice algoritmo denominato Abacus “ Myers et al

134 Osservazioni finali Overlap Layout Consensu: le tecniche più avanzate per la fase Layout sono NP-hard Ma il vero ostacolo è nella fase Overlap, anche se quadratica 3Miliardi di basi x 12 (copertura) x 2 (orientamento)

135 Osservazioni 2 Celera e HGSC hanno annunciato di aver sequenziato del genoma umano Come si fa a dare questa valutazione, se non si può confrontare il risultato con il “vero genoma”? Metro di valutazione: lunghezza Siamo davvero simili al topo per il 99% del genoma?

136 Osservazioni 3 La soluzione del problema biologico è stata favorita dall'Informatica Ma l'informatica ha fino ad ora fatto uso dei PROPRI mezzi principalmente E' possibile sfruttare meglio i vincoli biologici? Uso di database come guida


Scaricare ppt "Fragment Assembly of DNA Esempi, modelli e soluzioni I.Arduini, G.Caravagna, M.Pavesi."

Presentazioni simili


Annunci Google