APPLICAZIONI BIOINFORMATICHE SU GRIGLIA COMPUTAZIONALE PER LINDIVIDUAZIONE DI EVENTI RICOMBINATIVI IN GENOMI DI CITRUS TRISTEZA VIRUS 1,2 Alessandro Lombardo, 2 Salvatore Davino, 3 Marcello Iacono Manno e 3 Annamaria Muoio 1 Consorzio Cometa, Via S. Sofia 64, 95123, Catania. 2 Dipartimento di Scienze e Tecnologie Fitosanitarie, Università degli Studi di Catania, Via S. Sofia 100, 95123, Catania. 3 I.N.F.N. sezione di Catania, Via S. Sofia 64, 95123, Catania. INTRODUZIONE Su di una infrastruttura GRID sono stati implementati, in un singolo flusso di lavoro, tre applicazioni per lindividuazione degli eventi ricombinativi in Citrus tristeza virus (CTV) partendo dallallineamento multiplo di sequenze e la costruzione di alberi filogenetici, la generazione di network filogenetici ed infine la ricerca degli eventi di ricombinazione attraverso metodi filogenetici.. Questo lavoro usa risultati prodotti dal Progetto PI2S2 gestito dal Consorzio COMETA, un progetto co-finanziato dal Ministero dellUniversità e della Ricerca (MIUR) nellambito del Piano Operativo Nazionale Ricerca Scientifica, Sviluppo Tecnologico, Alta Formazione (PON ). Maggiori informazioni sono disponibili alle pagine e MATERIALI E METODI Sono state utilizzate le sequenze genomiche di CTV con numeri di accessione NC (T36 Florida); DQ (Mexico); AB (NUagA Japan); AF (SY568 California); DQ (T318A Spain); AY (Qaha Egypt); Y18420 (T385 Spain); AF (T30 Florida); U56902 (VT Israel) Le sequenze sono state allineate mediante ClustlW-MPI (Li, 2003) utilizzando i parametri di default. Lallineamento in output è stato utilizzato in input per SplitsTree 4.6 (Huson e Bryant, 2006), utilizzando il network split decomposition, e per TOPALi 2. Il metodo usato per lindividuazione degli eventi di ricombinazione in TOPALi 2(Milne et al., 2004) è stato il Probabilistic Divergence Misure (PDM) con step size variabili tra 10 e 50 e windows size tra 500 e 2000, il valore di bootstrapping è stato impostato su 100. Le 9 sequenze sono state clusterizzate ed i rappresentanti di ogni gruppo (4) sono stati sottoposti ad analisi. Gli alberi filogenetici sono stati realizzati in TOPALI 2 con il metodo Jukes- Cantor + uniform rate model/neighbor joining, F81 come modello e gamma per il rate variation. LETTERATURA CITATA 1)Huson D.H. e Bryant D., Molecular Biology and Evolution, 23(2): , 2) Li K.B., Bioinformatics Application Note. 19 (12): 1585– ) Milne I., Wright F., Rowe G., Marshal D.F., Husmeier D. e McGuire G., 2004.Bioinformatics 20 (11): RISULTATI E DISCUSSIONE Attraverso limplementazione di ClustalW- MPI su rete GRID i tempi di analisi si riducono da oltre 100 minuti dellanalisi eseguita su PC con processore P4 1,7 Gh a 16 minuti utilizzando un cluster di 8 CPU (fig.1). Le elevate performance sono più evidenti in tool come TOPALi dove la riduzione dei tempi è stata di un fattore 6 utilizzando un cluster di 4 processori. Il tempo medio di analisi delle 9 sequenze di CTV su PC è intorno a 50 ore. Per quanto riguarda laspetto prettamente biologico, lapproccio filogenetico basato sulla fissione (Split) è maggiormente informativo rispetto alle rappresentazioni convenzionali (fig. 2) in quanto si producono grafi (fig. 3) che tengono conto degli eventi di ricombinazione riassumendo tutti gli alberi plausibili sulla base dei dati. Lidentificazione degli eventi di ricombinazione attraverso software con metodi come la misura della divergenza probabilistica ha prodotto risultati di rapida lettura, supportati da una contemporanea analisi statistica attraverso il bootstrapping. In figura 4 sono rappresentati come picchi gli eventi ricombinativi delle quattro sequenze rappresentanti e i reali rapporti filogenetici tra le sequenze partizionate. Tre eventi (linea tratteggiata) hanno statisticamente il 99% di confidenza che siano reali. DISTRIBUZIONE GRID fig. 2 fig. 4. fig. 1 fig. 3