Progettazione ed implementazione di un sistema di calcolo distribuito ibrido multithread/multiprocesso per HPC: applicazione allimaging medico Presentata da: Omar Schiaratura Relatore: Chiar.mo Prof. Renato Campanini Correlatore: Dott. Matteo Roffilli Omar
Omar OBBIETTIVI Gli obbiettivi del lavoro svolto sono stati: Implementazione HW di un sistema per il calcolo ad alte prestazioni con componentistica comune Implementazione e studio di metodologie per lottimizzazione di programmi Applicazione delle metodologie studiate ad un sistema computerizzato di diagnosi del tumore al seno (CAD)
Omar PROBLEMATICHE Sistemi reali come il CAD a cui sono state applicate le metodologie Studiate presentano caratteristiche quali: - Dimensioni delle immagini da elaborare elevate - Preprocessing dellimmagine computazionalmente oneroso Questo comporta: -Tempo di elaborazione non idoneo allutilizzo tipico dellapplicazione
CLUSTER : Progettazione 1 - HW Il cluster è stato implementato sul seguente HW: - Nodi slave biprocessore - Doppia rete 100 baseTX - Nodo master biprocessore - Nodi slave diskless Fault-tolerance, responsività elevata Comunicazioni veloci tra processori affini Ottimizzazioni SMP del codice Librerie di MP ottimizzate per SMP Diminuzione dei guasti Amministrazione semplificata Minor conflitto di pacchetti Amministrazione separata dai dati in transito Omar
CLUSTER : Progettazione 2 - SW I servizi di rete, tutti configurati sul nodo master comprendono: - TFTP - DHCP - ClusterNFS server Fornisce gli indirizzi IP delle 2 reti E servizio di risoluzione dei nomi Fornisce il kernel per il sistema operativo degli slave Fornisce il FS dei client Il software di sviluppo e per il clustering comprende: - Suite GCC - MPICH - openMosix - Mosixtools Tool di sviluppo e di debugging Schedulazione statica e MP SSI, migrazione dei processi e fault-tolerance Gestione centralizzata e monitoring del cluster Omar
CLUSTER : Progettazione 3 - schema
CaratteristicaBEOWULFOpenMOSIX FS distribuitoNOSI Migrazione processi in esecuzione Solo con software aggiuntivo SI Esecuzione BATCH su più nodi Solo con software aggiuntivo Limitatamente alle risorse di rete Fault tolleranceSolo con software aggiuntivo SI Assegnazione statica delle risorse SI, ogni porzione di programma viene eseguita su un processore diverso NO OverheadNelle trasmissioniTrasmissioni, system-call e migrazione Controllo selettivo dei nodiSIIn parte Beowulf Vs openMosix Omar Cluster MPI (8 CPU) Cluster + openMosix IPC (8 CPU) Speed-upTempo(sec.) Ottimizzazione Architettura
Valutazioni latenza trasmissioni allaumentare dei dati Omar
OTTIMIZZAZIONI Disponendo di un cluster di nodi SMP con processori a tecnologia SSE si hanno a disposizione le seguenti ottimizzazioni: - SWAR - SMP - MP Tipiche dei DSP Utilizzo di istruzioni SSE su processori x86 Processori con memoria condivisa Utilizzo di thread Supportata da tutte le architetture HPC Utilizzo di librerie MPI Omar
OTTIMIZZAZIONI : SSE 1 SRC DST OPCODEDST,SRC Omar
OTTIMIZZAZIONI : Processi Vs Thread clone() THREAD Omar PROCESSITHREAD
Ottimizzazioni : Schema algoritmo Omar THREAD SSE MPI
INPUT OUTPUT CPU2 CPU1 Ottimizzazioni – schema flusso dati Omar nodo3 NODO3
Test e valutazioni finali – applicazione CAD Omar Architettura SSE SMP (Thread) MPI (4+1 nodi) #CPUTempo (sec.) Speed- up Speed- up SSE AMD Athlon AMD Athlon X AMD Athlon X AMD Athlon XX Cluster A X Cluster A X X Cluster B XX Cluster B XXX
CONCLUSIONI E SVILUPPI FUTURI In definitiva è stato realizzato: - Un sistema HW a basso costo (5000,00) - Uno studio sullottimizzazione a più livelli dellarchitettura implementata Omar Le tecnologie studiate durante il lavoro di tesi trovano la loro naturale evoluzione sia HW che SW: - Embedded- DSP - Porting su SSE di tutti i calcoli FP - altre tecnologie SWAR - Porting su SSE2 - Kernel
A multi-level optimization architecture for a fast SVM classifier Omar 12-th Euromicro Conference on Parallel, Distributed and Network based Processing sottomesso a: A Coruña - Spain PDP2004 February, 11-13, 2004 Da questo lavoro di tesi ne è stato tratto il seguente articolo:
Progettazione ed implementazione di un sistema di calcolo distribuito ibrido multithread/multiprocesso per HPC: applicazione allimaging medico Presentata da: Omar Schiaratura Relatore: Chiar.mo Prof. Renato Campanini Correlatore: Dott. Matteo Roffilli Omar