Algoritmi Avanzati a.a.2011/2012 Prof.ssa Rossella Petreschi Simulazione di lettura e scrittura concorrente Tecnica dell’accelerated cascading Lezione n°3
2 Simulazione della lettura concorrente (caso generale) Problema: N processori P 1, P 2, …, P n vogliono leggere il contenuto di K celle di memoria (in generale K<N e non tutti i processori vogliono leggere dalla stessa locazione di memoria) su una P-RAM di tipo EREW. Algoritmo: Passo 1: si costruisca M, vettore di coppie del tipo (P i, L j ), ciascuna indicante che il processore i-esimo vuole leggere la j-esima locazione di memoria (i=0…N-1, j=1…K). Questo vettore viene ordinato in modo stabile, rispetto ai valori L j (la stabilità garantisce l’ordinamento delle coppie). Passo 2: si raggruppino i processori rispetto alla comune locazione di memoria a cui vogliono accedere, si individuino gli inizializzatori di ogni blocco e si conti il numero di elementi in ogni blocco. Passo 3: il primo processore di ogni blocco legge la locazione corrispondente e poi attiva un’operazione di broadcast sul blocco. Passo 4: tutti i processori in parallelo leggono l’informazione richiesta. AA
3 PASSI 1 e 2 Passo 1: for i = 0 to n-1 pardo P i :M[ i ] = (i, L j )// coppie (proc, loc) sort(M, loc); Passo 2: P 0 :iniz[ 0 ] = true; B[ 0 ] = 1 for i = 1 to n-1 pardo P i :if M[ i ].loc M[ i-1 ].loc then iniz[ i ] = true; B[ i ] = 1 else iniz[ i ] = false; B[ i ] = 0 PrefixSum(B, n) Il vettore B è utilizzato per identificare il blocco di appartenenza di ogni processore Proc Loc Proc Loc TFFTFT iniz B B AA
4 PASSO 3 Invece di eseguire K broadcast differenti (uno per blocco) si esegue un unico broadcast multiplo che tiene conto della separazione in blocchi Passo 3:// Broadcast multiplo for i = 0 to n-1 pardo P i :if iniz[ i ] then D[ i ] = contenuto di M[ i ].loc for j = 0 to log n -1 do for i = 0 to n-1 pardo P i :if iniz[ i ] and i+2 j <n and B[ i ] = B[ i+2 j ] then D[ i+2 j ] = D[ i ] iniz[ i+2 j ] = true TFFTFT iniz xyz D B xxyyz D xxxyyz D xxxyyz D AA
5 PASSO 4 Passo 4: for i = 0 to n-1 pardo // chi aveva richiesto l’i-esimo dato P i :R[ M[ i ].proc ] = D[ i ] // nel registro del proc i-esimo // si carica il dato voluto R i = R[ i ] Al termine ogni processore i avrà nel suo registro R il dato contenuto alla locazione L j inizialmente specificata. Tempo Parallelo: Passo 1: T sort Passo 2: T prefixsum Passo 3: logaritmico Passo 4: costante xxxyyz D Proc Loc yxxzyx R AA
6 Simulazione della scrittura concorrente (caso generale) Problema: N processori P 1, P 2, …, P n vogliono scrivere i valori a 1, a 2, …, a n rispettivamente, in K diverse celle di memoria di una P-RAM di tipo EREW. In generale K<N e si vuole simulare la concorrenza con priorità (scrive il processore di indice minore). Algoritmo: Idea analoga a quello visto per il caso generale di lettura concorrente Passo 1: si costruisca M, vettore di coppie del tipo (P i, L j ), ciascuna indicante che il processore i-esimo vuole scrivere nella j-esima locazione di memoria (i=0…N-1, j=1…K) il dato memorizzato nel vettore D (i-esima locazione). Questo vettore viene ordinato in modo stabile, rispetto ai valori di L j. Passo 2: si raggruppino i processori rispetto alla comune locazione di memoria a cui vogliono accedere e si individuino gli inizializzatori di ogni blocco. Passo 3: in ogni blocco, il processore di indice minore (il primo del blocco) scrive la sua informazione nella locazione di memoria caratterizzante il blocco. AA
7 Passo 1: analogo Passo 2: P 0 :iniz[ 0 ] = true for i = 1 to n-1 pardo P i :if M[ i ].loc M[ i-1 ].loc then iniz[ i ] = true else iniz[ i ] = false Passo 3: for i = 0 to n-1 pardo P i :if iniz[ i ] then scrivi D[ M[ i ].proc ] in M[ i ].loc Esempio di scrittura concorrente Proc Loc xyzabc D Proc Loc TFFTFT iniz y Memoria xa xyzabc D P3P3 P0P0 P5P5 AA
Tecniche algoritmiche parallele di base Tecnica della prima metà: ad ogni passo si dimezza il numero di elementi su cui si esegue la computazione. Si lavora nella prima metà del vettore che da dimensione n si riduce progressivamente a dimensione n/2, n/4, … fino a raggiungere la soluzione in O(log 2 n) passi.(es. somma di n elementi, ricerca del massimo) Tecnica del salto del puntatore: in O(log 2 n) passi si ottiene la soluzione raddoppiando ad ogni passo la distanza fra le coppie di elementi su cui si opera. (es. somme prefisse) Tecnica dell’accelerated cascading Tecnica del tour di eulero 8 AA
9 La tecnica del Accelerated Cascading Dato un problema P di dimensione n, siano A 1 e A 2 due algoritmi per risolvere il problema P che operano rispettivamente in tempo T 1 e T 2 (T 1 > T 2 ), si costruisce un nuovo algoritmo A nel seguente modo: 1.si applica a P l’algoritmo A 1 (A 1 lavora per fasi) fintanto che l’output delle fasi non produca una istanza P’ di P di dimensione minore di una soglia prefissata; 2.si applica a P’ l’algoritmo A 2 E’ da notare che invece di un solo algoritmo di riduzione A 1 si potrebbe avere una catena di algoritmi di questo tipo. In tal caso si considera la catena di algoritmi di riduzione ordinata dall’algoritmo più lento al più veloce e si costruisce il nuovo algoritmo sostituendo il passo1 con l’applicazione a P della catena così ordinata. AA
10 Somma con la tecnica dell’accelerated cascading L’algoritmo di somma parallelo con la tecnica della prima metà non è ottimo perché costa O(n log n) (ovvero n processori per log n tempo),mentre il miglior algoritmo sequenziale richiede tempo O(n). La tecnica dell’accelerated cascading ci permette di ridurre il costo dell’algoritmo parallelo a O(n) e quindi a raggiungere valore dell’efficienza uguale ad 1. La tecnica consiste nel dividere l’algoritmo in due fasi: 1° fase: si applica l’algoritmo sequenziale su k sotto-istanze del problema di piccola dimensione h in modo da ridurre la dimensione totale dello intero problema. Tempo parallelo O(h). 2° fase: si applica l’algoritmo parallelo con p processori sui k risultati del passo precedente. Tempo parallelo O(log k) Costo = O(p (h + log k)) AA
11 Algoritmo per la somma con la tecnica dell’Accelerated Cascading Si adoperano p processori SommaAC(A, n) begin k = p h = n/k for i = 0 to k-1 pardo P i : b i = i * h for j = 1 to h -1 do if b i + j < n then A[ b i ] = A[ b i ] + A[ b i + j ] B[ i ] = A[ b i ] Somma(B, k)// algoritmo di somma parallela standard end Tempo parallelo O(h + log k) AA
12 Esempio di somma con la tecnica dell’Accelerated Cascading n = 12 P = 4 size = P0P0 P1P1 P2P2 P3P ° fase sequenziale 2° fase parallela AA
13 Analisi dell’algoritmo SommaAC Per ottenere costo C p =O(n) e quindi Eff=1, dobbiamo scegliere O(n/log n) processori, assegnando a ciascuno O(log n) elementi da sommare sequenzialmente. La 1° fase pertanto richiede tempo paralello O(log n) per generare O(n/log n) elementi. Con O(n/log n) processori si opera con l’algoritmo di somma parallelo su gli O(n/log n) elementi, impiegando un tempo parallelo pari a: log (n/log n) = log n – log log n = O(log n) Costo totale = O(n/log n (log n + log n)) = O(n) AA
Somme prefisse con Accellerated Cascading Si adoperano k processori Per semplicità assumiamo n multiplo di k: n = h·k begin for i = 0 to k-1 pardo P i : b i = i * h // inizio blocco i-esimo for j = 1 to h -1 do A[ b i + j ] = A[ b i + j ] + A[ b i + j-1 ] B[ i ] = A[ b i + h-1 ] // l’ultimo del blocco PrefixSum(B, k) for i = 1 to k-1 pardo P i :for j = 0 to h -1 do A[ b i + j ] = A[ b i + j ] + B[ i-1 ] end Tempo parallelo O(h + log k) 14 AA