Valutazione delle prestazioni

Slides:



Advertisements
Presentazioni simili
Scheduling (Schedulazione) Susanna Pelagatti – Università di Pisa
Advertisements

Gestione della Memoria
Meccanismi di IPC Problemi classici di IPC
1 Introduzione ai calcolatori Parte II Software di base.
Gestione della memoria centrale
1 Processi e Thread Processi Thread Meccanismi di comunicazione fra processi (IPC) Problemi classici di IPC Scheduling Processi e thread in Unix Processi.
1 Processi e Thread Meccanismi di IPC, Inter Process Communication (1)
1 Processi e Thread Meccanismi di IPC (1). 2 Comunicazioni fra processi/thread Processi/thread eseguiti concorrentemente hanno bisogno di interagire per.
Architettura di un sistema informatico Hardware
Time Sharing Il termine “Time Sharing” proviene dall'inglese e significa letteralmente “partizione di tempo”. Questa è una tecnica sviluppatasi negli.
Scheduling della CPU Concetti fondamentali Criteri di scheduling
Scheduling della CPU Concetti di base Criteri di scheduling
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
Il Software: Obiettivi Programmare direttamente la macchina hardware è molto difficile: lutente dovrebbe conoscere lorganizzazione fisica del computer.
Architetture dei Calcolatori (Lettere j-z) Il Processore (2)
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
1 Introduzione Necessità Misura delle prestazioni affidabili per sistemi di calcolo sempre più vari ed applicazioni evolute Definizione di insieme di programmi.
1 Introduzione Sistema di calcolo (1) Valutazione delle prestazioni (2) Metriche oggettive (3)
1 Introduzione Ottimizzazione di un sistema (per es. di calcolo) (1) Analisi dellimpatto delle varie soluzioni possibili (2) Legge di Amdhal (3) Scelta.
1 Introduzione Il concetto di prestazione si presta facilmente a valutazioni soggettive, spesso fuorvianti Metriche di analisi oggettive sono utili per.
Tipo Documento: unità didattica 0 Modulo 0 Compilatore: ??? Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione C.Corpo D.Riepilogo.
2 Sistema composto da un numero elevato di componenti, in cui ogni componente svolge una sua funzione elaborazione dati memorizzazione dati trasferimento.
Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie.
Corso di Laurea in Biotecnologie Informatica (Programmazione)
1 Corso di Informatica (Programmazione) Lezione 4 (24 ottobre 2008) Architettura del calcolatore: la macchina di Von Neumann.
Corso di Informatica (Programmazione)
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.
Introduzione DSP. Trestino Cosmo Università degli studi di Padova Capitolo 1, Slide 2 Obiettivi della lezione Perché elaborare i segnali in digitale ?
Criticità sui dati (esempio da fare on line)
Criticità sul controllo
Criticità sul controllo
Struttura dei sistemi operativi (panoramica)
L. Servoli - Corso Fisica dei Dispositivi Elettronici 1 Uno scheduler deve avere implementate almeno le seguenti funzionalità: 1) Inizializzatore: preparazione.

3. Architettura Vengono descritte le principali componenti hardware di un calcolatore.
2) Sistemi operativi Lab. Calc. AA2004/05 - cap.2.
Sistemi Operativi SCHEDULING DELLA CPU.
Estensioni allarchitettura di Von Neumann Vito Perrone Corso di Informatica A per Gestionali.
Notazioni Asintotiche e Ordini di Grandezza delle funzioni
UNIVERSITA’ STUDI DI ROMA “FORO ITALICO”
UNIVERSITA’ STUDI DI ROMA “FORO ITALICO”
INTRODUZIONE l sistema operativo è il primo software che lutente utilizza quando accende il computer; 1)Viene caricato nella memoria RAM con loperazione.
Elementi di Informatica di base
Esercizio 10.* Un cassiere vuole dare un resto di n centesimi di euro usando il minimo numero di monete. a) Descrivere un algoritmo goloso per fare ciò.
Architettura del calcolatore
1 Il Sistema Operativo: Esempio n Le operazioni effettuate sembrano abbastanza semplici ma … n Provocano una serie di eventi in cui vengono coinvolte sia.
Esercitazioni I/O. Dischi: Esercizio 1 Si consideri un programma che legge blocchi di 2 KB da disco, esegue un’elaborazione su questi, e quindi li riscrive.
Arch. Elab. - S. Orlando 1 Esercitazione su Instruction Level Parallelism Salvatore Orlando.
1 Introduzione Sistema di calcolo + applicazioni Possibilità di effettuare confronti e stime dei tempi di esecuzione Metriche di misura delle prestazioni.
Architettura di una CPU
Arch. Elab. - S. Orlando 1 Progetto del processore e supporto del processore al SO (interruzioni – eccezioni) Salvatore Orlando.
I mercati dei beni e i mercati finanziari: il modello IS-LM
1 Introduzione Sistema di calcolo Valutazione dell’impatto delle varie modifiche sulle prestazioni globali del sistema Modifiche all’architettura.
1 Gestione della Memoria. 2 Idealmente la memoria dovrebbe essere –grande –veloce –non volatile Gerarchia di memorie –Disco: capiente, lento, non volatile.
Calcolatori Elettronici Il Processore
Informatica Lezione 5 Scienze e tecniche psicologiche dello sviluppo e dell'educazione (laurea triennale) Anno accademico:
Tipo Documento: unità didattica 3 Modulo 7 Compilatore: Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione C.Corpo D.Riepilogo.
Calcolatori Elettronici Valutazione delle Prestazioni Francesco Lo Presti Rielaborate da Salvatore Tucci.
Informatica Generale Marzia Buscemi
Il calcolatore Stefano Cagnoni e Monica Mordonini
Informatica Generale Marzia Buscemi
Hardware Struttura fisica (architettura) del calcolatore formata da parti meccaniche, elettriche, elettroniche.
Tipo Documento: unità didattica 3 Modulo 7 Compilatore: Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione C.Corpo D.Riepilogo.
Il Processore Il processore è la componente dell’unità centrale che elabora le informazioni contenute nella memoria principale L’elaborazione avviene eseguedo.
1 Introduzione Sistema di calcolo + applicazioni Possibilità di effettuare confronti e stime dei tempi di esecuzione Metriche di misura delle prestazioni.
I Microprocessori Unità 3 del libro Internet Working Sistemi e reti.
Transcript della presentazione:

Valutazione delle prestazioni Salvatore Orlando

Valutazione delle prestazioni L’approccio RISC ha semplificato l’ISA, ma ha anche portato a sviluppo di tecniche di ottimizzazione molto spinte nuova sensibilità per analisi più quantitative delle prestazioni dei sistemi Studieremo le modalità per misurare, descrivere e sintetizzare le prestazioni di un sistema hardware/software ci concentreremo prima sulle prestazioni della CPU

Valutazione delle prestazioni Nel misurare le prestazioni, dovremo anche considerare il software istruzioni che compongono i programmi tipi di riferimenti alla memoria operazioni di I/O Misurare oggettivamente le prestazioni è MOLTO DIFFICILE A cosa serve studiare le metriche per valutare le prestazioni? per fare buone scelte di progetto, anche software capire perché le prestazioni di un programma sono cattive, anche se l’algoritmo usato dovrebbe essere teoricamente ottimo fare buone scelte nell’acquisto di nuovo hardware, imparando a leggere e comparare le prestazioni

Valutazione delle prestazioni Questo studio dovrebbe rendere più semplice poter rispondere a domande del tipo: Perché può succedere che un sistema sia migliore di un altro per il programma A, e risulti invece peggiore per il programma B ? I fattori che influenzano le prestazioni sono relative all’hardware o al software? Es.: è meglio istallare un nuovo OS, o comprare una nuova macchina? Come può un certo set di istruzioni (RISC vs CISC) influenzare le prestazioni di una CPU? Come può l’uso di un nuovo compilatore influenzare le prestazioni di una CPU rispetto ad un certo insiemi di programmi?

Il problema delle metriche Aereo Posti Autonomia Velocità Portata (km) (km/h) (Pass. x km/h) Boeing 777 375 7450 980 367500 Boeing 747 470 6680 980 460600 BAC/Sud Concorde 132 6440 2170 286440 Douglas DC-8-50 146 14030 875 127750 Metriche diverse BAC/Sud Concorde è il più veloce (di quanto rispetto al DC-8?) Boeing 747 è più capiente (di quanto rispetto al 777?) Douglas DC-8-50 ha maggiore autonomia (di quanto rispetto al 747?) Nota la colonna Portata: è una misura che tiene conto sia della Capienza e sia della Velocità metrica utile usata se non siamo interessati a valutate la velocità di spostamento di un singolo passeggero, ma a valutare quanti passeggeri siamo in grado di spostare contemporaneamente a quella data velocità

Misure di prestazioni di un computer Tempo di esecuzione (latenza) — Quanto impiega il mio job ad essere eseguito a sistema scarico ? — Quanto tempo impiega una query di un database? Throughput (Banda di elaborazione) — Quanti job possono essere eseguiti assieme su una macchina? — Qual è il tempo di esecuzione medio? — Quanto lavoro viene completato in un certo tempo? Quali delle due misure viene influenzata se compriamo una nuova CPU? Diminuiamo tempo di esecuzione dei job e aumentiamo throughput se aggiungiamo un’altra workstation ad un laboratorio ? Aumentiamo il throughput, ma non il tempo di esecuzione Diminuiamo comunque tempo di risposta se ci sono molti job, e questi sono costretti a rimanere in coda  riduciamo le attese in coda tempo di risposta = tempo attesa in coda + tempo di esecuzione

Misure di prestazioni del computer ATTENZIONE: Il termine Performance (Prestazioni) è usato sia come misura generica della velocità di un computer “ …. per migliorare le prestazioni.. “ “ … provoca l’aumento delle prestazioni..” e sia (in questo corso) come sinonimo di Throughput Rispetto al Tempo di esecuzione, possiamo essere più precisi: Elapsed Time o Response Time (wall clock time) tiene conto di ogni cosa (accessi al disco (I/O), multiprogrammazione e attese nelle code (OS), ecc.), Tempo di CPU vogliamo distinguere rispetto ai tempi spesi per I/O e multiprogrammazione es.: comando UNIX time ( time <prog> ) 90.7u 12.9s 2:39 63% user system elapsed 100 * (90.7 + 12.9) / 159 CPU time CPU time time Il nostro primo obiettivo sarà quello di analizzare soltanto il tempo di CPU impiegato per l’esecuzione dei programmi utente (user CPU time) ovvero, senza considerare i codici dell’O.S., l’I/O, o altro Execution time = user CPU time

Performance, Execution time, Speedup Misuriamo il tempo di esecuzione (user CPU time) di un programma su una macchina X: Execution timeX Definiamo la Performance (throughput) come: PerformanceX = 1 / Execution timeX Se la macchina X è più veloce di Y a eseguire il programma Speedup = Execution timeY / Execution timeX = PerformanceX / PerformanceY = n "X è n volte più veloce di Y" Problema: la macchina A esegue un programma in 20 s la macchina B lo esegue in 25 s di quanto A è più veloce di B? Speedup = Exec Time maggiore / Exec time minore = 25/20  1.2

Cicli di clock Legame tra tempo di esecuzione e numero di cicli di clock per eseguire un programma CPU time (in sec.) = no. cicli  T Clock rate (Frequenza) = cicli al secondo (1 Hz. = 1 cycle/sec) Freq = 1/T (dove T è il periodo del ciclo di clock) T = 1 / Freq (sec.) Un clock a 200 Mhz. (200  106 Hz) ha un periodo T di clock uguale a Conoscendo no. di cicli per l’esecuz. di un programma, e frequenza del clock: CPU time (in sec.) = no. cicli / Frequenza in Hz durata/periodo del ciclo di clock in sec.

Miglioramento prestazioni CPU time (in sec.) = no. cicli  Periodo clock in sec. CPU time (in sec.) = no. cicli / Frequenza in Hz Per migliorare le prestazioni possiamo aumentare o diminuire __________ il # di cicli per eseguire un programma, oppure __________ il ciclo di clock (cycle time) oppure, detto in modo diverso, __________ la frequenza (clock rate). diminuire diminuire aumentare

Numero di cicli differenti per istruzioni differenti time Moltiplicazioni impiegano più tempo delle addizioni Operazioni FP impiegano più tempo delle operazioni su interi L’accesso alla memoria costa di più che accedere i registri Punto importante: se cambiamo il ciclo di clock (frequenza), spesso otteniamo, come effetto collaterale, la modifica del numero di cicli necessari per eseguire le varie istruzioni, dovuto agli accessi alla memoria ….. (approfondimenti nel seguito)

Esempio Per un dato programma da eseguire sul computer A conosciamo il tempo di CPU sul computer A: TA = 10 s la frequenza di clock del computer A: FreqA = 400 MHz Vogliamo costruire un computer B più veloce Il progettista può aumentare la frequenza di B, ma questo provoca l’incremento dei numero di cicli per l’esecuzione del programma (1.2 in più dei cicli necessari sulla macchina A). Di quanto dovremmo aumentare FreqB per garantire TB = 6 s ? TA = # cicli A / FreqA  no. cicli A = TA * FreqA = 10 * 400 * 106 TB = 1.2 * # cicli A / FreqB sostituendo: 6 = 1.2 * 4000 * 106 / FreqB  FreqB = 1.2 * 4000 * 106 / 6 Hz = 0.2 * 4000 MHz = 800 Mhz

Cicli di clock e prestazioni Per l’esecuzione di un programma (CPU time) necessari un certo # di istr. Macchina: IC (Instr. Count) un certo # di cicli: no. cicli un certo numero di secondi: Texe Texe = no. cicli / Freq = no. cicli * T no. cicli = IC * CPI CPI (cicli per istruzione) = no. cicli / IC CPI dipende dal mix di istruzioni Un’applicazione FP-intensive (istruzioni complesse) potrebbe avere un CPI più alto della media !! MIPS (milioni di istruzioni per secondo) = IC / (Texe * 106) i MIPS potrebbero essere più alti per programmi che usano istruzioni più semplici !! È una misura di throughput

Tempo di esecuzione e altre misure Siamo interessati al tempo di esecuzione (user CPU time) !! Le altre misure, prese singolarmente, potrebbero portarci a conclusioni errate nel valutare le prestazioni di un programma no. cicli per eseguire un programma IC = no. di istruzioni in un programma FREQ = no. di cicli per secondo CPI = no. medio di cicli per istruzione no. medio di istruzioni eseguite per secondo (es. MIPS) Esempio un programma viene compilato per la macchina A e viene eseguito. Viene quindi ricavata la misura di prestazioni in MIPS lo stesso programma viene compilato per la macchina B, e i MIPS calcolati sono maggiori di quelli della macchina A possiamo concludere che la macchina B è più veloce?

Esempio relativo al CPI Le macchine A e B implementano la stessa instruction set architecture (ISA). Macchina A ha un ciclo di clock di 10 ns. Macchina B ha un ciclo di clock di 20 ns. Per alcuni programmi: Macchina A ha CPI = 2.0 Macchina B ha CPI = 1.2 Quale macchina risulta più veloce per questo programma, e di quanto? Prima di risolvere il problema, rispondere al seguente quesito: se due macchine hanno lo stesso ISA, quale delle quantità seguenti sarà sempre identico ? frequenza, CPI, tempo di esecuzione, IC, MIPS Soluzione problema: TA = IC * CPIA * periodo di clockA = IC * 2 * 10 ns. TB = IC * CPIb * periodo di clockB = IC * 1.2 * 20 ns. Devo confrontare TA con TB: IC * 2 * 10 con IC * 1.2 * 20, da cui TB > TA Speedup = TB / TA = IC * 1.2 * 20 ns. / IC * 2 * 10 ns. = 2.4 / 2 = 1.2

Esempio relativo all’IC Per una certa implementazione di un’ISA, abbiamo 3 classi di istruzioni: Classe A: 1 ciclo di clock (CPI della classe A) Classe B: 2 cicli di clock (CPI della classe B) Classe C: 3 cicli di clock (CPI della classe C) Progettando un compilatore, nel tradurre una porzione di codice dobbiamo decidere tra due sequenze di codice macchina: 1a sequenza: 2 di A, 1 di B, e 2 di C (IC = 5) 2a sequenza: 4 di A, 1 di B, e 1 di C (IC = 6) Quale sequenza è più veloce, e di quanto? Qual è il CPI medio per ciascuna sequenza? no. cicli1 = 2*1+1*2+2*3=10 no. cicli2 = 4*1+1*2+1*3=9 poiché Freq è la stessa, la 2a sequenza è più veloce: Speedup = 10/9  1,1 per calcolare il CPI medio, dobbiamo guardare al mix di istruzioni… CPI1 = no. cicli1 / IC1 = 10 / 5 = 2 CPI2 = no. cicli2 / IC2 = 9 / 6 = 1.5

Esempio relativo ai MIPS Due compilatori differenti sono testati per una macchina a 100 MHz con tre classi di istruzioni differenti Classe A, B, e C, che richiedono 1, 2, e 3 cicli (rispettivamente). Il 1o compilatore genera un codice che usa 5 M di istruzioni di Classe A, 1 M di Classe B, e 1 M di Classe C Il 2o compilatore genera un codice che usa 10 M di istruzioni di Classe A, 1 M di Classe B, e 1 M di Classe C Quale sequenza sarà più veloce rispetto al tempo di esecuzione? # cicli1 = 5 M + 2 * 1 M + 3 * 1 M = 10 M T1 = # cicli1 / Freq = 10 M / 100 M = 0.1 s # cicli2 = 10 M + 2 * 1 M + 3 * 1 M = 15 M T2 = # cicli2 / Freq = 15 M / 100 M = 0.15 s Speedup = T2 / T1 = 1.5  Il 1o è l’ 1.5 più veloce del 2o Quale sequenza sarà più veloce rispetto ai MIPS? MIPS1 = IC1 / T1 = 7M / 0.1 = 70 MIPS MIPS2 = IC2 / T2 = 12 M / 0.15 = 80 MIPS  Il 2o sembra più veloce

Benchmarks Per misurare le prestazioni, è meglio eseguire applicazioni reali programmi che rappresentano un workload tipico spesso si usano programmi che rappresentano classi di applicazioni compilatori/editori, applicazioni scientifiche, grafica, ecc. i programmi considerati sono in formato sorgente, da compilare per le varie piattaforme si considerano implicitamente anche la bontà dei compilatori Piccoli benchmark (software kernel) sono comodi per i progettisti possono portare ad abusi SPEC (System Performance Evaluation Cooperative) insieme standard di programmi reali con relativi input stabiliti sulla base di accordo tra aziende ci possono essere ancora abusi gli SPEC sono considerati un indicatore significativo delle prestazioni di un hw (e della tecnologia di compilazione) Oltre alla CPU SPEC esistono altri benchmark SPEC …

SPEC ‘95 interi virgola mobile

SPEC 2000 - CINT gzip C Compression vpr C FPGA Circuit Placement and Routing gcc C C Programming Language Compiler mcf C Combinatorial Optimization crafty C Game Playing: Chess parser C Word Processing eon C++ Computer Visualization perlbmk C PERL Programming Language gap C Group Theory, Interpreter vortex C Object-oriented Database bzip2 C Compression twolf C Place and Route Simulator

SPEC 2000 - CFP wupwise Fortran 77 Physics / Quantum Chromodynamics swim Fortran 77 Shallow Water Modeling mgrid Fortran 77 Multi-grid Solver: 3D Potential Field applu Fortran 77 Parabolic / Elliptic Partial Diff. Equat. mesa C 3-D Graphics Library galgel Fortran 90 Computational Fluid Dynamics art C Image Recognition / Neural Networks equake C Seismic Wave Propagation Simulation facerec Fortran 90 Image Processing: Face Recognition ammp C Computational Chemistry lucas Fortran 90 Number Theory / Primality Testing fma3d Fortran 90 Finite-element Crash Simulation sixtrack Fortran 77 High Energy Nuclear Physics Accelerator Design apsi Fortran 77 Meteorology: Pollutant Distribution

CINT2006 (Integer Component of SPEC CPU2006) perlbench C Programming Language Derived from Perl V5.8.7. bzip2 C Compression gcc C C Compiler mcf C Combinatorial Optimization gobmk C Artificial Intelligence hmmer C Search Gene Sequence sjeng C Artificial Intelligence: chess libquantum C Physics / Quantum Computing h264ref C Video Compression omnetpp C++ Discrete Event Simulation astar C++ Path-finding Algorithms (2D maps) xalancbmk C++ XML Processing

CFP2006 (Floating Point Component of SPEC CPU2006) bwaves Fortran Fluid Dynamics gamess Fortran Quantum Chemistry milc C Physics / Quantum Chromodynamics zeusmp Fortran Physics / Computationalfluid dynamics gromacs C,Fortran Biochemistry / Molecular Dynamics cactusADM C,Fortran Physics / General Relativity leslie3d Fortran Computational Fluid Dynamics (CFD) namd C++ Biology / Molecular Dynamics dealII C++ Finite Element Analysis soplex C++ Linear Programming, Optimization povray C++ Image Ray-tracing calculix C,Fortran Structural Mechanics GemsFDTD Fortran Computational Electromagnetics tonto Fortran Quantum Chemistry lbm C Fluid Dynamics wrf C,Fortran Weather modeling sphinx3 C Speech recognition

Misure sintetiche per insiemi di benchmark Nel confrontare piattaforme che eseguono un mix di programmi, può succedere che una piattaforma risulti migliore di un’altra rispetto all’esecuzione di un certo programma, e peggiore rispetto ad un altro programma. Abbiamo bisogno di un indice complessivo rispetto alle prestazioni misurate per un certo mix di programmi Media aritmetica (pesata) dei tempi di esecuzione dei vari programmi su una certa macchina Media geometrica (pesata) ancora dei tempi di esecuzione

SPECint e SPECfp Spec ratio SPECint e SPECfp fanno rispettivamente riferimento all’esecuzione del mix di programmi (interi o a virgola mobile) per l’elaborazione intera o FP Gli indici SPEC danno un’indicazione complessiva del comportamento del mix i programmi su una data piattaforma indici ottenuti come media geometrica invece di usare direttamente i tempi di esecuzione, i valori su cui si fa la media sono normalizzati rispetto ai tempi di esecuzione su una macchina di riferimento (vecchia). I valori di Trefi sono relativi a una 296 MHz UltraSPARC II processor (SPEC 2000 and 2006) Sun SPARCstation 10/40 (SPEC 95) precedentemente si usava il Dec VAX-11/780 in pratica si tratta di una media geometrica sui vari valori di Speedup l’uso degli Speedup nella media evita che programmi di benchmark computazionalmente più costosi abbiano un’influenza maggiore sull’indice complessivo calcolato Spec ratio

SPEC ‘95 Cosa succede raddoppiando solo la frequenza del clock? I valori degli SPEC non raddoppiano ! Questo è soprattutto dovuto all’aumentato CPI, causato anche dai ritardi negli accessi alla memoria Memoria costituisce il von Neumann bottleneck Nota che macchine con frequenza di clock minore possono risultare migliori succede se il CPI è più basso (riduzione CPI dovuta a migliorie nelle tecniche di compilazione o nell’architettura interna della CPU), oppure se il compilatore riesce a diminuire il numero di istruzioni eseguite

Legge di Amdahl Questa semplice legge fissa un limite agli incrementi di prestazioni ottenibili (Speedup) quando introduciamo delle ottimizzazioni Supponiamo che le ottimizzazioni siano in grado di ridurre solo una parte del tempo totale di esecuzione originale Texe: 1/s Texe : frazione di Texe non modificata dalle ottimizzazioni (1- 1/s) Texe : frazione di Texe ridotta tramite le ottimizzazioni n : fattore del miglioramento ottenuto tramite le ottimizzazioni Legge di Amdahl: Tott = 1/s Texe + ((1- 1/s) Texe) / n La legge di Amdahl fissa un limite allo speedup massimo ottenibile se l’ottimizzazione è molto consistente, n diventa molto grande, per cui possiamo approssimare: Tott  1/s Texe il massimo Speedup ottenibile (per n molto grande): Speedupmax = Texe / (1/s Texe) = s Corollario alla legge di Amdahl (motivazione CPU RISC): è meglio rendere più veloce i casi più comuni (es. le istruzioni più usate, per la cui esecuzione si impiega la maggior parte di Texe)

Esempio di applicazione di Amdahl Un programma viene eseguito in 100 s su una macchina. Di questo tempo, 80 s sono usati per le moltiplicazioni. Di quanto dobbiamo incrementare la velocità delle moltiplicazioni se vogliamo che il programma sia 4 volte più veloce? Se Tott deve risultare uguale a 1/4 Texe Applicando la legge di Amdahl: Tott = 1/s Texe + ((1- 1/s) Texe) / n 0.25 Texe = 0.2 Texe + (0.8 Texe) / n 0.25 100 = 0.2 100 + (0.8 100) / n 25 = 20 + 80/n n = 80/5 = 16 Incrementando solo la velocità delle moltiplicazioni, qual è lo speedup massimo teorico? ottimizzando al massimo, potremmo pensare che il tempo per le moltiplicazioni tenda a 0, ovvero che 0.8 Texe / n  0 quindi, Tott = 0.2 Texe = 20 da cui Speedupmax = Texe/Tott = 100/20=5

Considerazioni finali La misura delle prestazioni su una data piattaforma è significativa se è relativa allo specifico programma se è basata sul tempo totale di esecuzione effettivo Rispetto ad una data ISA gli incrementi delle prestazioni derivano da incremento della frequenza del clock (se questo non aumenta considerevolmente il CPI) miglioramento dell’organizzazione del processore per abbassare il CPI miglioramenti del compilatore per ridurre CPI medio o IC Bisogna imparare a leggere le pubblicità che riguardano le prestazioni dei computer diffidare ad esempio di pubblicità che riguardano i MIPS o i MFLOPS/GFLOP di picco prestazioni di picco ottenibili solo con programmi non significativi, che dovrebbero eseguire una sequenza lunga di istruzioni corte (con CPI piccolo), tutte indipendenti, senza accessi alla memoria

Confronto tra architetture a singolo e a multi ciclo Con le nozioni precedenti sulla valutazione delle prestazioni, possiamo confrontare le due architetture, a singolo e a multi-ciclo, descritte nel cap. 5 Singolo ciclo CPI =1 Ciclo di clock (periodo) = 8 ns calcolato sulla base dell’istruzione più “costosa”: lw Texe= IC * CPI * Periodo_clock = IC * 8 ns Multi ciclo: necessario conoscere la frequenza delle varie istruzioni lw CPI0=5 presenti nel 22% IC sw CPI1=4 presenti nel 11% IC R-type, CPI2=4 presenti nel 49% IC branch CPI3=3 presenti nel 16% IC jump CPI4=3 presenti nel 2% IC CPIavg = 0.22 CPI0 + 0.11 CPI1 + 0.49 CPI2 + 0.16 CPI3 + 0.02 CPI4 = 0.22 * 5 + 0.11 * 4+ 0.49 * 4 + 0.16 * 3 + 0.02 * 3 = 4.04 Texe= IC * CPIavg * Periodo_clock = IC * 4.04 * 2 ns = IC * 8.08 ns

CPIavg = 0.22 CPI0 + 0.11 CPI1 + 0.49 CPI2 + 0.16 CPI3 + 0.02 CPI4 = 0.22 * 5 + 0.11 * 4+ 0.49 * 4 + 0.16 * 3 + 0.02 * 3 = 4.04 Texe= IC * CPIavg * Periodo_clock = IC * 4.04 * 2 ns = IC * 8.08 ns equivalente a: Texe= (22% * IC * CPI0 + 11% * IC * CPI1 + 49% * IC * CPI2 + 16% * IC * CPI3 + 2% * IC * CPI4) * Periodo_clock = IC * (0.22 CPI0 + 0.11 CPI1 + 0.49 CPI2 + 0.16 CPI3 + 0.02 CPI4) * Periodo_clock = IC * 4.04 * 2 ns = IC * 8.08 ns