Archiviazione dei dati Azienda sistema organizzazione decisioni informazione Sistema Informativo archivi / DBMS Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Archivio Raccolta organizzata di informazioni: logicamente correlate rappresentate con un formato preciso persistenti (memorizzazione su un supporto) organizzate per una facile consultazione Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Archivi - Operazioni creazione inserimento aggiornamento (modifica) cancellazione consultazione ordinamento (sort) fusione (merge) Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Struttura logica di un archivio (record logico) Campo (field): singolo valore che descrive una caratteristica dell’entità rappresentata; è descritto da attributi Record: l’insieme di tutti i campi che descrivono una entità Tracciato record: la descrizione ordinata dei campi di un record Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Struttura fisica di un archivio tipo supporto: nastro,disco, SSD, CD ecc. organizzazione: sequenziale? ad accesso diretto? tramite indici? dimensione iniziale ed incrementi successivi: aree temporanee di parcheggio in RAM dei blocchi da leggere/scrivere Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Periferiche e supporti Supporto: parte del dispositivo di memorizzazione ausiliario su cui vengono registrati i dati (hd, floppy, cd, dvd); NB: viene spesso confuso con la periferica che li usa (drive)! supporto Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Periferiche e supporti Drive: unità elettromeccanica in cui è inserito il supporto Controller: circuito elettronico che pilota il drive drive controller Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Periferiche e supporti Interfaccia: definizione di tutti i particolari meccanici, elettrici, gestione dei segnali, cavi di collegamento, connettori e protocollo di scambio dati USB, SATA, FireWire, Ethernet interfaccia DMA connettore Prof. Fabrizio Camuso – www.camuso.it slot apr. ’17
Periferiche e supporti Driver: programma che regola lo scambio di dati tra controller e interfaccia in risposta a richieste del sofware (di solito il S.O.) Ogni costruttore potrà realizzare dispositivi anche molto diversi come tecnologia ma con la certezza di poterli vendere a patto di fornire il relativo driver Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Struttura fisica di un record Blocco (record fisico): numero di bytes che la periferica usata per la memorizzazione è in grado di leggere/scrivere con una sola operazione Fattore di blocco: numero di record logici contenuti in un record fisico Buffers di I/O: aree temporanee di parcheggio in RAM dei blocchi da leggere/scrivere Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Parametri comuni: capienza nient’altro che bytes … (solo per il testo) ASCII / UNICODE / UTF-8 GB, TB, PB, EB, ZB, YB. Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Moltiplichiamo i multipli … GB = GigaByte = 230 bytes 1 miliardo L’abitacolo di un furgoncino riempito di fogli Una intera sinfonia in hi-fi 200 volte tutte le opere di Shakespeare L’intera enciclopedia britannica Tutto il genoma umano (ed avanza spazio) 9 metri di libri su uno scaffale Un solo film (1,5GB) in qualità broadcast … Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Moltiplichiamo i multipli … TB = TeraByte = 240 bytes 1000 GB = 1000 miliardi Una colonna di CD (senza custodia) alta 2 metri e mezzo Tutti i 350 episodi dei Simpson 50.000 alberi trasformati in carta 1 giorno di archivi di un motore di ricerca 45TB = tutti i video su YouTube (Agosto 2006) 150 TB = web indicizzato da Google, senza DataBase (Dic 2005) 274 TB = 1 anno di tutto l’Intant Messaging (2002). Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Moltiplichiamo i multipli … PB = PetaByte = 250 bytes 1000 TB = 1.000.000 GB Un milione di ore di televisione I dati su internet (2004) Una pila di CD alta 3 chilometri 500 miliardi di pagine stampate 20 PB = la capacità di tutti gli hd prodotti nel 1995 200 PB = tutto il materiale stampato esistente. Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Moltiplichiamo i multipli … EB = ExaByte = 260 bytes 1000 PB = un miliardo di GB 5 EB = tutta l’informazione prodotta nel 2002 12 EB = tutta la conoscenza mondiale (1999) 15 EB = tutte le telefonate effettuate nel mondo nel 2002 … ZB = ZettaByte = 1000 EB … YB = YottaByte = 1000 ZB Ma 1000 YB non sarebbero sufficienti a descrivere la posizione nello spazio di tutti gli atomi di un solo corpo umano … Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Il consumismo, anche qui! Bit di parità, CRC, Red-Solomon Formattazione supporti: cluster sui dischi o gap sui nastri Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Cluster e spreco di spazio Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Parametri comuni: tipo di accesso Sequenziale: il dispositivo che legge il supporto può spostarsi solo da un blocco al successivo A B C Random: il dispositivo può spostarsi tra due blocchi qualsiasi impiegando lo stesso tempo A B C Pseudo random / diretto / relative Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Parametri comuni - 2 Velocità di trasferimento (transfer rate): dipende dal dispositivo di memorizzazione e può o meno saturare la capacità teorica dell’interfaccia con cui è connesso al bus Velocità dell’interfaccia (controller) che collega la periferica al sistema (di solito non saturata da una singola unità di memorizzazione che la usa): Serial ATA 1/2/3 (150-300 / 600MB/sec) , SCSI 5-640 MB/sec), SAS (Serial Attached SCSI, punto punto: 3.0 Gbit e in futuro 6 Gbit/s) USB 2.0: 480 Mbit/s (v. 3.0: 4.8 Gbit/s); pen drive veloce = 30MByte FireWire (IEEE1394): 400 / 800 Mbit Fiber Optic (4 Gb/s) Ci dobbiamo quindi ‘preoccupare’ della saturazione del bus solo in configurazioni che usano più dispositivi in parallelo come nelle configurazioni RAID (un HD da 7200rpm singolo arriva infatti a ‘soli’ 60MB/sec). Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Parametri comuni: tempo medio di accesso (access time): tempo che intercorre tra il momento in cui un blocco viene richiesto al controller della periferica ed il momento in cui esso è pronto all’uso nel buffer (RAM) hard disk Consumer (5.000/7.200 rpm 10 ms) Pro (10.000/15.000 rpm, 3/4 ms) SSD: 0.1 ms !! Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Tempo Medio di Accesso (access time) Chipset (a) (b) (c) chipset Buffer (RAM) Tempo totale = (a) tempo che la meccanica (svogimento nastro, movimento testine/rotazione) + (b) tempo necessario per la trasmissione dei dati dal controller della periferica all’interfaccia sul PC cui è collegato (USB, SATA, ETHERNET, ecc.) (c) tempo necessario al chipset della scheda madre per trasferire i dati dall’interfaccia al buffer nella memoria centrale Note: a volte il controller della periferica è più veloce dell’interfaccia (come un disco SSD collegato all’USB o a SATA di prima generazione); oppure può essere vero il contrario (pen drive collegata all’USB); difficilmente il chipset diventa il collo di bottiglia che frena le periferiche (può capitare solo con più dischi veloci in RAID) + Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Tempo Medio di Accesso (esempio) Tempo totale = (a) Seek time (posizionamento braccio porta testine) + latency time (rotazione) + (b) trasmissione dal controller SATA all’interfaccia SATA + (c) tempo necessario al chipset della scheda madre per trasferire i dati Seek + latency CHIPSET D R I V E BUS Interfaccia SATA RAM controller Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Bus di sistema Esempio per FSB Banda passante (bandwidth): word (64bit) x freq. (400Mhz) x word trasferite per ciclo macchina (4) 12.8 GB/sec Questa diapositiva è collegata all’argomento Transfer Rate, cioè il numero di byte in un secondo che possono essere trasferiti dalla periferica ai bus dati. Nello odierne architetture dei personal computer lo scambio dati con le periferiche veloci è demandato ad un chip chiamato Northbridge che è collegato da una parte alla CPU tramite il Front Side Bus (FSB) e dall’altra alla RAM tramite il memory bus ed alle altre periferiche tramite collegate punto punto tramite collegamenti PCI Express (che ha ormai quasi del tutto sostituito le più lente PCI e AGP , quest’ultima dedicata alle schede video). Le interfacce più lente e/o via via in disuso (PCI, seriale, parallela, floppy disk, tastiera, mouse ecc.) sono invece collegate con un bus separato (LPC, Low Pin Count così chiamato dal numero di piedini tipicamente contenuto di queste interfacce) al Southbridge. La banda passante del FSB determina quindi il massimo flusso dati trasferibile nell’unità di tempo alle CPU sempre più veloci. Essa è determinata dal numero di bit per trasferimento (64 bit attualmente) moltiplicato per la frequenza del BUS (diciamo 400Mhz) e da quante word possono essere trasferite per ciclo di clock. Con l’attuale tecnologia Intel, denominata ‘quad pump’ per ogni ciclo di clock sono quattro i momenti in cui viene trasferito un blocco di dati: due sul fronte di ascesa del segnale di clock e due sul fronte di discesa quindi 4 blocchi da 64 bit per clock = 256 bit per ciclo; basta infine moltiplicare per la frequenza con cui viene fatto funzionare il FSB (400 * 106 ) per ottenere: 102400000000 bit cioè 12.8 GByte/sec. Attualmente solo le RAM DD3 più veloci possono saturare la capacità del FSB … E per quanto riguarda gli hard disk solo i più performanti superano i 100MByte/sec per cui non solo non viene sfruttata del tutto la velocità delle interfacce che collegano gli hard disk al bus ma ancor meno quella del FSB (vedi dati numerici sulle prossime slide) Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Parametri comuni - 3 Affidabilità durata supporto fault tolerance; MTBF sicurezza fisica: resistenza ad eventi naturali o dolosi; versioni ‘rugged’ o ‘tough’ dei dispositivi; RAID (più avanti) Nota: l’MTBF è solo uno degli aspetti da considerare per la fault tolerance Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Parametri comuni - 4 Compatibilità: con diversi S.O. Facilità d’uso / grado automazione Costi: separatamente per il drive ed i supporti, software, manutenzione Espandibilità (scalabilità) Nota: l’MTBF è solo uno degli aspetti da considerare per la fault tolerance Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Nastri (streaming tape) struttura e funzionamento Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Nastri (streaming tape) - 1 Piste = i bit (tracks) longitudinali (8+1 bit) Frame = i byte (latitudinali) Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Nastri – struttura geometria GAP Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Nastri - formati Bobine (volume) Cartucce Cartridge) Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Nastri - formati Cartridge. Bobine (volume) Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Impianti robotizzati Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Nastri - caratteristiche Tipo di accesso: sequenziale Capacità: 400 / 800 GB; si parla anche di BPI (Bits per Inch) Tempo medio di accesso: da secondi a minuti Transfer rate: decine MB/s Durata supporto: 30 / 100 anni Compatibilità: elevata MTBF drive: 105 ore Facilità d’uso: elevata Costi: bassi (30/50 € per 400/500 GB) Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Vantaggi / Svantaggi / Uso Alta capienza Poco ingombro Basso costo Alterabilità (ambiente) Lentezza nelle ricerche Backup Archivi storici Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Hard disk struttura e funzionamento testina Disk Pack Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Hard disk – geometria/1 Settore geometrico Settore di disco Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Hard disk – geometria/2 formattazione a basso livello (low level formatting) e formattazione ad alto livello (high level formatting) Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Hard disk - prestazioni Tipo di accesso: pseudo random Capacità: da alcune centinaia di GB ad alcuni TB Tempo medio di accesso: seek time (10 – 20 ms) + latency time (3 – 10 ms) Transfer rate: 40 – 150 MB/s Durata supporto: alcuni anni (necessita rinfresco) Compatibilità: elevata MTBF: 105 ore (da considerare insieme alla vita utile) Facilità d’uso: elevata Costi: bassi (100 € per 1 TB) USO supporto principale per il lavoro quotidiano Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Hard disk – evoluzione tecnologia Aumento densità per pollice quadro: testine sempre più vicine Piatti più piccoli -> maggiori RPM -> maggiori transfer rate Zone Bit Recording (ZBR): le tracce più esterne hanno più spazio e quindi possono accogliere più blocchi di dati; il disco è diviso in zone (gruppi di tracce contigue) con le zone più esterne con tracce contenenti più settori di quelle più interne. Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Hard disk – evoluzione tecnologia HAMR (un laser scalda la superficie che viene poi memorizzata): maggiore densità di registrazione (ci si aspetta fino a 100x) con speciali leghe metalliche (ad oggi un centinaio di Tbit/cm2) Perpendicular recording: maggiore densità registrazione (10x e oltre) Prof. Fabrizio Camuso – www.camuso.it apr. ’17
SSD Access time assai ridotto (0.01ms!) Transfer rate: da 300MB/s ad alcuni GB/s Minore capacità (da 64GB; TB a prezzi ‘folli’) Bassi consumi Minor peso e dispersione calore Nessun rumore USO Disco sistema, DB server, audio video Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Unità ottiche (CD / DVD / BR) Struttura e funzionamento Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Track (traccia – a spirale) 1 capello = 50 tracce ! Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Multi layers (DVD-BR) Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Unità ottiche (CD / DVD / BR) 1 o più layer / 1 o 2 facce 1 traccia a spirale Solido sistema di rilevazione e correzioni errori Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Unità ottiche (CD / DVD / BR) Stampati Master usati in una pressa masterizzati Prof. Fabrizio Camuso – www.camuso.it apr. ’17
CD / DVD / BR lettura / scrittura ROM WORM RW Laser ad una intensità Laser a due intensità Laser a tre intensità Prof. Fabrizio Camuso – www.camuso.it apr. ’17
CD / DVD CD / DVD standard - + Prof. Fabrizio Camuso – www.camuso.it apr. ’17
CD / DVD / BR - prestazioni Tipo di accesso: pseudo random ma seek lento Capacità: (bassa) 650/700 MB 4.7/17GB 25/50/200 GB Tempo medio di accesso: (alto) 100ms Transfer rate: (basso) 7-8 MB/sec Durata supporto: da 2-3 anni a 100 anni Compatibilità: elevata Facilità d’uso: elevata Costi: bassi USO Backup, distribuzione di massa di documentazione e software Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Sicurezza fisica dei dati Backup & restore UPS Fault Tolerance - 3 livelli di ridondanza: Mirroring (RAID) Duplexing Intero sistema Prof. Fabrizio Camuso – www.camuso.it apr. ’17
RAID 0 Scrittura contemporanea di diverse porzioni di uno stesso file su dischi diversi = VELOCITA? Maggior velocità Minor sicurezza (il crash di un disco comporta la perdita di TUTTI i dati) Dal punto di vista dell’utente è come avere un HD capiente come la somma delle capienze WOW!! Prof. Fabrizio Camuso – www.camuso.it apr. ’17
RAID 1 - mirroring Scrittura in contemporanea dello stesso blocco di dati su più dischi. Per perdere i dati devono andare in crash TUTTI i dischi. Minor velocità Maggior sicurezza Sacrificio di spazio: con N dischi ho a disposizione la capienza del minore. Prof. Fabrizio Camuso – www.camuso.it apr. ’17
RAID 0+1 Velocità e sicurezza unendo livello 0 e 1 Ma usando ovviamente un controller più sofisticato ed il doppio dei dischi. Bello ma caro! Prof. Fabrizio Camuso – www.camuso.it apr. ’17
Un compromesso tra velocità e sicurezza ad un costo più contenuto: un discreto grado di ridondanza usando un solo disco in più. Perdita di dati con crash contemporaneo di due dischi, altrimenti con una sola rottura ricostruisco i dati usando gli altri. RAID 4 Disco di parità possibile collo di bottiglia: più scritture contemporanee sui dischi non di parità comporta più scritture (che non possono essere contemporanee) su quello di parità. Prof. Fabrizio Camuso – www.camuso.it apr. ’17
RAID 5 Distribuendo le informazioni di parità su tutti i dischi, accettando quindi una gestione più complicata a carico del controller, evito di sovraccaricare un unico disco di parità come nel caso RAID 4. Prof. Fabrizio Camuso – www.camuso.it apr. ’17