La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ANALISI DEI DATI OLAP (On Line Analytical Processing) Data Warehousing Data Mining.

Presentazioni simili


Presentazione sul tema: "ANALISI DEI DATI OLAP (On Line Analytical Processing) Data Warehousing Data Mining."— Transcript della presentazione:

1 ANALISI DEI DATI OLAP (On Line Analytical Processing) Data Warehousing Data Mining

2 Il Sistema ideale DB DBMS A 1 A n A 2 Una sola base di Dati Una sola interfaccia di comunicazione sia verso il DB che verso le applicazioni

3 La situazione reale Non esiste una situazione stazionaria Cè una continua evoluzione dei parametri che influenzano la realizzazione e la vita di un DB: Esigenze Esigenze Strutture Strutture Tempi di realizzazione Tempi di realizzazione Non esiste ununica base di dati allinterno di una stessa organizzazione. Soluzioni: Eterogenee Eterogenee Distribuite Distribuite Autonome Autonome

4 Sistemi OLTP e OLAP (1) OLTP (On Line Transaction Processing) Sistemi per la gestione dei dati Sistemi per la gestione dei dati Utilizzo di un set di operazioni ben definito Utilizzo di un set di operazioni ben definito Bassa complessità delle operazioni Bassa complessità delle operazioni Le operazioni coinvolgono una piccola quantità di dati Le operazioni coinvolgono una piccola quantità di dati Continuo aggiornamento dei dati Continuo aggiornamento dei dati Generalmente viene utilizzato lo stato corrente di unapplicazione Generalmente viene utilizzato lo stato corrente di unapplicazione Devono essere rispettate le proprietà ACIDe (atomicità, correttezza, isolamento, durabilità) delle transazioni Devono essere rispettate le proprietà ACIDe (atomicità, correttezza, isolamento, durabilità) delle transazioni

5 Sistemi OLTP e OLAP (2) OLAP (On Line Analytical Processing): Sistemi per lanalisi dei dati Sistemi per lanalisi dei dati Permettono di eseguire operazioni non previste nella progettazione del DB (sistemi di supporto alle decisioni) Permettono di eseguire operazioni non previste nella progettazione del DB (sistemi di supporto alle decisioni) Operano su grosse moli di dati Operano su grosse moli di dati I dati sono statici (usualmente si utilizzano dati storici) I dati sono statici (usualmente si utilizzano dati storici) Operano su dati provenienti da più fonti eterogenee Operano su dati provenienti da più fonti eterogenee Le proprietà ACIDe non sono rilevanti perché le operazioni sono di sola lettura Le proprietà ACIDe non sono rilevanti perché le operazioni sono di sola lettura

6 Sistemi OLTP e OLAP (3) OLTP (On Line Transaction Processing) Sistemi per la gestione dei dati Sistemi per la gestione dei dati Utilizzo di un set di operazioni ben definito Utilizzo di un set di operazioni ben definito Bassa complessità delle operazioni Bassa complessità delle operazioni Le operazioni coinvolgono una piccola quantità di dati Le operazioni coinvolgono una piccola quantità di dati Continuo aggiornamento dei dati Continuo aggiornamento dei dati Generalmente viene utilizzato lo stato corrente di unapplicazione Generalmente viene utilizzato lo stato corrente di unapplicazione Devono essere rispettate le proprietà ACIDe (atomicità, correttezza, isolamento, durabilità) delle transazioni Devono essere rispettate le proprietà ACIDe (atomicità, correttezza, isolamento, durabilità) delle transazioni OLAP (On Line Analytical Processing): Sistemi per lanalisi dei dati Sistemi per lanalisi dei dati Permettono di eseguire operazioni non previste nella progettazione del DB (sistemi di supporto alle decisioni) Permettono di eseguire operazioni non previste nella progettazione del DB (sistemi di supporto alle decisioni) Operano su grosse moli di dati Operano su grosse moli di dati I dati sono statici (usualmente si utilizzano dati storici) I dati sono statici (usualmente si utilizzano dati storici) Operano su dati provenienti da più fonti eterogenee Operano su dati provenienti da più fonti eterogenee Le proprietà ACIDe non sono rilevanti perché le operazioni sono di sola lettura Le proprietà ACIDe non sono rilevanti perché le operazioni sono di sola lettura

7 Sistemi OLTP e OLAP (4) DB A1A1 A1A1 AnAn AnAn A2A2 A2A2 DW DWMS A1A1 A1A1 AnAn AnAn A2A2 A2A2 terminalisti analisti OLTP OLAP Terminalisti: utenti finali. Possono eseguire operazioni di lettura e di scrittura Analisti: Pochi utenti, occupano posizioni di alto livello nellimpresa e svolgono attività di supporto alle decisioni.

8 Data warehouse Utilizzano dati provenienti da più DB I meccanismi di importazione sono di tipo asincrono e periodico In tal modo non vengono penalizzate le prestazioni delle data source In tal modo non vengono penalizzate le prestazioni delle data source La warehouse non contiene dati perfettamente allineati con il flusso di transazioni negli OLTP Problema legato alla qualità dei dati: La semplice raccolta di dati può non essere sufficiente per una corretta analisi perché i dati possono contenere inesattezze, errori, omissioni La semplice raccolta di dati può non essere sufficiente per una corretta analisi perché i dati possono contenere inesattezze, errori, omissioni

9 Architettura della DW (1) Data Source Data Filter Export Data Source Data Filter Export Data Source Data Filter Export Acquisizione dei Dati Export dei dati Data mining Accesso ai Dati Allineamento dei Dati (refresh) DW

10 Architettura della DW (2) Data Source Data Filter Export Sorgenti dei dati per la DW. Possono essere di qualsiasi tipo, anche non gestite tramite DBMS oppure gestite da DBMS di vecchia generazione (legacy system). Controlla la correttezza dei dati prima dellinserimento nella warehouse. Può eliminare dati scorretti e rilevare o correggere eventuali inconsistenze tra dati provenienti da molteplici data source. Viene fatta la pulizia dei dati necessaria ad assicurare un buon livello di qualità. Lesportazione dei dati avviene in maniera incrementale: il sistema di esportazione colleziona solo le modifiche delle data source

11 Architettura della DW (3) Acquisizione dei Dati E responsabile del caricamento iniziale dei dati nella DW. Predispone i dati alluso operativo, svolge operazioni di ordinamento, aggregazione e costruisce le strutture dati della warehouse. In applicazioni con pochi dati il modulo è invocato periodicamente per acquisire tutto il contenuto della DW In genere,invece, i dati vengono allineati in modo incrementale, con il modulo successivo Allineamento dei Dati (refresh) Propaga incrementalmente le modifiche della data source in modo da aggiornare il contenuto della DW. Laggiornamento può essere effettuato tramite linvio dei dati o linvio delle transazioni. Nel primo caso allinterno delle data source vengono inseriti dei trigger che registrano cancellazioni, inserimenti e modifiche(coppie inserimento- cancellazione) in archivi variazionali. Nel secondo caso viene usato il log delle transazioni per costruire gli archivi variazionali.

12 Architettura della DW (4) Data mining Consente di svolgere ricerche sofisticate sui dati e di esplicitare relazioni nascoste tra i dati. Export dei dati Consente lesportazione dei dati da una DW ad unaltra. Architettura gerarchica. Accesso ai Dati E il modulo che si occupa dellanalisi dei dati. Realizza in maniera efficiente interrogazioni complesse caratterizzate da join tra tabelle, ordinamenti e aggregazioni complesse. Consente nuove operazioni come roll up, drill down e data cube.

13 Schema di una DW Ci si concentra su sottoinsiemi molto semplici dei dati aziendali che si vogliono analizzare (dati dipartimentali). Ogni schema elementare prende il nome di data mart. Ogni schema elementare prende il nome di data mart. Lorganizzazione dei dati di un data mart avviene secondo uno schema multidimensionale o schema a stella.

14 Schema a stella (1) Vendita prodotto supermercato tempo promozione (0,N) (1,1) Unità centrale rappresenta i fatti Diverse unità poste a raggiera intorno ai fatti rappresentano le dimensioni

15 Schema a stella (2) Varie relazioni uno a molti collegano ciascuna occorrenza di fatto con una ed una sola occorrenza di ciascuna delle dimensioni. La struttura regolare è indipendente dal problema considerato. (occorrono almeno due dimensioni altrimenti il problema degenera in una semplice gerarchia uno-molti) Un numero elevato di dimensioni è sconsigliato perché la gestione dei fatti e lanalisi si complicano.

16 Schema a stella: esempio (1) Vendita Amm Qta Prodotto: CodProd Nome Categoria Marca Peso Fornitore Supermercato: CodMarket Nome Città Regione Zona Dimensioni Tempo: CodTempo GiornoSett GiornoMese GiornoAnno SettimanaMese SettimanaAnno Promozione: CodPromo Nome Tipo Percentuale FlagCoupon DataInizio DataFina Costo Agenzia (0,N) (1,1) Ciascuna occorrenza di vendita ha per identificatore i quattro codici: CodProd CodMarket CodPromo CodTempo Gli attributi non chiave sono Amm e Qta.

17 Schema a stella: esempio (2) Nella dimensione del tempo sono presenti dati derivati e ridondanze. Le ridondanze servono per facilitare le operazioni di analisi dei dati. I fatti sono in forma normale di Boyce-Codd in quanto ogni attributo non chiave dipende funzionalmente dalla sua unica chiave. Le dimensioni sono in genere relazioni non normalizzate.

18 Schema a fiocco di neve Vendita Prodotto Supermercato Tempo Promozione (0,N) (1,1) Categoria (0,N)(1,1) Fornitore (0,N) Città (0,N) (1,1) Regione (0,N) (1,1) Giorno (0,N) (1,1) Evoluzione dello schema a stella, introdotta per strutturare gerarchicamente le dimensioni non normalizzate

19 ANALISI DEI DATI: OPERAZIONI 1) 1)Interfaccia standard di formulazione delle query 2) 2)Drill down e Roll up 3) 3)Data Cube

20 Lanalisi dei dati di un data mart organizzato a stella richiede lestrazione di un sottoinsieme dei fatti e delle dimensioni Le dimensioni vengono usate per selezionare i dati e per raggrupparli I fatti vengono tipicamente aggregati Il tutto avviene in base agli interessi degli analisti. INTERFACCIA STANDARD DI FORMULAZIONE DELLE QUERY(1)

21 Promozione.NomeProdotto.NomeTempo.MeseQtaAmm 3x2 Coupon 15% SuperSaverVinoPastaOlio Gen … Dic SuperSaver Pasta … Olio Feb … Apr Prodotto.NomeTempo.Mesesumsum SchemaOpzioni Condizioni Vista Attributi delle dimensioni: Promozione Prodotto Tempo Attributi dei Fatti: Aggregati (SUM) INTERFACCIA STANDARD DI FORMULAZIONE DELLE QUERY(2)

22 select Tempo.Mese, Prodotto.Nome, sum(Amm), sum(Qta) from Vendite, Tempo, Prodotto where Vendite.CodTempo = Tempo.CodTempo and Vendite.CodProdotto = Prodotto.CodProdotto and (Prodotto.Nome = Pasta or Prodotto.Nome = Olio) and Tempo.Mese between Feb and Apr and Promozione.Nome = SuperSaver group by Tempo.Mese, Prodotto.Nome order by Tempo.Mese, Prodotto.Nome Promozione.NomeProdotto.NomeTempo.MeseQtaAmm 3x2 Coupon 15% SuperSaverVinoPastaOlio Gen … Dic SuperSaver Pasta … Olio Feb … Apr Prodotto.NomeTempo.Mesesumsum SchemaOpzioni Condizioni Vista Tempo.meseProdotto.nomesum(Amm)sum(Qta) INTERFACCIA STANDARD DI FORMULAZIONE DELLE QUERY(3)

23 DRILL DOWN E ROLL UP(1) Il drill down permette di aggiungere una dimensione di analisi disaggregando i dati. Il roll up dualmente consente di eliminare una dimensione di analisi. Alternando operazioni di drill down e roll up lanalista può evidenziare la dipendenza dei fenomeni rappresentati nei fatti dai fatti delle varie dimensioni. Loperazione di roll up può essere fatta agendo sui risultati dellinterrogazione, quella di drill down richiede la riformulazione dellinterrogazione(servono dati non presenti nellinterrogazione).

24 DRILL DOWN E ROLL UP(2)Esempio: somma delle quantità vendute di pasta Tempo.meseProdotto.NomeSum(Qta) FebPasta 46 Kg MarPasta 50 Kg AprPasta 51 Kg Tempo.meseProdotto.NomeZonaSum(Qta)FebPastaNord18 FebPastaCentro15 FebPastaSud13 MarPastaNord18 MarPastaCentro18 MarPastaSud14 AprPastaNord18 AprPastaCentro17 AprPastasud16 ZonaProdotto.NomeSum(Qta)NordPasta 54 Kg CentroPasta 50 Kg SudPasta43Kg

25 DATA CUBE (1) Loperatore data cube permette di svolgere tutte le possibili aggregazioni presenti in una tabella estratta per lanalisi. Il valore polimorfo ALL(presente in tutti i domini e corrispondente allinsieme di tutti i possibili valori presenti nel dominio) viene usato per rappresentare laggregazione MarcaAnnoColoreVendite Ferrari1998rosso50 Ferrari1999rosso85 Porsche1998rosso80 select Marca, Anno, Colore, sum(Vendite) from Vendite where (Marca = Ferrari or Marca = Porsche) and Colore = Rosso and Anno between 1998 and 1999 group by Marca, Anno, Colore with cube

26 DATA CUBE (2) MarcaAnnoColoreSum(vendite) Ferrari1998Rosso50 Ferrari1999Rosso85 Ferrari1998ALL50 Ferrari1999ALL85 FerrariALLRosso135 FerrariALLALL135 Porsche1998Rosso80 Porsche1998ALL80 PorscheALLRosso80 PorscheALLALL80 ALL1998Rosso130 ALL1999Rosso85 ALLALLRosso215 ALL1998ALL130 ALL1999ALL85 ALLALLALL FerrariPorsche rosso ALL

27 DATA CUBE (3) I punti dello spazio rappresentano le possibili tuple. I tre piani cartesiani rappresentano le aggregazioni su una sola dimensione. Gli assi cartesiani rappresentano le aggregazioni su due dimensioni. Lorigine degli assi cartesiani rappresenta laggregazione di tutte e tre le dimensioni.

28 DATA CUBE (4) La complessità della valutazione del data cube cresce in modo combinatorio col crescere del numero degli attributi di raggruppamento. Per risolvere il problema è stata introdotta una nuova estensione di SQL (che la clausola with roll up), in cui le aggregazioni sono progressive. MarcaAnnoColoreSum(vendite) Ferrari1998Rosso50 Ferrari1999Rosso85 Porsche1998Rosso80 Ferrari1998ALL50 Ferrari1999ALL85 Porsche1998ALL80 FerrariALLALL135 PorscheALLALL80 select Marca, Anno, Colore, sum(Vendite) from Vendite where (Marca = Ferrari or Marca = Porsche) and Colore = Rosso and Anno between 1998 and 1999 with roll up

29 Data mining Ricerca di informazioni nascoste allinterno delle DW. Classici esempi sono quelli per le analisi di mercato, per lindividuazione di oggetti acquisiti assieme o in sequenza.

30 Il processo di data mining: Fasi 1.Comprensione del dominio. 2.Preparazione sul set di dati. Individuazione di un sottoinsieme dei dati della DW su cui effettuare il mining. 3.Scoperta dei pattern. Ricerca e individuazione di pattern ripetitivi tra i dati. 4.Valutazione dei pattern. Trarre implicazioni applicative dai pattern trovati. Valutazione degli esperimenti da compiere successivamente. 5.Utilizzo dei risultati. Prendere decisioni operative a seguito del processo di data mining.

31 Problemi di data mining (1) Regole di associazione. Scoprire associazioni ti tipo causa-effetto. Pannolini Birra e possibile definire in modo preciso le probabilità relative alle regole di associazione. e possibile definire in modo preciso le probabilità relative alle regole di associazione. supporto: probabilità che in una osservazione sia presente sia la premessa che la conseguenza di una regola. supporto: probabilità che in una osservazione sia presente sia la premessa che la conseguenza di una regola. confidenza: probabilità che in una osservazione sia presente la conseguenza di una regola essendo già presente la premessa. confidenza: probabilità che in una osservazione sia presente la conseguenza di una regola essendo già presente la premessa.

32 Problemi di data mining (2) Discretizzazione: viene rappresentato un intervallo continuo di valori tramite pochi valori discreti (es. alto, basso, medio) per preparare i dati. Classificazione: catalogazione di un fenomeno in una classe predefinita. Fa uso di algoritmi di classificazione (es. alberi decisionali)


Scaricare ppt "ANALISI DEI DATI OLAP (On Line Analytical Processing) Data Warehousing Data Mining."

Presentazioni simili


Annunci Google