ON LINE ANALYTICAL TRANSACTION PROCESSING (OLAP)

Slides:



Advertisements
Presentazioni simili
PER UNA RILEVAZIONE PRESENZE VELOCE ED EFFICACE
Advertisements

6. Architetture e paradigmi per l’analisi dei dati
Dall’OLTP all’OLAP La tecnologia delle basi di dati è finalizzata prevalentemente alla gestione dei dati in “linea”, si parla di OnLine Transaction Processing.
Tecnologia delle basi di dati: Strutture fisiche di accesso
Introduzione alla tecnologia OLAP: Microsoft SQL Analisys Services
Introduzione al datawarehouse
IL SISTEMA INFORMATICO PER I VARI LIVELLI AZIENDALI
1 LAnagrafe Comunale SOR e i Cruscotti per il Recupero dellEvasione Progetti ELI-CAT e ELI-FIS Gestione digitale integrata dei servizi locali in materia.
Il Data Warehouse di Analisi Locale e
Biglietti e Ritardi: schema E/R
“PROGETTO ED IMPLEMENTAZIONE DI UN SISTEMA DI BUSINESS INTELLIGENCE
Data warehousing con SQL Server
Il Sistema ideale DB DBMS Una sola base di Dati
ANALISI DEI DATI OLAP (On Line Analytical Processing) Data Warehousing Data Mining.
Imprenditorialità e managerialità
Basi di Dati prof. A. Longheu
DATAWAREHOUSE - Microstrategy
Luglio 2003Business Intelligence1 BUSINESS INTELLIGENCE Luglio 2003.
L’uso dei database in azienda
Tipo Documento: unità didattica 4 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI
FONDAMENTI DI INFORMATICA III A2-1 CARATTERISTICHE E MODELLIZZAZIONE DEL LAVORO DUFFICIO Argomento 2.6 CARATTERISTICHE E MODELLIZZAZIONE DEL LAVORO DUFFICIO.
Basi di dati. Vantaggi degli archivi digitali Risparmio di spazio: sono facilmente trasferibili e duplicabili Risparmio di tempo: si può accedere ai dati.
Cenni sulla Business Intelligence
FONDAMENTI DI INFORMATICA III A2-1 CARATTERISTICHE E MODELLIZZAZIONE DEL LAVORO DUFFICIO Argomento 2.3 CARATTERISTICHE E MODELLIZZAZIONE DEL LAVORO DUFFICIO.
Daniel Stoilov Tesi di Laurea
A.Natali DL Maggio1999 Oggetti Concetti fondamentali.
DBMS ( Database Management System)
Economia e Organizzazione Aziendale - CdL Comunicazione Digitale (11)
Esercitazione su Analisi OLAP
Integrazione dei dati e reportistica avanzata in SURplus: un esempio
Data Warehouse - Progettazione
INFORMATICA Corso Base Modulo G: I DataBase  Access.
UNIVERSITA’ POLITECNICA DELLE MARCHE
DAGLI ARCHIVI AI DATABASE
Il ciclo finanziario dell’impresa
MODELLO LOGICO DEI DATI
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
1 w w w. g a t 4. c o m WI GAT WebIngelligence rappresenta una piattaforma funzionale e tecnologica per la creazione e gestione di un datawarehouse che.
Realizzato da Roberto Savino
EIPASS MODULO 5 Access 2007.
Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Programma del Corso.
1 Data warehousing con SQL Server SQL Server è un RDBMS (Relational DataBase Management System) Analysis Services è un componente di SQL Server che offre.
1 Business Intelligence L’infrastruttura a cui affidarti per fare le scelte giuste. ebusiness day – Cc-Ti Lugano 27 febbraio 2013 Raffaele Calabrese Solution.
IV D Mercurio DB Lezione 1
Cloud SIA V anno. Introduzione ai Data Warehouse.
Tipo Documento: unità didattica 4 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
SCHEDA INFORMATIVA DI UNITÀ
Progettazione Logica Il prodotto della progettazione logica è uno schema logico che rappresenta le informazioni contenute nello schema E-R in modo corretto.
Sistemi di supporto alle decisioni aziendali Obiettivi generali del corso.
Policy making condiviso nelle organizzazioni pubbliche: il ruolo della funzione centrale Personale e Organizzazione.
1 Business Intelligence Franco Perduca Factory Software Analysis Service Introduzione.
Datawarehouse Architetture, strumenti ETL, modelli dei dati
Kick off GeoPKDD - Pisa, Data Warehouse Spaziali idee preliminari maria luisa damiani dico - milano.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
By: Powered by:. Tecnologia Microsoft La soluzione CCAnalyzer utilizza la tecnologia OLAP (On Line Analytical Processing) di Microsoft presente nel software.
Roma, 17 novembre 2003 Paolo Soriani 1 Paolo Soriani L’introduzione del controllo di gestione nelle amministrazioni I sistemi informativi Programmazione.
Riunione conclusiva della prima fase del progetto Dipartimento di Scienze dell’Ingegneria dell’Università di Modena e Reggio Emilia.
Le parti del Sistema Informativo Aziendale
DATA MINING.
Business Intelligence
Economia e Organizzazione Aziendale
1 Business Intelligence L’infrastruttura a cui affidarti per fare le scelte giuste. ebusiness day – Cc-Ti Lugano 27 febbraio 2013.
ICT e Sistemi informativi Aziendali Materiale di supporto alla didattica.
LEZIONE PRELIMINARE 1 F.A.Q.. Perché economia e gestione delle imprese?
Access Breve introduzione. Componenti E’ possibile utilizzare Access per gestire tutte le informazioni in un unico file. In un file di database di Access.
Le informazioni strategiche dell’Azienda Business Intelligence.
I DONEITÀ DI C ONOSCENZE E C OMPETENZE I NFORMATICHE ( A – D ) Un database è un insieme di record (registrazioni) e di file (archivi) organizzati per uno.
Data warehouse(B.2.8) Nei database ci sono molti dati di tipo diverso e ciascuna tipologia di dato può avere un formato diverso. Alcuni provengono da legacy.
DDBMS Distributed database system. DDB Una base di dati distribuita è una collezione di dati che appartengono logicamente allo stesso sistema informativo.
Transcript della presentazione:

TECNOLOGIE PER I SISTEMI DI SUPPORTO ALLE DECISIONI

ON LINE ANALYTICAL TRANSACTION PROCESSING (OLAP) DATA WAREHOUSE SCOPERTA DI CONOSCENZA E DATA MINING

ON LINE ANALYTICAL TRANSACTION PROCESSING (OLAP)

ON LINE TRANSACTION PROCESSING (OLTP) SONO APPLICAZIONI TIPICHE DELL’ELABORAZIONE DI DATI GESTIONALI (EDP) LE TRANSAZIONI DEVONO AVERE PROPRIETA’ ACID STRUTTURATE E RIPETITIVE BREVI E ISOLATE I DATI DEVONO ESSERE DETTAGLIATI E AGGIORNATI E L’ACCESSO AVVIENE PER LO PIU’ MEDIANTE LA CHIAVE PRIMARIA LE DIMENSIONI DELLE BASI DI DATI VARIANO TRA 102 MBYTE E 10 GBYTE LA PRINCIPALE METRICA DI PRESTAZIONE E’ IL THROUGHPUT DELLE TRANSAZIONI

ON LINE ANALYTICAL PROCESSING (OLAP) SONO APPLICAZIONI TIPICHE DEI SISTEMI DI SUPPORTO ALLE DECISIONI IL CARICO E’ FORMATO DA INTERROGAZIONI MOLTO COMPLESSE CHE ACCEDONO A MILIONI DI RECORD I DATI SONO DI TIPO STORICO, AGGREGATI A PARTIRE DA VARIE FONTI LE DIMENSIONI DEI DATI RAGGIUNGONO FACILMENTE IL TBYTE LE PRESTAZIONI CONSIDERATE SONO IL THROUGHPUT DELLE INTERROGAZIONI E IL LORO TEMPO DI RISPOSTA

MODELLI DEI DATI PER OLAP DEVONO SUPPORTARE ANALISI E CALCOLI SOFISTICATI SU DIVERSE DIMENSIONI E GERARCHIE IL MODELLO LOGICO DEI DATI PIU’ ADATTO E’ UNA STRUTTURA MULTIDIMENSIONALE - IL DATA CUBE LE DIMENSIONI DEL CUBO SONO COSTITUITE DAGLI ATTRIBUTI SECONDO I QUALI SI VOGLIONO FARE LE RICERCHE (CHIAVI) OGNI DIMENSIONE PUO’ RAPPRESENTARE A SUA VOLTA UNA GERARCHIA DATA {GIORNO - MESE - TRIMESTRE- ANNO} PRODOTTO {NOME - TIPO - CATEGORIA} (LAND ROVER - FUORISTRADA - AUTOVEICOLI) LE CELLE DEL CUBO CONTENGONO I VALORI METRICI RELATIVI AI VALORI DIMENSIONALI

MODELLI LOGICI DEI DATI PER OLAP ESEMPIO PER UNA COMPAGNIA DI ASSICURAZIONI ETA’ ANNO TIPO NUMERO DI POLIZZE, VALORE DEI PREMI DIMENSIONI VALORI METRICI <20 20-30 30-40 40-50 50-60 60-70 70-80 >80 1990 1991 1992 1993 1994 1995 1996 1997 RC-AUTO FURTO-INCENDIO RC-FAMIGLIA MALATTIE-VITA

OPERAZIONI OLAP ROLL-UP (ACCUMULARE) DRILL-DOWN (PERFORARE) AUMENTA IL LIVELLO DI AGGREGAZIONE DEI DATI DRILL-DOWN (PERFORARE) AUMENTA IL LIVELLO DI DETTAGLIO DEI DATI SLICE-AND-DICE (AFFETTARE E TAGLIARE A CUBETTI) SELEZIONA E PROIETTA RIDUCENDO LA DIMENSIONALITA’ DEI DATI PIVOTING (FAR PERNO) SELEZIONA DUE DIMENSIONI ATTORNO ALLE QUALI AGGREGARE I DATI METRICI RANKING (ATTRIBUIRE UNA CLASSE DI MERITO) ORDINA I DATI SECONDO CRITERI PREDEFINITI OPERAZIONI TRADIZIONALI (SELEZIONE, ATTRIBUTI CALCOLATI, ECC.)

OPERAZIONI OLAP ANNO TIPO ETA’ MESE DRILL-DOWN ROLL-UP

OPERAZIONI OLAP TIPO ETA’ ANNO PIVOTING

OPERAZIONI OLAP ANNO TIPO ETA’ SLICE AND DICE

DATA WAREHOUSE

DATA WAREHOUSE (DW) TECNICA PER ASSEMBLARE E GESTIRE CORRETTAMENTE DATI PROVENIENTI DA SORGENTI DIVERSE AL FINE DI OTTENERE UNA VISIONE DETTAGLIATA DI UN SISTEMA ECONOMICO E’ UNA RACCOLTA DI DATI INTEGRATA PERMANENTE VARIABILE NEL TEMPO ORIENTATA AD UN PRECISO ARGOMENTO A SUPPORTO DI DECISIONI MANAGERIALI E’ L’ELEMENTO DI SEPARAZIONE TRA I CARICHI DI LAVORO OLTP E QUELLI DSS (OLAP)

? ? STRUTTURA DI UN DW 1 +1 = 3 DATABASE 1 WAREHOUSE AZIENDALE LEGACY FILE SPARSI WAREHOUSE DIPARTIMENTALE COSTRUZIONE DEL REPLICAZIONE E PROPAGAZIONE KNOWLEDGE DISCOVERY E DATA MINING ACCESSO E GESTIONE DELL’INFORMAZIONE 1 +1 = 3 ? ?

COSTRUZIONE DEL WAREHOUSE I DATI PROVENGONO DA SORGENTI DIVERSE E “SPORCHE” SISTEMI LEGACY NON DOCUMENTATI SISTEMI DI PRODUZIONE SENZA CHECK DI INTEGRITA’ INTERNI SORGENTI ESTERNE CON DUBBIE CARATTERISTICHE DI QUALITA’ E’ INDISPENSABILE RESTITUIRE LA QUALITA’ AI DATI PER POTERVI BASARE DECISIONI AFFIDABILI

COSTRUZIONE DEL WAREHOUSE STRUMENTI PER LA QUALITA’ DEI DATI PER LA MIGRAZIONE TRASFORMANO E RIFORMATTANO I DATI DALLE DIVERSE FONTI PER LA PULIZIA (SCRUBBING) USANO LA CONOSCENZA DEL DOMINIO PER PULIRE E OMOGENEIZZARE PER IL CONTROLLO (AUDITING) SCOPRONO REGOLE E RELAZIONI TRA I DATI E NE VERIFICANO IL RISPETTO STRUMENTI PER IL CARICAMENTO DEI DATI VERIFICANO VIOLAZIONI DI INTEGRITA’ REFERENZIALE ORDINANO, AGGREGANO, COSTRUISCONO DATI DERIVATI COSTRUISCONO INDICI E ALTRI PERCORSI DI ACCESSO COSTITUISCONO UN CARICO BATCH MOLTO PESANTE NECESSITA’ DI PARALLELIZZARE O RENDERE INCREMENTALE L’OPERAZIONE DI CARICAMENTO

COSTRUZIONE DEL WAREHOUSE CARICAMENTO INCREMENTALE ATTUATO DURANTE L’AGGIORNAMENTO CARICANDO SOLO LE TUPLE NUOVE O MODIFICATE ENTRA IN CONFLITTO CON IL FUNZIONAMENTO ORDINARIO RICHIEDE TRANSAZIONI CORTE (<1000 RECORD) NECESSITA DI COORDINAMENTO PER GARANTIRE LA CONSISTENZA DEGLI INDICI E DEI DATI DERIVATI AGGIORNAMENTO VIENE FATTO PERIODICAMENTE IN BASE ALLE ESIGENZE APPLICATIVE USO DI SERVER DI DUPLICAZIONE PER SPEDIZIONE DI DATI: USANO TRIGGER PER AGGIORNARE, AD OGNI VARIAZIONE DELLA TABELLA SORGENTE, UNA TABELLA LOG DI SNAPSHOT, CHE VIENE QUINDI PROPAGATA PER SPEDIZIONE DI TRANSAZIONI: VIENE MONITORATO IL LOG STANDARD E LE VARIAZIONI SULE TABELLE REPLICATE VENGONO TRASFERITE AL SERVER DI DUPLICAZIONE.

METODOLOGIA DI PROGETTAZIONE DI UN DW ANALISI DEI DATI IN INGRESSO SELEZIONE DELLE SORGENTI INFORMATIVE RILEVANTI TRADUZ. IN MODELLO CONCETTUALE DI RIFERIMENTO (E-R) ANALISI DELLE SORGENTI INFORMATIVE IDENTIFICAZIONE DI FATTI, MISURE, DIMENSIONI INTEGRAZIONE IN SCHEMA CONCETTUALE GLOBALE PROGETTAZIONE DEL DATA WAREHOUSE CONCETTUALE INTRODUZIONE DI DATI AGGREGATI, DATI STORICI, ECC. LOGICA PROGETTAZIONE DEI DATA MART (BD MULTIDIMENS.) IDENTIFICAZ DI FATTI E DIMENSIONI RISTRUTTURAZIONE DELLO SCHEMA E-R DERIVAZIONE DI UN GRAFO DIMENSIONALE TRADUZIONE NEL MODELLO LOGICO

FREQUENTI MOTIVI DI FALLIMENTO NON CONSIDERARE LA QUALITA’ DEI DATI ACCURATEZZA COMPLETEZZA CONSISTENZA TEMPESTIVITA’ DISPONIBILITA’ NON MEMORIZZARE I DATI NECESSARI IGNORARE I DATI CONTENUTI IN FONTI ESTERNE IGNORARE I DATI “SOFT” (p.e. giudizi soggettivi)

SERVER OLAP MULTIDIMENSIONALE (MOLAP) IMPLEMENTA DIRETTAMENTE IL MODELLO A CUBO STRUTTURE A MATRICE MULTIDIMENSIONALE OTTIME PER STRUTTURE DENSE LA RICERCA PER INDIRIZZO SI RIDUCE AD UN CALCOLO ALGEBRICO PRESTAZIONI ELEVATE E COSTANTI PER L’ELABORAZIONE DELLE INTERROGAZIONI METODI DI ACCESSO SPECIALIZZATI AGGREGAZIONE E COMPILAZIONE ESEGUITE IN PRECEDENZA LIMITATA SCALABILITA’ A CAUSA DELLE PREELABORAZIONI RICHIEDE MAGGIORI CAPACITA’ DA PARTE DELL’AMMINISTRATORE DEI DATI

SERVER OLAP RELAZIONALE (ROLAP) UTILIZZA UN RDBMS STANDARD PER REALIZZARE LA STRUTTURA MULTIDIMENSIONALE, APPLICANDO L’OPERAZIONE DI GROUP_BY LO SCHEMA ASSUME UNA CONFIGURAZIONE A STELLA O A FIOCCO DI NEVE (NORMALIZZA LE GERARCHIE) TABELLA CENTRALE DEI FATTI LE TUPLE SONO COSTITUITE DAI PUNTATORI (CHIAVI ESTERNE) ALLE TABELLE DI DIMENSIONE E DAI VALORI PER LE COORDINATE DESCRITTE f=(k1, ..., kn, v1, … vm) TABELLE DI DIMENSIONE CONTENGONO LE TUPLE CON GLI ATTRIBUTI RELATIVI A QUELLA DIMENSIONE d1=(k1, a1, … , an) COSTELLAZIONE DI FATTI PIU’ TABELLE DEI FATTI CONDIVIDONO TABELLE DI DIMENSIONE DI UGUALE STRUTTURA

SCHEMI A STELLA COSTELLAZIONE ….. …... FIOCCO DI NEVE STELLA TABELLA DEI FATTI TABELLA DI DIMENSIONE PROGETTO# MANAGER# DATAK QUANTITA’ COSTO MANAGER PROGETTO DATA COMPONENTE MESE ANNO ……. …….. COMPONENTE# ….. …... FATTURA# TOTALE FATTURA COSTELLAZIONE FIOCCO DI NEVE STELLA

PRINCIPALI PROBLEMATICHE DI UN DW PROGETTO DELLE STRUTTURE LOGICHE PER OTTIMIZZARE LE INTERROGAZIONI NECESSITA’ DI MINIMIZZARE I JOIN DENORMALIZZAZIONE CON RIPETIZIONE DI DATI RIDUZIONE DELLE DIMENSIONI DELLE TABELLE PARTIZIONAMENTO ORIZZONTALE PARTIZIONAMENTO VERTICALE PER SPEZZETTAMENTO DELLE RIGHE (UTILE PER DRILL-DOWN)

PRINCIPALI PROBLEMATICHE DI UN DW PROGETTO DELLE STRUTTURE FISICHE SCELTA DEGLI INDICI SCELTA DELLE VIEW DA MATERIALIZZARE MANUTENZIONE DELLE VIEW E DEI METADATI GESTIONE DELLA REPLICAZIONE COME E QUANDO FARE GLI AGGIORNAMENTI GESTIONE DELLA CONSISTENZA REALIZZAZIONE DELLE APPLICAZIONI

SCOPERTA DI CONOSCENZA E DATA MINING

LA GERARCHIA DELLA CONOSCENZA FATTURE ANDAMENTO VENDITE REGOLE DI MERCATO DECISIONI STRATEGICHE ELEMENTI (VOLUME) VARIABILI VALORE AGGIUNTO ESPERIENZA ELABORAZIONI STATISTICHE PROCEDURE DI SCOPERTA DI CONOSCENZA DATI INFORMAZIONI SAGGEZZA

KNOWLEDGE DISCOVERY E DATA MINING SCOPERTA DI CONOSCENZA NELLE BASI DI DATI (KDD) IDENTIFICARE LE INFORMAZIONI PIU’ SIGNIFICATIVE PRESENTARLE IN MODO OPPORTUNO ALL’UTENTE DATA MINING APPLICAZIONE DI ALGORITMI AI DATI GREZZI AL FINE DI ESTRARNE CONOSCENZA (RELAZIONI, PERCORSI, …) OBIETTIVO PREDITTIVO (ANALISI DEI SEGNALI, RICONOSCIMENTO DEL PARLATO, ECC.) OBIETTIVO DESCRITTIVO (SISTEMI DI SUPPORTO ALLE DECISIONI)

IL PROCESSO DI SCOPERTA DI CONOSCENZA (1) ANCHE IN PRESENZA DI EFFICACI STRUMENTI RICHIEDE COMPETENZA DELLE TECNICHE UTILIZZATE OTTIMA CONOSCENZA DEL DOMINIO DI APPLICAZIONE PASSI SUCCESSIVI SELEZIONE SCELTA DEI DATI CAMPIONE SUI QUALI FOCALIZZARE L’ANALISI PRE-ELABORAZIONE CAMPIONAMENTO DEI DATI PER RIDURNE IL VOLUME PULIZIA DI DATI ERRATI E/O MANCANTI

IL PROCESSO DI SCOPERTA DI CONOSCENZA (2) TRASFORMAZIONE OMOGENEIZZAZIONE E/O CONVERSIONE DEI TIPI DI DATI DATA MINING SCELTA DEL TIPO DI METODO/ALGORITMO INTERPRETAZIONE E VALUTAZIONE FILTRAGGIO DELL’INFORMAZIONE OTTENUTA EVENTUALE RAFFINAMENTO CON RIPETIZIONE DI PASSI PRECEDENTI PRESENTAZIONE VISUALE (GRAFICA O LOGICA) DEL RISULTATO DELLA RICERCA

IL PROCESSO DI SCOPERTA DI CONOSCENZA (3) DATI GREZZI DATI TARGET DATI PRE- ELABORATI DATI TRASFORMATI CORRELAZIONI E PERCORSI CONOSCENZA SELEZIONE PRE-ELABORAZIONE TRASFORMAZIONE DATA MINING INTERPRETAZIONE da: G. Piatesky-Shapiro 1996

APPLICAZIONI DEL DATA MINING VENDITA AL DETTAGLIO E PER CORRISPONDENZA QUALI “OFFERTE SPECIALI” FARE COME DISPORRE LE MERCI SUGLI SCAFFALI MARKETING PREVISIONI DI VENDITA PERCORSI DI ACQUISTO DEI PRODOTTI BANCHE CONTROLLO DEI PRESTITI USO (ED ABUSO) DELLE CARTE DI CREDITO TELECOMUNICAZIONI AGEVOLAZIONI TARIFFARIE

APPLICAZIONI DEL DATA MINING ASTRONOMIA E ASTROFISICA CLASSIFICAZIONE DI STELLE E GALASSIE RICERCA CHIMICO FARMACEUTICA SCOPERTA DI NUOVI COMPOSTI RELAZIONI TRA COMPOSTI BIOLOGIA MOLECOLARE PATTERN NEI DATI GENETICI E NELLE STRUTTURE MOLECOLARI TELERILEVAMENTO E METEREOLOGIA ANALISI DEI DATI SATELLITARI STATISTICA ECONOMICA E DEMOGRAFICA ANALISI DEI CENSIMENTI