La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Strumenti di validazione statistica nelle nuove infrastrutture aziendali per la Business Analysis: requisiti, prospettive e casi di studio Bologna, 22.

Presentazioni simili


Presentazione sul tema: "Strumenti di validazione statistica nelle nuove infrastrutture aziendali per la Business Analysis: requisiti, prospettive e casi di studio Bologna, 22."— Transcript della presentazione:

1 Strumenti di validazione statistica nelle nuove infrastrutture aziendali per la Business Analysis: requisiti, prospettive e casi di studio Bologna, 22 novembre 2003 Dario Bruzzese (Università degli Studi di Napoli FedericoII) Pietro Papa (CrossZ Solutions S.p.A.)

2 2 Sommario Introduzione QueryObject System Coordinate Parallele Applicazioni Conclusioni

3 3 Introduzione L’ammontare della produzione totale mondiale di informazione è di circa 250 megabytes per ogni uomo, donna e bambino sulla terra. L’umanità nei prossimi tre anni genererà un volume di nuove informazioni maggiore di quante non ne siano state generate complessivamente negli scorsi anni. Capire meglio e con strumenti migliori è la necessità primaria se si vuole trarre vantaggio dalla crescita sempre crescente dell’offerta di informazione nel mondo aziendale e non... Fonte: “How Much Information?” della School of Information Management and Systems (SIMS) presso l’University of California (Berkeley), 2000

4 4 Sommario Introduzione QueryObject System Coordinate Parallele Applicazioni Conclusioni

5 5 E’ un middleware di supporto alla Business Analysis, che genera DataBaseImages (chiamati QueryObject). Un QueryObject è un’immagine estremamente compressa di un database analitico, che include tutte le interrelazioni e le interdipendenze esistenti tra i dati operazionali che lo hanno generato. Che cos’è QueryObject UNIX OLTP, ERP systems W’house, ODS External RDBMS Legacy Systems MVS VMS WIN Others DATI Molteplici tipologie di fonti dati e piattaforme DATA MANAGEMENT SYSTEMSINFORMATION DELIVERY APPS INFORMAZIONI Diversi strumenti per la distribuzione e l’accesso alle informazioni QueryObject Ologramma di Informazione Immagine compressa, completa e fedele di un DB

6 6 La tecnologia Le tecnologie tradizionali: Replicano i dati e le loro relazioni; calcolano le aggregazioni per ogni query QueryObject: Contiene precalcolate in forma matematica tutte le possibili risposte ad ogni query aD 1 + bD 2 …=(m 1 ;..;m n ) …. La tecnologia QueryObject si basa su tecniche matematiche proprietarie, basate sui frattali, che permettono di rappresentare i risultati di tutte le possibili operazioni su matrici in un insieme di equazioni polinomiali. Ciò permette un’elevata compressione, un’altissima scalabilità ed un’estrema velocità in fase di elaborazione e di risposta alle interrogazioni degli utenti.

7 7 Dimensioni e Misure  Un QueryObject è composto da due principali tipi di elementi: dimensioni e misure (chiamate anche metriche).  Le dimensioni sono insiemi di categorie, spesso qualitative, che descrivono le occorrenze delle dimensioni di analisi. Per esempio, una dimensione “Stato Italia” potrebbe contenere 20 categorie come le Regioni (Campania, Lazio, Emilia Romagna, ecc.).  Le misure sono specifici indicatori quantitativi che forniscono informazioni alle intersezioni delle categorie delle diverse dimensioni di analisi. Per esempio, misure potrebbero essere “Vendite Totali”, “Valore Medio Vendita”, ecc.

8 8 Il processo di query…  Partizionando la query nelle sue dimensioni e misure che la compongono e processando questi elementi separatamente, il QueryObject è in grado di fornire risposte alle query molto efficienti.  Il “core” della tecnologia QueryObject è l’utilizzo di un indice matematico complesso per conservare le relazioni tra le dimensioni di analisi e le loro misure associate.  Quando un utente lancia una query, la sintassi della query viene convertita in una serie di coefficienti che sono applicati ad un algoritmo matematico complesso; è dai risultati di questo algoritmo che la corretta informazione è estratta dal QO e restituita all’utente finale.

9 9 Il processo di query… Linguaggio parlato: “Voglio conoscere le Vendite di Biscotti in Campania” SQL: SELECT Regione, Prodotto, Vendite FROM FactTable WHERE Regione=‘Campania’ AND Prodotto=‘Biscotti’ Il Query Optimizer identifica ogni elemento all’interno di una query e lo classifica o come un nome di dimensione o come un nome di metrica o come una descrizione di categoria in una dimensione. Quindi ad ogni elemento assegna una rappresentazione matematica che sarà utilizzata dal QueryObject System. Per esempio, ‘Campania’ è la 18 a categoria della dimensione Regione che è la 3 a dimensione nel QueryObject.

10 10 Il processo di query… Una volta che la query è ricevuta dal query processor è spezzettata ed ogni dimensione, con i suoi constraints, diventa uno dei termini del polinomio complesso utilizzato per creare il QueryObject. Il primo passo di tale processo è individuare il numero di termini per l’equazione che è definita dalla query. I risultati di questa equazione possono essere visti come un entry point in una sorta di hash table. L’algoritmo di QO evita però le problematiche spesso trovate negli algoritmi della hash table e non è assolutamente dipendente dalla memoria RAM per poter garantire delle ottime performance.

11 11 Sommario Introduzione QueryObject System Coordinate Parallele Applicazioni Conclusioni

12 12 Coordinate Parallele Ogni dimensione di uno spazio n-dimensionale è un asse verticale equispaziato dagli altri Un vettore di dimensione n è rappresentato con una linea che congiunge i suoi valori lungo ciascun asse Le coordinate parallele (coord-| |) trasformano relazioni multivariate in patterns bidimensionali [Inselberg, 1981]

13 13 Coordinate Parallele Esiste una (quasi) perfetta dualità tra lo spazio cartesiano e quello parallelo. Ogni struttura geometrica in R n ha la sua rappresentazione nello spazio parallelo Spazio Cartesiano Linea in R 2 Punto in || Possibilità di visualizzare patterns multidimensionali su grafici a 2 dimensioni Spazio Parallelo

14 14 QO -> Coordinate Parallele SELECT Regione, Prodotto, Vendite FROM FactTable WHERE Regione=‘Campania’ AND Prodotto=‘Biscotti’ RegioneProdottoVendite CampaniaBiscotti Codifica numerica delle categorie QueryObject Unique Key Spezzata nello spazio parallelo RegioneVendita Prodotto Campania Biscotti Ogni Unique Key è proiettata nello spazio || attraverso opportune trasformazioni

15 15 QO -> Coordinate Parallele Trasformazione di ciascuna misura attraverso l’approccio Valore Test: Regione Statistica Test Vendita Prodotto Campania Biscotti + 1,3 RegioneVendita Prodotto Campania Biscotti n uk  numerosità di ciascuna unique key  uk  media di ciascuna unique key   media totale  SQM totale

16 16 Coordinate Parallele Potenti strumenti di interazione I.Selezionare una o più linee per evidenziare patterns di interesse II.Eliminare linee o singoli assi III.Ordinare gli assi per studiare le relazioni tra le dimensioni e le metriche  Arbitrarietà nell’ordinamento degli assi e nella codifica delle categorie

17 17 Sommario Introduzione QueryObject System Coordinate Parallele Applicazioni Conclusioni

18 18 UTILITIES Contesto: grande azienda che opera nel campo delle Utilities (Distribuzione Gas). Metriche: - volumi di gas fatturato - volumi da gas a budget - importi in euro Dimensioni:- trimestre (anni 2001 e 2002) - tipo fornitura - segmento di mercato - settore merceologico - tipo contratto - filiale Numero record originali: Unique Key nel QueryObject: 2.661

19 19 UTILITIES ContrattoContratto_Id AUTOTRAZIONE1 AUTOTRAZIONE ALTRO2 CONSEGNE ESTERE3 FEDERELETTRICA4 INDUSTRIALE ALTRO5 INDUSTRIALE CONTINUO6 INDUSTRIALE CONTINUO STAGIONALE7 INDUSTRIALE INTERROMPIBILE8 PRODUZIONE E.E./TELERISCALDAMENTO9 RETI CITTADINE10 RETI CITTADINE ALTRO11 TERMOELETTRICO12 TERZIARIO13 TRASFORMAZIONI CHIMICHE14 UNAPACE15 SegmentoSegmento_Id AUTOTRAZIONE1 COGENERAZIONE2 INDUSTRIALE3 RETI CITTADINE4 SINTESI5 TERMOELETTRICO6 TERZIARIO7 SettoreSettore_Id ALIMENTARI1 ALTRE INDUSTRIE2 CALCE. CEMENTO E GESSO3 CARTA4 CERAMICA5 CHIMICA. PETROLIO E CARBONE6 GOMMA E MATERIE PLASTICHE7 LATERIZI8 MECCANICA9 METALLURGIA10 NON INDUSTRIALE11 TESSILE12 VETRO13 Tipo_FornituraTipo_Fornitura_Id DIRETTO1 INDIRETTO2

20 20 UTILITIES Le Unique Key di QueryObject rappresentate come spezzate nello spazio parallelo… 1° Trimestre

21 21 UTILITIES 1° Trimestre Diretto TermoelettricoNon Industriale Termoelettrico 5 45 contratti Media Importo ,76 Media Volume ,83 Media VolumeB ,78

22 22 UTILITIES Media Importo 0 Media Volume 0 Media VolumeB ,3 8° Trimestre Diretto TermoelettricoNon Industriale Termoelettrico 5 18 contratti

23 23 UTILITIES Tagliando gli outliers…

24 24 UTILITIES Diretto

25 25 UTILITIES Indiretto

26 26 UTILITIES

27 27 MANUFACTURING Contesto: grande azienda che opera nel campo del Manufacturing (Beni di Lusso). Metriche: - quantità - valore di vendita - valore dello sconto Variabili di Analisi:- mese - area geografica - nazione - customer origin type - customer type - sales business unit Numero record originali: Unique Key nel QueryObject: 1.292

28 28 MANUFACTURING AreaArea_id E.M.E.A. AREA1 NORTH PACIFIC AREA2 SOUTH PACIFIC AREA3 NazioneNazione_Id Australia1 Belgium2 France3 Germany4 Hong Kong5 Italy6 Japan7 Malaysia8 Monaco9 Singapore10 South Korea11 Spain12 Switzerland13 Taiwan14 USA15 United Kingdom16 Customer_Origin_TypeCustomer_Origin_Type_Id Local1 UE2 Extra UE3 Customer_TypeCustomer_Type_Id FRANCHIS1 INTERCOM2 Third Party3 Employee4 Sales_Business_UnitSales_Business_Unit_Id ACCESSORIES1 BALANCE2 CUSTOMER SERVICE3 GIFTS4 JEWELLERY5 PERFUME6 WATCHES7

29 29 MANUFACTURING Le Unique Key di QueryObject rappresentate come spezzate nello spazio parallelo…

30 30 MANUFACTURING Aprile 2002 Gugno 2002 E.M.E.A. AREA Extra U.E. Belgio Francia Third Party Perfume

31 31 MANUFACTURING Francia Perfume

32 32 MANUFACTURING Hong Kong Third Party Watch Jewellery

33 33 MANUFACTURING

34 34 Conclusioni  Le coordinate parallele consentono una esplorazione interattiva, ispirata alla filosofia del Visual Data Mining  La possibilità di rappresentare non i dati originali ma clusters omogenei riduce il peso computazionale dell’intera strategia di analisi  Le caratteristiche di un cluster possono essere osservate e confrontate utilizzando parametri differenti dalla media  La necessità di procedere ad una codifica arbitraria delle categorie limita le potenzialità della rappresentazione grafica


Scaricare ppt "Strumenti di validazione statistica nelle nuove infrastrutture aziendali per la Business Analysis: requisiti, prospettive e casi di studio Bologna, 22."

Presentazioni simili


Annunci Google