La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

Presentazioni simili


Presentazione sul tema: "Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003."— Transcript della presentazione:

1 rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003

2 rosuda IVDM 2003 Software Commerciali per il Data Mining AIM distribuito da AbTech AUTOCLASS distribuito da NASA CLEMENZINE distribuito da SPSS Database Mining distribuito da HNC Datalogic/R distribuito da Reduct Syst Information Harvesting distribuito da Ryan Ass Intelligent Miner distribuito da IBM IXL/IDIS distribuito da IntelligWare KnowledgeSeeker distribuito da FirstMarkTechn NEXTRA distribuito da Neuron Data PC-MARS distribuito da Data Patterns RECON for Data Mining distribuito da Lockheed

3 rosuda IVDM 2003 Software Commerciali per il Data Mining: CLEMENTINE- SPSS

4 rosuda IVDM 2003 Software Commerciali per il Data Mining: ROSETTA

5 rosuda IVDM 2003 Software Commerciali per il Data Mining: STATISTICA The most part of statistical software for Data Mining try to give a suitable final graphical representation of applied models

6 rosuda IVDM 2003 Software per il Data Mining: considerazioni generali -Cosa dovrebbero fare? -Cosa fanno davvero? -Quali caratteristiche sono le piú rilevanti? -Come influisce la Visualizzazione sulla ricerca dell´Informazione?

7 rosuda IVDM 2003 Il nostro Software per IVDM: The Rosuda`s Impressionistes

8 rosuda IVDM 2003 Interactive Visual Data Mining: Implementazione **Graphics manipulation = Data manipulation** Interazione condiziona non solo l´aspetto esteriore del display ma la sostanza dei dati!

9 rosuda IVDM 2003 Fisher Grains Data Set Produzione di Grano presso i Campi Broadbalk a Rothamsted Fisher (1924) La matrice di dati è stata transposta, di modo che ciascun anno corrisponda ad un diverso anno 18 time series osservate annualmente per un periodo di 76 anni

10 rosuda IVDM 2003 PC anche dati temporali

11 rosuda IVDM 2003 Interactive Time Series

12 rosuda IVDM 2003 …Collegare Tempo e Luogo

13 rosuda IVDM 2003 …PC in generale e Mappe

14 rosuda IVDM 2003 Maps, selezione e Mondrian

15 rosuda IVDM 2003 Cos è una mappa Dati Geografici possono essere collocati in base alla vera referenza geografica

16 rosuda IVDM 2003 Collegare le Mappe agli individui Da dove viene? Che tipo di criminale é? The Crime dataset and the Criminal face

17 rosuda IVDM 2003 The Crime dataset and the Criminal face Crime-Datatet: distribuito da JMP library, SAS -7 tipi crimini - in 50 stati USA - in un anno

18 rosuda IVDM 2003 Glyphs, per Individui Multidimensionali

19 rosuda IVDM 2003 Fisher Iris dataset 4 misure (sepal width, sepal length, petal width, petal length) su 50 piante appartenti a 3 specie diverse. Andrews, D. F., and Herzberg, A.M. (1985). Data. New York: Springer p5-8

20 rosuda IVDM 2003 Glyphs per strutture

21 rosuda IVDM 2003 Uomo o Donna? Setosa o Versicolor? Classificazione ed Alberi...

22 rosuda IVDM 2003 Trees, Klimt ed R Input: -Tab spaces ASCII file -Output of partition routine (rpart, cart, etc..) Output: -Interactive graphics -Trees

23 rosuda IVDM 2003 Interactive Trees

24 rosuda Interattivitá in dettaglio: basic Instruments Linking: Variables or Individuals Querying: Different levels Selection: Single or Multiple Selection Hot Selection Scaling: according to specific parameters Zooming: Zoom or Logical Zoom Rotating Sorting: Automatical, Manual IVDM 2003

25 rosuda Linking: Variables Individuals

26 rosuda Querying: Different levels In Manet variables are querable!

27 rosuda Selection: Single or Multiple Selection Point selection Rectanngle selection Undo Logical operation on selected items Hot Selection

28 rosuda Scaling: according to specific parameters

29 rosuda Zooming: Zoom or Logical Zoom

30 rosuda Sorting: Automatical, Manual

31 rosuda IVDM 2003 Requisiti fondamentali dell´Interattivitá Buon CHI Intuitivitá Velocitá Software intgration

32 rosuda IVDM 2003 Diversi concetti di Interattivitá

33 rosuda IVDM 2003 Tornare sempre ai dati!! - Deve essere sempre chiaro o chiaribile quali dati stanno dietro ai grafici - La Linked-Selection offre diverse viste dei medesimi dati - I Dati devono essere facili da importare - Il formato dei dati deve essere il piú semplice possibile -Bassi livelli di manipolazione agiscono sui dati - Alti livelli di manipolaziono influenzano solo il display

34 rosuda IVDM 2003 Quante taglie di dataset conosci? Tiny??? Small ??? Large??? Very Large??? Huge???

35 rosuda IVDM 2003 Definizioni di taglia... Tinycan be written on a blackboard10 2 bytes Smallfits on a few printed pages10 4 bytes Mediumfills a floppy disk10 6 bytes Largefills a tape10 8 bytes Hugerequires many tapes10 10 bytes

36 rosuda IVDM 2003 Prerequisiti computazionali Potente Memoria Buono sfruttamento della memoria Buoni algoritmi Alta qualitá delle immagini Importabilitá

37 rosuda IVDM 2003 Prerequisiti Grafici Visualizzazioni non dipendenti dalla Taglia Buoni Algoritmi Buone Implementazioni Interactivitá Interfaccia intuitiva e chiara Analisi oggettive o soggettive???

38 rosuda IVDM 2003 Large dataset Exploration: The Bank Dataset Dataset finanziario ottenuto da una banca tedesca Dati raccolti per ragioni tecniche senza alcuno scopo speciale Passati agli analisti per scoprire i fattori che influenzano maggiormente le transazioni Consiste di piú di 600,000 transactions in 24 variabili (80 Mb ca.)

39 rosuda IVDM 2003 Amount vs. Profit Le dimensioni rappresentate sono influenzate dai valori minimi e massimi rilevati Spesso si tratta di outliers

40 rosuda IVDM 2003 Amount vs. Profit Non è effetto di uno Zoom! L´immagine è stata riparametrizzata I valori anomali sono stati tagliati

41 rosuda IVDM 2003 Amount vs. Profit: Cluster? Non nel senso classico… Tuttavia speciali relazioni fra i dati sono identificabili e ragionevolmente giustificabili

42 rosuda IVDM 2003 Informazioni o Informatione ??? L´Informazione ottenuta dai dati è molto piú che la semplice giustapposizione di singoli dettagli o la somma di singole informazioni

43 rosuda IVDM 2003 Una schematica Classificazione dei dati Number of Observations: -A few -Many Kind of Observations: -Categorical -Continuous Number of Variables: -One-two -A few -Many -Infinite

44 rosuda IVDM 2003 Come li rappresentereste? Number of Observations: -A few -Many Kind of Observations: -Categorical -Continuous Number of Variables: -One-two -A few -Many -Infinite Scatterplot Trellis Display Barchart Mosaic Plot Parallel Coordinate

45 rosuda IVDM 2003 Rosuda: analisi interattiva per ogni tipo di dati -Soluzioni Interattive differenziate ed Ottimali -Design Consistente -Buon CHI -Gamma di soluzioni tale da consentire una completa EDA -Ottimizzazione delle risorse informatiche e delle tecniche statistiche

46 rosuda IVDM 2003 No Conclusion, c´è ancora parecchio da fare! Commenti? Consigli? Domande? bibliografia http://stats.math.uni-augsburg.de


Scaricare ppt "Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003."

Presentazioni simili


Annunci Google