La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

Presentazioni simili


Presentazione sul tema: "Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003."— Transcript della presentazione:

1 rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003

2 rosuda ROSUDA: IVDM 2003 Lehrtstuhl für Rechnerorientierte Statistik und Datenanalyse Dipartimento di Statistica Computazionale ed Analisi dei Dati

3 rosuda IVDM by ROSUDA: Outline IVDM 2003 I PARTE  Partiamo dai dati  Il Data Mining  I Grafici  Visualizzazione  Interattivitá  IVDM  MosaicPlot & MANET  ParallelCoordinates & CASSATT II PARTE  Software per il DM  Software per l´ IVDM  Grafici Interattivi by Rosuda  Map & MONDRIAN  Glyphs&…  Trees & KLIMT  Interattivitá nello specifico  Torniamo ai dati  Information & “Informations”  IntGraphics per “tutti”  La ricerca Rosuda  Discussione

4 rosuda IVDM 2003 What´s Data Mining? Secondary analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in a novel ways that are both understandable and useful to the data owner (D.Hand)

5 rosuda IVDM 2003 Cominciamo dai Dati: La Veritá dei Dati Veritá Evidente Dati nudi e crudi Veritá Latente es. evoluzione del Info da estrarre fenomeno nel tempo

6 rosuda IVDM 2003 Un case-study in generale Punti da chiarire: Un pò di storia Da dove nasce l`esigenza di analizzare i dati… Tipo di Dati Descrizione dei dati e delle variabilie Fonte Ragione e tempi di raccolta dei dati

7 rosuda IVDM 2003 Un Viaggio fra i dati…e l album di viaggio: Di tappa in tappa si decide una nuova direzione Chi Cosa, Dove e Quando

8 rosuda IVDM 2003 Analisi parziale e nuovi obiettivi  Evoluzione della conoscenza in merito al fenomeno analizzato mano a mano che l’ analisi procede  Incidenza singoli fattori  Reintegrazione dell`Informazione estratta  Ripianificazione dell`analisi  Lettura e rilettura dei dati alla luce della nuova conoscenza  Rileggere il passato  Pianificare il cambiamento informazione

9 rosuda IVDM 2003 Obiettivi del Data Mining - Analisi di dati raccolti per altre ragioni - I migliori risultati non sono necessariamente quelli di maggiore interesse - É comune trovare dati di Cattiva Qualitá - - Interpretazione difficile - Generalizzazione difficile

10 rosuda IVDM 2003 Data Mining. L´Approccio (a) Informatica Ricerca Automatica di Informazione Interessante METODI VELOCI ED EFFICIENTI PER EDA

11 rosuda IVDM 2003 Statistica Ricerca di risultati di qualunque interesse DEFINIZIONE DI INTERESSE E POTENZIALITÁ DEI METODI STATISTICI PER L´ANALISI DEI DATI Data Mining. L´Approccio (b)

12 rosuda IVDM 2003 Cosa sono i grafici? * Oggetti che rappresentano sinteticamente i dati * Valutabili con gli occhi….

13 rosuda IVDM 2003 Cosa sono i grafici?

14 rosuda IVDM 2003 Cos è la Visualizzazione? - Non supportata da un´unica teoria formale - Collezione di utili strumenti per : * condurre analisi * verificare la qualitá dei dati * identificare patterns * suggerire strutture - principale oggetto della rappresentazione sono i Grafici

15 rosuda IVDM 2003 Becker et al. direct manipulation and instantaneous change Unwin direct manipulation of plots and plotting elements in them immediacy of place immediacy of action Cos è l´ Interattività?

16 rosuda IVDM 2003 Visual Interactive Data Mining Collezione di strumenti GRAFICI per * condurre analisi * verificare la qualitá dei dati * identificare patterns * suggerire strutture Con data sets anche molto grandi attraverso diretta manipolazione delle rappresentazioni grafiche collocazione estemporanea di nuovi elementi

17 rosuda IVDM 2003 Interactive Visual Data Mining: Implementazione Gli oggetti grafici sono direttamente collegati ai dati tramite ID NON solo OUTPUT statici **Graphics manipulation = Data manipulation**

18 rosuda IVDM 2003 Interactive Visual Data Mining: Features Theus`s List: Highlighting Linking Querying Warnings ……..???

19 rosuda IVDM 2003 Interactive Visual Data Mining: Issues Information Extraction Information Reintegration attraverso Graphical Data Representation e Data Manipulation

20 rosuda IVDM 2003 Interactive Visual Data Mining: dai dati agli Scatterplot...

21 rosuda IVDM 2003 …dentro gli Scatterplot

22 rosuda IVDM 2003 Bank Dataset data set, ottenuto da una Banca Tedesca, per identificare i pricipali fattori condizionanti le transazioni Dati raccolti per ragioni tecniche ca. 600,000 transazioni in 24 variabili

23 rosuda IVDM 2003 …agli Scatterplot indietro ai dati... Si cominciano avedere dei gruppi Questi Gruppi non sono individuabili da normali procedure di Clustering

24 rosuda..poi la Regressione...

25 rosuda IVDM 2003 …Istogrammi

26 rosuda IVDM 2003 Titanic Dataset www.amstat.org/publications/jse/v3n3/datasets.dawson.html descritto nell´articolo: The "Unusual Episode" Data Revisited Robert J. MacG. Dawson Saint Mary's University Journal of Statistics Education v.3, n.3 (1995) 2201 casi and 4 variabili: Class, Sex, Age (Giovani o Anziani) e Survival.

27 rosuda IVDM 2003 Barchart per dati Categorici.... Ogni oggetto deve poter essere interrogato In questo caso la query riguarda la sola selezione

28 rosuda IVDM 2003 Ogni pixel informativo deve essere visibile! Sottolineature in rosso indicano effettiva presenza di (pochi) casi Dalla query possiamo evincere la presenza di 6 bimbi in prima classe

29 rosuda IVDM 2003 …per esplorare l´Associazione... --C´è associazione fra suvival e (age, sex, class)? --Chi avevauna probabilitá maggiore di sopravvivere? Non indipendenti Indipendenti

30 rosuda IVDM 2003...Mosaic Plot e Manet

31 rosuda IVDM 2003 Cos è un MosaicPlot? Funzione applicata a tavole di contingenza ad entrata multipla, che producono output grafici f

32 rosuda IVDM 2003 Costruire un MosaicPlot K=0K=1 P1P1 P4P4 P 1 P 2 P 3 P 11 P 21 P 31 P 41 P 12 P 22 P 32 P 42 K=2

33 rosuda IVDM 2003 Interpretare un MosaicPlot: Not indep Independ ent Interactive feature: Highlighting Editing structure (re-ordering, grouping, splitting) Linking Rotation Querying Reparametrisation Zoom

34 rosuda IVDM 2003 Mosaic Plot e  2 Che succede???

35 rosuda IVDM 2003 Mosaic plot,  2 e Survival... La significativitá dell´Ipotesi di non indipendenza è evidente Tuttavia,  2 = 671,96 suggerirebbe di rifiutare l´ipotesi di non Independenza

36 rosuda IVDM 2003 Cosa vediamo da rappresentazioni diverse

37 rosuda IVDM 2003 Missing Are Now Equally Treated

38 rosuda IVDM 2003 E se il numero di variabili cresce?

39 rosuda IVDM 2003 Soluzione “voluminosa” ed inefficiente

40 rosuda IVDM 2003 Pensa in Parallelo!

41 rosuda IVDM 2003 Parallel coordinates per… Correlazione N-dimensional clusters outliers Pensa in Parallelo!

42 rosuda IVDM 2003 Parallel Coordinates e Cassatt Dualismo punto-linea

43 rosuda IVDM 2003 Stressing Parallel Coordinates Si possono analizzare fino a qualche centinaio di variabili!

44 rosuda IVDM 2003 Riassumendo….. I dati sono “problematici” I dati nascondono iformazione Non esiste il miglior metodo in Assoluto Visualizzazione ed Interattivitá sono strumenti innovativi, di grande utilitá ed interesse scientifico

45 rosuda IVDM 2003 Come li rappresentereste? Number of Observations: -A few -Many Kind of Observations: -Categorical -Continuous Number of Variables: -One-two -A few -Many -Infinite Scatterplot Trellis Display Barchart Mosaic Plot Parallel Coordinate

46 rosuda IVDM 2003 Rosuda: analisi interattiva per ogni tipo di dati -Soluzioni Interattive differenziate ed Ottimali -Design Consistente -Buon CHI -Gamma di soluzioni tale da consentire una completa EDA -Ottimizzazione delle risorse informatiche e delle tecniche statistiche

47 rosuda IVDM 2003 No Conclusion, c´è ancora parecchio da fare! Commenti? Consigli? Domande? bibliografia: http://stats.math.uni-augsburg.de


Scaricare ppt "Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003."

Presentazioni simili


Annunci Google