Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoEdda Battaglia Modificato 9 anni fa
1
rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003
2
rosuda ROSUDA: IVDM 2003 Lehrtstuhl für Rechnerorientierte Statistik und Datenanalyse Dipartimento di Statistica Computazionale ed Analisi dei Dati
3
rosuda IVDM by ROSUDA: Outline IVDM 2003 I PARTE Partiamo dai dati Il Data Mining I Grafici Visualizzazione Interattivitá IVDM MosaicPlot & MANET ParallelCoordinates & CASSATT II PARTE Software per il DM Software per l´ IVDM Grafici Interattivi by Rosuda Map & MONDRIAN Glyphs&… Trees & KLIMT Interattivitá nello specifico Torniamo ai dati Information & “Informations” IntGraphics per “tutti” La ricerca Rosuda Discussione
4
rosuda IVDM 2003 What´s Data Mining? Secondary analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in a novel ways that are both understandable and useful to the data owner (D.Hand)
5
rosuda IVDM 2003 Cominciamo dai Dati: La Veritá dei Dati Veritá Evidente Dati nudi e crudi Veritá Latente es. evoluzione del Info da estrarre fenomeno nel tempo
6
rosuda IVDM 2003 Un case-study in generale Punti da chiarire: Un pò di storia Da dove nasce l`esigenza di analizzare i dati… Tipo di Dati Descrizione dei dati e delle variabilie Fonte Ragione e tempi di raccolta dei dati
7
rosuda IVDM 2003 Un Viaggio fra i dati…e l album di viaggio: Di tappa in tappa si decide una nuova direzione Chi Cosa, Dove e Quando
8
rosuda IVDM 2003 Analisi parziale e nuovi obiettivi Evoluzione della conoscenza in merito al fenomeno analizzato mano a mano che l’ analisi procede Incidenza singoli fattori Reintegrazione dell`Informazione estratta Ripianificazione dell`analisi Lettura e rilettura dei dati alla luce della nuova conoscenza Rileggere il passato Pianificare il cambiamento informazione
9
rosuda IVDM 2003 Obiettivi del Data Mining - Analisi di dati raccolti per altre ragioni - I migliori risultati non sono necessariamente quelli di maggiore interesse - É comune trovare dati di Cattiva Qualitá - - Interpretazione difficile - Generalizzazione difficile
10
rosuda IVDM 2003 Data Mining. L´Approccio (a) Informatica Ricerca Automatica di Informazione Interessante METODI VELOCI ED EFFICIENTI PER EDA
11
rosuda IVDM 2003 Statistica Ricerca di risultati di qualunque interesse DEFINIZIONE DI INTERESSE E POTENZIALITÁ DEI METODI STATISTICI PER L´ANALISI DEI DATI Data Mining. L´Approccio (b)
12
rosuda IVDM 2003 Cosa sono i grafici? * Oggetti che rappresentano sinteticamente i dati * Valutabili con gli occhi….
13
rosuda IVDM 2003 Cosa sono i grafici?
14
rosuda IVDM 2003 Cos è la Visualizzazione? - Non supportata da un´unica teoria formale - Collezione di utili strumenti per : * condurre analisi * verificare la qualitá dei dati * identificare patterns * suggerire strutture - principale oggetto della rappresentazione sono i Grafici
15
rosuda IVDM 2003 Becker et al. direct manipulation and instantaneous change Unwin direct manipulation of plots and plotting elements in them immediacy of place immediacy of action Cos è l´ Interattività?
16
rosuda IVDM 2003 Visual Interactive Data Mining Collezione di strumenti GRAFICI per * condurre analisi * verificare la qualitá dei dati * identificare patterns * suggerire strutture Con data sets anche molto grandi attraverso diretta manipolazione delle rappresentazioni grafiche collocazione estemporanea di nuovi elementi
17
rosuda IVDM 2003 Interactive Visual Data Mining: Implementazione Gli oggetti grafici sono direttamente collegati ai dati tramite ID NON solo OUTPUT statici **Graphics manipulation = Data manipulation**
18
rosuda IVDM 2003 Interactive Visual Data Mining: Features Theus`s List: Highlighting Linking Querying Warnings ……..???
19
rosuda IVDM 2003 Interactive Visual Data Mining: Issues Information Extraction Information Reintegration attraverso Graphical Data Representation e Data Manipulation
20
rosuda IVDM 2003 Interactive Visual Data Mining: dai dati agli Scatterplot...
21
rosuda IVDM 2003 …dentro gli Scatterplot
22
rosuda IVDM 2003 Bank Dataset data set, ottenuto da una Banca Tedesca, per identificare i pricipali fattori condizionanti le transazioni Dati raccolti per ragioni tecniche ca. 600,000 transazioni in 24 variabili
23
rosuda IVDM 2003 …agli Scatterplot indietro ai dati... Si cominciano avedere dei gruppi Questi Gruppi non sono individuabili da normali procedure di Clustering
24
rosuda..poi la Regressione...
25
rosuda IVDM 2003 …Istogrammi
26
rosuda IVDM 2003 Titanic Dataset www.amstat.org/publications/jse/v3n3/datasets.dawson.html descritto nell´articolo: The "Unusual Episode" Data Revisited Robert J. MacG. Dawson Saint Mary's University Journal of Statistics Education v.3, n.3 (1995) 2201 casi and 4 variabili: Class, Sex, Age (Giovani o Anziani) e Survival.
27
rosuda IVDM 2003 Barchart per dati Categorici.... Ogni oggetto deve poter essere interrogato In questo caso la query riguarda la sola selezione
28
rosuda IVDM 2003 Ogni pixel informativo deve essere visibile! Sottolineature in rosso indicano effettiva presenza di (pochi) casi Dalla query possiamo evincere la presenza di 6 bimbi in prima classe
29
rosuda IVDM 2003 …per esplorare l´Associazione... --C´è associazione fra suvival e (age, sex, class)? --Chi avevauna probabilitá maggiore di sopravvivere? Non indipendenti Indipendenti
30
rosuda IVDM 2003...Mosaic Plot e Manet
31
rosuda IVDM 2003 Cos è un MosaicPlot? Funzione applicata a tavole di contingenza ad entrata multipla, che producono output grafici f
32
rosuda IVDM 2003 Costruire un MosaicPlot K=0K=1 P1P1 P4P4 P 1 P 2 P 3 P 11 P 21 P 31 P 41 P 12 P 22 P 32 P 42 K=2
33
rosuda IVDM 2003 Interpretare un MosaicPlot: Not indep Independ ent Interactive feature: Highlighting Editing structure (re-ordering, grouping, splitting) Linking Rotation Querying Reparametrisation Zoom
34
rosuda IVDM 2003 Mosaic Plot e 2 Che succede???
35
rosuda IVDM 2003 Mosaic plot, 2 e Survival... La significativitá dell´Ipotesi di non indipendenza è evidente Tuttavia, 2 = 671,96 suggerirebbe di rifiutare l´ipotesi di non Independenza
36
rosuda IVDM 2003 Cosa vediamo da rappresentazioni diverse
37
rosuda IVDM 2003 Missing Are Now Equally Treated
38
rosuda IVDM 2003 E se il numero di variabili cresce?
39
rosuda IVDM 2003 Soluzione “voluminosa” ed inefficiente
40
rosuda IVDM 2003 Pensa in Parallelo!
41
rosuda IVDM 2003 Parallel coordinates per… Correlazione N-dimensional clusters outliers Pensa in Parallelo!
42
rosuda IVDM 2003 Parallel Coordinates e Cassatt Dualismo punto-linea
43
rosuda IVDM 2003 Stressing Parallel Coordinates Si possono analizzare fino a qualche centinaio di variabili!
44
rosuda IVDM 2003 Riassumendo….. I dati sono “problematici” I dati nascondono iformazione Non esiste il miglior metodo in Assoluto Visualizzazione ed Interattivitá sono strumenti innovativi, di grande utilitá ed interesse scientifico
45
rosuda IVDM 2003 Come li rappresentereste? Number of Observations: -A few -Many Kind of Observations: -Categorical -Continuous Number of Variables: -One-two -A few -Many -Infinite Scatterplot Trellis Display Barchart Mosaic Plot Parallel Coordinate
46
rosuda IVDM 2003 Rosuda: analisi interattiva per ogni tipo di dati -Soluzioni Interattive differenziate ed Ottimali -Design Consistente -Buon CHI -Gamma di soluzioni tale da consentire una completa EDA -Ottimizzazione delle risorse informatiche e delle tecniche statistiche
47
rosuda IVDM 2003 No Conclusion, c´è ancora parecchio da fare! Commenti? Consigli? Domande? bibliografia: http://stats.math.uni-augsburg.de
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.