Alma Mater Studiorum – Università di Bologna

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

Linguaggio C e C++.
Sistemi di Classificazione usando NCD
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità B1 Introduzione alle basi di dati.
una interfaccia internet per il sistema Momis
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
Data warehousing con SQL Server
I Sistemi di Supporto alle Decisioni Chiara Mocenni
Sistemi di supporto alle decisioni 2. Features space
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Alma Mater Studiorum Università di Bologna Facoltà di Economia - Bologna CLEA, CLED, CLEF Prof. Jacopo Di Cocco Idoneità informatica e Sistemi informatici.
Apprendimento Automatico: Apprendimento Pigro (Lazy Learning)
Valutazione delle ipotesi
Apprendimento di funzioni algebriche
Metodi di Ensemble Metaclassificatori.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
1 2. Analisi degli Algoritmi. 2 Algoritmi e strutture dati - Definizioni Struttura dati: organizzazione sistematica dei dati e del loro accesso Algoritmo:
WEKA: Machine Learning Algorithms in java
1 Informazioni generali r Stefano Leonardi m Tel.: m URL: / r Ricevimento:
Scene Modelling, Recognition and Tracking
Introduzione1 Algoritmi e strutture dati - Definizioni Struttura dati: organizzazione sistematica dei dati e del loro accesso Algoritmo: procedura suddivisa.
Apprendimento di movimenti della testa tramite Hidden Markov Model
Waikato Environment for Knowledge Analysis
PATTERN RECOGNITION.
Tecniche e algoritmi di base per l’estrazione di conoscenza
Appunti informatica- prof. Orlando De Pietro
Analisi di un dataset di perizie assicurative
Chapter 14, Hastie , Tibshirani and Friedman
Case Based Reasoning
Strutture periodiche discrete: introduzione del vincolo di periodicità e studio della ricostruzione da due proiezioni. A. Del Lungo, A. Frosini, M.Nivat,
Programmazione ad oggetti per la simulazione numerica di strutture su grande scala dellUniverso di Daniele Giunchi Relatore: Prof. Antonio Messina.
Classificazione con Weka
Modulo 1 - Hardware u.d. 3 (syllabus – 1.3.5)
Gestimp IV Il pacchetto software GESTIMP© di Isea S.r.l., di seguito indicato con GESTIMP©, permette di gestire la supervisione e la telegestione di impianti.
Marco Nanni Applicazioni di Intelligenza Artificiale.
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
BIRT Business Intelligence Reporting Tools
CLUSTERING WITH WEKA Branca Stefano Dosi Clio Gnudi Edward William.
STATISTICA PER LE DECISIONI DI MARKETING
OBIETTIVI: Introduzione ai driver ODBC Creazione di alcune tabelle del database Creazione query Creazione report Lezione del 13/11/2009 Bray Francesco.
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
Lazienda SC Informatica si occupa della progettazione e della realizzazione di sistemi informatici dedicati alle farmacie. Fornisce inoltre un servizio.
Università degli Studi di Cagliari
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.
ECOSYSTEM FUNCTION MODEL AUTORE: Modello realizzato da Hydrologic Engineering Center (HEC) della US Army Corps of Engineers FINALITA': E' uno strumento.
I DATABASE.
Tipo Documento: unità didattica 4 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
Sistemi Informativi A. A. 2013/14 WEKA. WEKA Explorer.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Paola Disisto, Erika Griffini, Yris Noriega.  Insieme ordinato di operazioni non ambigue ed effettivamente computabili che, quando eseguito, produce.
Miner 3D Sistemi Informativi per le decisioni Professore Ing. Marco Patella Anno accademico Presentazione a cura di Di Leo Valentina - Palmieri.
Gestione ottimizzata di centrali a ciclo combinato
Università degli Studi di Bologna FACOLTÀ DI INGEGNERIA Corso di Laurea in Ingegneria Gestionale Ricerca Operativa MODELLI PER L’OTTIMIZZAZIONE DELL’OFFERTA.
Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni a.a Waikato Environment for Knowledge Analysis Data.
Efficient construction of regression trees with Range and Region Splitting Yasuhiko Morimoto, Hiromu Ishii, Shinichi Morishita (1997) Gruppo 11: Paola.
CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
Decision Tree Based Transient Stability Method A Case Study Gruppo 10: Alessandro Gambini Michele Leoni Sistemi informativi per le decisioni LS 15 marzo.
Sviluppo ed implementazione di un software per il car pooling
ICT e Sistemi informativi Aziendali Materiale di supporto alla didattica.
Dispositivi Mobili per Sentiment Analysis
EPG di Metodologia della ricerca e Tecniche Multivariate dei dati A.A
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
Elementi di statistica con R e i database Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 10 Aprile 2012.
Elementi di statistica con R e i database Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 17 Aprile 2012 Lezione 3.
Introduzione a Weka Di Fabio Cassano
I NTRODUZIONE AL W EKA Umberto Panniello DIMEG, Politecnico di Bari Modelli di e-business e business intelligence Cdl Ingegneria Informatica.
Transcript della presentazione:

Alma Mater Studiorum – Università di Bologna WEKA Data Mining System Sistemi Informativi a supporto delle Decisioni LS - Prof. Marco Patella Presentazione di: Fabio Bertozzi, Giacomo Carli

WEKA: the bird Gallirallus australis (Sparrman, 1786) Uccello nativo della Nuova Zelanda Altezza: 50 cm Peso: 1 Kg Onnivoro In via di estinzione Maschio e femmina si occupano della prole Secondo una leggenda neozelandase rubano oggetti luccicanti e sacchi di zucchero

WEKA: Introduzione Software di machine learning e data mining Università di Waikato (Nuova Zelanda) Scritto in Java Licenza GNU Main features: Interfaccia grafica Set di tool per data pre-processing, Possibilità di utilizzare numerosi algoritmi di clustering, per alberi decisionali DT, di ricerca di regole associative AR Indici di valutazione sulla “bontà” dell’algoritmo

WEKA: apertura del software 1 2 3

Database in input Nome della relazione @relation bank @attribute age numeric @attribute sex {FEMALE,MALE} @attribute region {INNER_CITY,TOWN,RURAL,SUBURBAN} @attribute income numeric @attribute married {NO,YES} @attribute children {0,1,2,3} @attribute car {NO,YES} @attribute save_act {NO,YES} @attribute current_act {NO,YES} @attribute mortgage {NO,YES} @attribute pep {YES,NO} @data 40,MALE,TOWN,30085.1,YES,3,YES,NO,YES,YES,NO 51,FEMALE,INNER_CITY,16575.4,YES,0,YES,YES,YES,NO,NO 23,FEMALE,TOWN,20375.4,YES,3,NO,NO,YES,NO,NO 57,FEMALE,RURAL,50576.3,YES,0,NO,YES,NO,NO,NO 57,FEMALE,TOWN,37869.6,YES,2,NO,YES,YES,NO,YES 22,MALE,RURAL,8877.07,NO,0,NO,NO,YES,NO,YES 58,MALE,TOWN,24946.6,YES,0,YES,YES,YES,NO,NO 37,FEMALE,SUBURBAN,25304.3,YES,2,YES,NO,NO,NO,NO Lista degli attributi e loro tipologia Ricerca di una soluzione che permetta di utilizzare fonti differenti Attributo nominale Attributo numerico Scelte: Formato file semplice e intelleggibile Struttura piatta del database Area dati con enumerazione delle tuple Necessità di preprocessing dei dati

Explorer: pre-processing dei dati ARFF Formati aperti CSV C4.5 binary letti da un URL database SQL usando JDBC Rappresentazioni grafiche Funzioni Presentazione dei dati all’utente Conteggio tuple Distribuzione dei valori degli attributi Analisi cross-attributo Pre-Processing: i tool di preprocessing di Weka sono chiamati “Filters” discretizzazione normalizzazione Selezione, trasformazione e combinazione degli attributi

Explorer: i “classifiers” modelli per predire attributi numerici e nominali Esempio: Decision Trees Algoritmi tradizionali Metodo: User Classifier J48 è l’implementazione di Weka dell’algoritmo C4.5, creato da Ross Quinlan dell’Università di Sydney. L’algoritmo genera un decision tree. Ogni passo di split dell’albero è svolto dall’utente che seleziona un cluster tramite una rappresentazione bidimensionale dei dati Limiti: Metodo di selezione degli attributi in base all’IG Possibilità di utilizzare un Training Set con dati mancanti Possibilità di utilizzare attributi con valori numerici continui Buona conoscenza del dominio Struttura semplice dei dati, Cluster facilimente riconoscibili Non c’è necessità di discretizzare

Explorer: clustering data WEKA può eseguire numerosi algoritmi di clustering: k-Means, Clustering basato sulla densità … Visualizzazione dei cluster ottenuti con comparazione su vari attributi Possibilità di eseguire misure di bontà sui risultati degli algoritmi

Explorer: ricerca di regole associative WEKA contiene un’implementazione dell’algoritmo Apriori nella scheda “Associate”: Lavora su dati discreti Ricerca le regole che eccedono il supporto minimo e hanno confidenza superiore al valore prestabilito Identifica le relazioni tra attributi e gruppi di attributi

Explorer: attribute selection Strumento utile per ricercare quali sono gli attributi (o subset di attributi) maggiormente predittivi Il metodo di selezione è articolato in due parti: Search method: best-first, forward selection, random, exhaustive, genetic algorithm, ranking Evaluation method: Correlazione Information gain Test chi-quadro … WEKA consente combinazioni (abbastanza) libere dei metodi Esempio semplice: Ordina gli attributi in base all’IG Search method: ranking Evaluation Method: Information Gain

Explorer: data visualization Semplice funzione che permette di analizzare in maniera visiva i dati WEKA visualizza singoli attributi in un grafico 1-D e coppie di attributi 2-D Limite: mancanza di visualizzazione 3-D che viene risolta introducendo in un grafico 2-D diversi colori Parametri di visualizzazione: I valori delle classi sono rappresentati con diversi colori L’opzione “Jitter” permettere di visualizzare i punti nascosti per gli attributi nominali Funzioni di zoom, dimensionamento dei grafici e dei punti rappresentati

WEKA: Experimenter L’Experimenter permette di comparare diversi modelli di apprendimento Adatto per problemi di regressione e classificazione I risultati possono essere trasveriti in un database Metodi di valutazione: Cross-validazione Curva di apprendimento I metodi di valutazione possono essere reiterati per diverse configurazioni dei parametri dei modelli di apprendimento

classificate correttamente Analisi dei risultati Export dei risultati in: ARFF file CSV file (Comma Separated Values) JDBC database Importato in Excel Analisi statistica dei dati Scheda Analyse di WEKA : Matrice di analisi sui diversi run modelli di apprendimento Notazioni: v: risultato statisticamente migliore rispetto allo schema base *: risultato statisticamente peggiore rispetto allo schema base Vettore (xx/yy/zz): indica su quanti dataset lo schema è stato migliore/equivalente/peggiore rispetto allo schema base % di istanze classificate correttamente dataset analizzati

Analisi dei risultati: Cross Validazione Algoritmo Il dataset è diviso in k subset. Ogni subset è diviso in training set e test set For i:=1 to k Definisci una funzione che predice i dati testa la funzione sui K-1 dataset precedenti come test set Calcolo del Mean Absolute Error Computa l’errore medio su tutti i k subset Funzione con rumore Vantaggio: utilizzando tanti subset, il metodo è poco influenzato da come sono suddivisi i dati. All’aumentare di K si ottiene una maggiore precisione della previsione Svantaggio: l’algoritmo deve iterare k volte per svolgere una valutazione Funzione senza rumore

WEKA: Knowledge Flow Interfaccia grafica innovativa che rappresenta un flusso informativo Basato sulla piattaforma Java Beans DB sorgenti, classifiers, etc. sono beans e possono essere connessi graficamente I Layout ottenuti possono essere salvati Cambiando le impostazioni del datasource, si può eseguire lo stesso flusso su diversi dataset Esempio di un tipico flusso di dati: data source filter classifier evaluator

Grazie per l’attenzione! WEKA: the bird Grazie per l’attenzione!