I NTRODUZIONE AL W EKA Umberto Panniello DIMEG, Politecnico di Bari Modelli di e-business e business intelligence Cdl Ingegneria Informatica.

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

Gli Algoritmi di ordinamento
Corso di Informatica Corso di Laurea in Conservazione e Restauro dei Beni Culturali Gianluca Torta Dipartimento di Informatica Tel: Mail:
Sistemi di Classificazione usando NCD
Interazione Uomo - Macchina
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità A1 Introduzione a Java.
Informatica Recupero debito quarto anno Terzo incontro.
Re-engineering del wrapper XML Schema per il sistema MOMIS
Fondamenti di Informatica I CDL in Ingegneria Elettronica - A.A CDL in Ingegneria Elettronica - A.A Il Problema dellordinamento.
Fondamenti di Informatica I CDL in Ingegneria Elettronica - A.A CDL in Ingegneria Elettronica - A.A Il Problema dellordinamento.
8. Problemi ricorrenti: ordinamento e ricerca Ing. Simona Colucci
4 – Progettazione – Introduzione e Modello E-R
Informatica giuridica Hardware e software: glossario Lucio Maggio Anno Accademico 2000/2001.
I Sistemi di Supporto alle Decisioni Chiara Mocenni
Sistemi di supporto alle decisioni 2. Features space
Regressione logistica
ALGORITMI DI OTTIMIZZAZIONE PER L'ADDESTRAMENTO DI RETI NEURALI
Tipo Documento: unità didattica 4 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
Apprendimento Automatico: Apprendimento Pigro (Lazy Learning)
Architettura Three Tier
WEKA: Machine Learning Algorithms in java
Waikato Environment for Knowledge Analysis
Marco CristaniTeoria e Tecniche del Riconoscimento1 Notizie preliminari Introduzione Facoltà di Scienze MM. FF. NN. Università di Verona A.A
Tecniche e algoritmi di base per l’estrazione di conoscenza
Antonio Messeni Petruzzelli DIMeG,Politecnico di Bari, Italia Economia ed Organizzazione Aziendale (A-K) CdL in Ing. Meccanica CdL in Ing. Meccanica Disoccupazione.
Corso di Laurea in Ingegneria per lAmbiente e il Territorio Informatica per lAmbiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.
Analisi di un dataset di perizie assicurative
Chapter 14, Hastie , Tibshirani and Friedman
Modello Relazionale Definisce tipi attraverso il costruttore relazione, che organizza i dati secondo record a struttura fissa, rappresentabili attraverso.
Elementi di Informatica
Sistemi a Regole Ettore Colombo 13 Dicembre 2006 Ingegneria della Conoscenza e Sistemi Esperti.
LSA - Laboratorio di Sistemi Informativi Economico-Aziendali
BUILDING A USER INTERFACE Using CRYSTAL REPORTS. COME UNAPPLICAZIONE COMUNICA CON LUTENTE? Problema comune a tutte le applicazioni informatiche Forse.
Modulo 1 - Hardware u.d. 3 (syllabus – 1.3.5)
Il componente Query Manager del sistema MOMIS: testing ed analisi delle performance UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA _____________________________________________________.
Riconoscitori di lingua in documenti testuali
1 w w w. g a t 4. c o m WI GAT WebIngelligence rappresenta una piattaforma funzionale e tecnologica per la creazione e gestione di un datawarehouse che.
Modelli predittivi delle agenzie di rating internazionali: il modello MEU evoluto (maximum expected utility) Mattia Ciprian*, Daria Marassi°, Valentino.
Perche’ scegliere questo curriculum?
STATISTICA PER LE DECISIONI DI MARKETING
Ingegneria del software Modulo 1 -Introduzione al processo software Unità didattica 3 - Modelli di fase danalisi Ernesto Damiani Università degli Studi.
Evolve. Il software EVOLVE consente un veloce accesso, visualizzazione ed estrazione dei dati contenuti nel data base dellAmministrazione del Personale.
Corso di Informatica Corso di Laurea in Conservazione e Restauro dei Beni Culturali Gianluca Torta Dipartimento di Informatica Tel: Mail:
Corso di Informatica Corso di Laurea in Conservazione e Restauro dei Beni Culturali Gianluca Torta Dipartimento di Informatica Tel: Mail:
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA DIPARTIMENTO DI INGEGNERIA “Enzo Ferrari” Corso di Laurea in Ingegneria Informatica Anno Accademico 2013/2014.
Tipo Documento: unità didattica 4 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
Sistemi Informativi A. A. 2013/14 WEKA. WEKA Explorer.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Algoritmi di classificazione e reti neurali Seminario su clustering dei dati Università Sapienza di Roma Dipartimento di ingegneria Informatica, Automatica.
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
Database Elaborato da: Claudio Ciavarella & Marco Salvati.
Miner 3D Sistemi Informativi per le decisioni Professore Ing. Marco Patella Anno accademico Presentazione a cura di Di Leo Valentina - Palmieri.
Java & JESS Ettore Colombo 10 Gennaio 2007 Ingegneria della Conoscenza e Sistemi Esperti.
Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni a.a Waikato Environment for Knowledge Analysis Data.
DATA MINING.
INTELLIGENZA ARTIFICIALE
Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Esercitazione no. 4 EXCEL II Laboratorio di Informatica AA 2009/2010.
Alma Mater Studiorum – Università di Bologna
Sviluppo ed implementazione di un software per il car pooling
ICT e Sistemi informativi Aziendali Materiale di supporto alla didattica.
1 Lixto tools evaluations for HTML data Integration in Momis Lixto tools evaluations for HTML data Integration in Momis Università degli Studi di Modena.
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
1 SISTEMI INFORMATIVI TERRITORIALI LABORATORIO L’APPLICAZIONE AUTODESK MAP UNIVERSITA’ DEGLI STUDI DI NAPOLI FEDERICO II CORSO DI LAUREA IN SCIENZE GEOLOGICHE.
Il pretrattamento La fase di pretrattamento nel DM è pesante e delicata Oltre ai problemi connessi con i valori mancanti e alla mancanza di alcune informazioni.
Introduzione a Weka Di Fabio Cassano
#sqlsatTorino #sqlsat400 May 23, 2015 AzureML - Creating and Using Machine Learning Solutions Davide
Filter Design & Analysis Toolbox. FDATool(1) Quello di cui andremo a parlare in questa sezione è una interfaccia grafica (GUI) che permette di progettare.
Transcript della presentazione:

I NTRODUZIONE AL W EKA Umberto Panniello DIMEG, Politecnico di Bari Modelli di e-business e business intelligence Cdl Ingegneria Informatica

K NOWLEDGE DISCOVERY IN DB

D AI DATI ALL ’ INFORMAZIONE La società produce una grossa quantità di dati fonti: business, science, medicina, economia, geografia, ambiente, sports, … Potenzialmente sono fonti di grande valore Servono tecniche per estrarre informazione interessante automaticamente dai dati Cosa vuol dire interessante? Nuova Implicita Potenzialmente utile Comprensibile

WEKA: THE BIRD

WEKA: IL SOFTWARE E’ un software di Machine learning/data mining scritto in Java Utilizzato nella ricerca, nella didattica, e nelle applicazioni “Data Mining” by Witten & Frank Principali caratteristiche: Set completo di strumenti per il pre-processing, algoritmi di apprendimento e metodi di valutazione Graphical user interfaces (incl. data visualization) Ambiente per confrontare i risultati degli algoritmi

Graphical User Interface

E XPLORER Comprende le seguenti funzioni Pre-process Classify Cluster Associate Select attributes Visualize

E XPLORER : P RE - PROCESSING Possono essere importati dati in input di diversi estensioni: ARFF, CSV, C4.5, binary I dati possono essere letti da un URL o da un data base SQL Gli strumenti di pre processing sono chiamati “ filtri ” WEKA contiene filtri per: Discretization, normalization, resampling, attribute selection, transforming and combining attributes

I F ILTRI Servono a “trasformare” i dati. Si dividono in: Unsupervised (no conosco classe) Supervised (conosco classe) Inoltre, si distingue tra: Attribute filters Instance filters

E SEMPIO DI INPUT Y= F ( X ) AgeSpectacle prescriptionAstigmatismTear production rate Recommended lenses YoungMyopeNoReducedNone YoungMyopeNoNormalSoft YoungMyopeYesReducedNone YoungMyopeYesNormalHard YoungHypermetropeNoReducedNone YoungHypermetropeNoNormalSoft YoungHypermetropeYesReducedNone YoungHypermetropeYesNormalhard Pre-presbyopicMyopeNoReducedNone Pre-presbyopicMyopeNoNormalSoft Pre-presbyopicMyopeYesReducedNone Pre-presbyopicMyopeYesNormalHard Pre-presbyopicHypermetropeNoReducedNone Pre-presbyopicHypermetropeNoNormalSoft Pre-presbyopicHypermetropeYesReducedNone Pre-presbyopicHypermetropeYesNormalNone PresbyopicMyopeNoReducedNone PresbyopicMyopeNoNormalNone PresbyopicMyopeYesReducedNone PresbyopicMyopeYesNormalHard PresbyopicHypermetropeNoReducedNone PresbyopicHypermetropeNoNormalSoft PresbyopicHypermetropeYesReducedNone PresbyopicHypermetropeYesNormalNone Raw Istanze Columns = Attributi Class

E XPLORER : C LASSIFIERS Classifiers: sono modelli per predire quantità numeriche o nominali Algoritmi implementati sono: Decision trees and rules, instance-based classifiers, support vector machines, multi-layer perceptrons (reti neurali), logistic regression,…

E XPLORER : C LUSTERING I “clusterers” creano insieme di istanze tali che: le istanze dello stesso cluster sono simili tra loro alta somiglianza intra-classe le istanze di cluster diversi sono dissimili bassa somiglianza inter-classe Alcuni algoritmi implementati sono: k -Means, EM, Cobweb, X -means, FarthestFirst

E XPLORER : A SSOCIATIONS Permettono di trovare associazioni di dipendenza statistica fra attributi Es: Sia data la regola: compra(x,”pannolino”) => compra(x,”birra”) Supporto : la percentuale di acquisti che comprendono sia i pannolini che la birra. Confidenza : tra gli acquisti che includono i pannolini, la percentuale di quelli che includono anche la birra.

E XPLORER : A TTRIBUTE SELECTION Algoritmi che permettono di investigare quali sottoinsiemi di attributi hanno maggiore capacità predittiva Tali algoritmi constano di 2 parti: Un metodo di valutazione: correlation-based, wrapper, information gain, chi-squared, … Un metodo di ricerca: best-first, forward selection, random, exhaustive, genetic algorithm, ranking

E XPLORER : DATA VISUALIZATION WEKA permette di visualizzare singoli attributi (1-d) e coppie di attributi (2-d) “Jitter” per aumentare il grado di dettaglio delle rappresenazioni dei dati Funzioni di “Zoom-in” function Selezione dei dati da grafico

Graphical User Interface

T HE K NOWLEDGE F LOW GUI Permette di impostare un esperimento in maniera grafica Permette di unire le diverse funzioni dell’explorer graficamente “data input” -> “filter” -> “classifier” -> “evaluator” I Layout possono essere salvati e caricati successivamente

Graphical User Interface

C ONFUSION MATRIX

P RECISION, R ECALL AND F-M EASURE