Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni a.a. 2008-2009 Waikato Environment for Knowledge Analysis Data.

Slides:



Advertisements
Presentazioni simili
Analisi dati con Excel Parte I.
Advertisements

I dati Qualsiasi contenuto dell’esperienza.
Lezione 8 Anno accademico Titolare corso: Prof. Costanza Torricelli
Sistemi di Classificazione usando NCD
Intervalli di confidenza
DATAWAREHOUSE - Microstrategy
Richiami di Identificazione Parametrica
Alberi binari di ricerca
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Inferenza statistica per un singolo campione
Capitolo 4 Ordinamento Algoritmi e Strutture Dati.
Valutazione delle ipotesi
Computational Learning Theory and PAC learning
CONFRONTO TRA DUE MEDIE:
ALBERI DECISIONALI prima parte
Appunti di inferenza per farmacisti
WEKA: Machine Learning Algorithms in java
Algoritmi e Strutture Dati III. Algoritmi di Ordinamento
Algoritmi di ordinamento
Waikato Environment for Knowledge Analysis
ISTOGRAMMI E DISTRIBUZIONI : i xixi
Access: Query semplici
Analisi di un dataset di perizie assicurative
CALCOLO EVOLUZIONISTICO. In ogni popolazione si verificano delle mutazioni. Le mutazioni possono generare individui che meglio si adattano allambiente.
Linee guida per la Chimica Analitica Statistica chemiometrica
APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA
Esercizio 10.* Un cassiere vuole dare un resto di n centesimi di euro usando il minimo numero di monete. a) Descrivere un algoritmo goloso per fare ciò.
Programma Impostazione di un nuovo Progetto
Marco Nanni Applicazioni di Intelligenza Artificiale.
MEDIE STATISTICHE.
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Elenchi in Excel E’ possibile inserire le voci del nuovo elenco oppure
TRATTAMENTO DEI DATI ANALITICI
CLUSTERING WITH WEKA Branca Stefano Dosi Clio Gnudi Edward William.
BIOINFO3 - Lezione PARSING RISULTATI DI BLAST Nella lezione di ieri abbiamo visto come automatizzare lesecuzione di BLAST. Oggi proviamo.
BIOINFO3 - Lezione 111 CGI-BIN CGI-BIN sono chiamati i programmi la cui esecuzione può essere richiesta attraverso il WEB. Il server web (httpd) della.
Le Toolbar di default Quando avviamo Writer vengono visualizzate di default due toolbar o barre degli strumenti La toolbar superiore è definita Standard.
Microsoft Access (parte 5) Introduzione alle basi di dati Scienze e tecniche psicologiche dello sviluppo e dell'educazione, laurea magistrale Anno accademico:
Sistemi Informativi A. A. 2013/14 WEKA. WEKA Explorer.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Microsoft Access Maschere (II).
S TAMPA IN SERIE. P ASSO 1 Scaricare il foglio di calcolo che verrà utilizzato come sorgente dei dati.
Esercitazione su Vector. Permette di definire collezioni di dati generiche, che sono in grado di memorizzare elementi di ogni sottotipo di Object Definito.
Lezione 19 Riccardo Sama' Copyright  Riccardo Sama' Access.
Misura di una quantità fisica
1 Ordinamento (Sorting) INPUT: Sequenza di n numeri OUTPUT: Permutazione π = tale che a 1 ’  a 2 ’  … …  a n ’ Continuiamo a discutere il problema dell’ordinamento:
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
1 Ordinamento (Sorting) Input: Sequenza di n numeri Output: Permutazione π = tale che: a i 1  a i 2  ……  a i n Continuiamo a discutere il problema dell’ordinamento:
Alma Mater Studiorum – Università di Bologna
Eseguire calcoli con le funzioni ………….. Che cosa sono le funzioni? Le funzioni sono formule predefinite che eseguono una serie di operazioni su un determinato.
Elaborazione statistica di dati
Università degli Studi di Cagliari FACOLTA’ DI INGEGNERIA
ANALISI E INTERPRETAZIONE DATI
Economia e Organizzazione Aziendale
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Numeri in virgola Marco D. Santambrogio – Ver. aggiornata al 24 Agosto 2015.
0 Laboratorio Informatica - SAS – Anno Accademico LIUC Creazione di output sommarizzato 5.1 Generazione di statistiche di riepilogo 5.2 Creazione.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
Problemi analitici quantitativi I metodi chimico-analitici strumentali hanno lo scopo di quantificare o di determinare proprietà chimico-fisiche di uno.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Numeri con segno ed in virgola Marco D. Santambrogio – Ver. aggiornata al 20 Marzo.
Porting RGCAD - Gianfranco Gargano II Corso di formazione INFN su aspetti pratici dell'integrazione di applicazioni in GRID Porting RGCAD.
I DONEITÀ DI C ONOSCENZE E C OMPETENZE I NFORMATICHE ( A – D ) Un database è un insieme di record (registrazioni) e di file (archivi) organizzati per uno.
Introduzione a Weka Di Fabio Cassano
La funzione CASUALE. Gli istogrammi.
03/06/20161 SPSS Statistics Statistical Package for Social Science.
I NTRODUZIONE AL W EKA Umberto Panniello DIMEG, Politecnico di Bari Modelli di e-business e business intelligence Cdl Ingegneria Informatica.
Transcript della presentazione:

Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni a.a Waikato Environment for Knowledge Analysis Data preprocessing e regole associative Cicolella Claudio, Minetti Elena, Triscari Dario

Weka Formato.arff Preprocess Non supervisionati Attributi: Discretize Remove ReplaceMissingValues Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize AttributeSelection Istanze: Resample Associate Apriori Argomenti

Weka Formato.arff Preprocess Non supervisionati Attributi: Discretize Remove ReplaceMissingValues Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize AttributeSelection Istanze: Resample Associate Apriori Argomenti

Weka

Weka: preprocess e associate Preprocess: permette di caricare e modificare i dati su cui eseguire le varie elaborazioni Asssociate: permette l’elaborazione e valutazione di regole di associazione Weka

Formato.arff Preprocess Non supervisionati Attributi: Discretize Remove ReplaceMissingValues Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize AttributeSelection Istanze: Resample Associate Apriori Argomenti

Sezione Header Sezione Data ARFF (Attribute Relationship File Format) Formato.arff

Weka Formato.arff Preprocess Non supervisionati Attributi: Discretize Remove ReplaceMissingValues Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize AttributeSelection Istanze: Resample Associate Apriori Argomenti

Preprocess

Filtri

Supervisionati: esiste un attributo speciale, il class attribute, che viene usato per guidare le operazioni di filtraggio Non supervisionati: tratta tutti gli attributi allo stesso modo Filtri

Attribute: operano su un singolo o più attributi selezionati Istanze: operano a livello di tuple prendendo in considerazione la totalità degli attributi Filtri

Weka Formato.arff Preprocess Non supervisionati Attributi: Discretize Remove ReplaceMissingValues Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize AttributeSelection Istanze: Resample Associate Apriori Argomenti

Questo tipo di filtro serve per convertire gli attributi numerici in etichette stringa. attributeIndices: permette di selezionare l’attributo o gli attributi da discretizzare bins: permette di scegliere il numero di bin makeBinary: se settato “true”rende gli attributi finali in formato binario useEqualFrequency: se settato “true”verranno formati bin di uguale frequenza invece che di uguale larghezza findNumBins: ottimizza il numero di bin di uguale larghezza utilizzando il metodo leave-one-out; non è applicabile con useEqualFrequency desiredWeightOfInsta ncesPerInterval: larghezza dell’intervallo nella divisione in bin di uguale profondità ignoreClass: se settato “true” ignora la classificazione prima di applicare il filtro invertSelection: se settato “true” il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices Filtri non supervisionati : Discretize

attributeIndices: permette di selezionare l’attributo da rimuovere invertSelection: se settato “true” il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices Filtri non supervisionati : Remove Questo tipo di filtro serve per eliminare dal dataset un attributo con tutti i relativi valori.

ignoreClass: se settato “true” ignora la classificazione prima di applicare il filtro Filtri non supervisionati : ReplaceMissingValue Questo tipo di filtro serve per sostituire i valori mancanti all’interno del dataset con la moda nel caso di dati categorici e con la media nel caso di dati numerici.

ignoreClass: se settato “true” ignora la classificazione prima di applicare il filtro scale: fattore di scala translation: fattore di scala Filtri non supervisionati : Normalize Questo tipo di filtro agisce sui range di variazione degli attributi uniformandoli a [0,1] (default) o ad altri intervalli.

μ= valor medio statistico σ= deviazione standard ignoreClass: se settato “true” ignora la classificazione prima di applicare il filtro Filtri non supervisionati : Standardize Questo tipo di filtro applica un altro tipo di normalizzazione ottenendo che gli attributi numerici siano distribuiti con valor medio nullo e deviazione standard unitaria.

invertSelection: permette di invertire la selezione di istanze (solo se sampling senza replacement) NoReplacement : permette di disabilitare la sostituzione dei valori originali randomSeed: permette di scegliere il “seme” alla base della generazione dei numeri casuali sampleSizePercent: permette di scegliere la percentuale del data set originale fornita in output Filtri non supervisionati : Resample Questo tipo di filtro attua una riduzione verticale producendo un sottoinsieme casuale delle istanze del data set sia sostituendo i valori originale che mantenendo quelli già presenti.

Weka Formato.arff Preprocess Non supervisionati Attributi: Discretize Remove ReplaceMissingValues Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize AttributeSelection Istanze: Resample Associate Apriori Argomenti

attributeIndices: permette di selezionare l’attributo o gli attributi da discretizzare makeBinary: se settato “true”rende gli attributi finali in formato binario invertSelection: se settato “true” il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices Filtri supervisionati : Discretize Questo tipo di filtro serve per convertire gli attributi numerici in etichette stringa.

Filtri supervisionati : AttributeSelection Questo tipo di filtro permette l’accesso alle funzioni di selezione di attributi così come nella sezione Select attributes. evaluator: permette di selezionare il parametro su cui effettuare la valutazione search: metodo attraverso cui effettuare la valutazione numToselect: permette di scegliere numero di attributi da selezionare startSet: permette di selezionare un elenco di attributi da ignorare threshold: valore soglia del valutatore

biasToUniformClass: permette di settare un valore che varia da 0 (non variando la distribuzione) a 1 (rendendo la distribuzione uniforme) invertSelection: permette di invertire la selezione di istanze (solo se sampling senza replacement) NoReplacement : permette di disabilitare la sostituzione dei valori originali randomSeed: permette di scegliere il “seme” alla base della generazione dei numeri casuali sampleSizePercent: permette di scegliere la percentuale del data set originale fornita in output Filtri supervisionati : Resample Questo tipo di filtro produce un sottoinsieme di valori casuali del data set originale con o senza replacement. In aggiunta rispetto alla versione non supervisionata, tenta di mantenere la distribuzione dell’attributo classe o di correggerne il bias.

Weka Formato.arff Preprocess Non supervisionati Attributi: Discretize Remove ReplaceMissingValues Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize AttributeSelection Istanze: Resample Associate Apriori Argomenti

Weka: preprocess e associate Associate

Alcuni esempi: Apriori: algoritmo Apriori per le regole associative PredictiveApriori: algoritmo Apriori che trova regole di associazione ordinate per accuratezza nella predizione; questo parametro è ricavato da una combinazione di confidenza e supporto Tertius: algoritmo a conferma guidata durante la scoperta di regole di associazione Algoritmi per regole associative

Come funziona Apriori in Weka ? Apriori in Weka comincia con il supporto minimo all'estremo superiore e diminuisce il supporto di Delta ad ogni iterazione. Si arresta quando è stato generato il numero richiesto di regole, oppure è stato raggiunto l'estremo inferiore per il supporto minimo. Regole associative: Apriori

car: settato “true” vengono generate regole associative dove il class attribute è conseguente classIndex: indice del class attribute; se settato a -1 l’ultimo attributo è preso come class attribute delta: permette di settare il valore delta metricType: permette di scegliere la metrica secondo cui ordinare e selezionare i risultati lowerBoundMinSupp ort: lower bound per il supporto Regole associative: Apriori

Data la regola L => R: confidence = Pr(L,R) / Pr(L) lift = Pr(L,R) / Pr(L)*Pr(R) leverage = Pr(L,R) - Pr(L)*Pr(R) conviction = Pr(L)*Pr(not R) / Pr(L,R) Apriori: metricType

numRules: permette di selezionare il numero di regole che si vuole vengano generate removeAllMissingCols: rimuove dal dataset le colonne con tutti i valori mancanti. upperBoundMinSup port: upper bound per il supporto minimo minMetric: considera solo le regole che superano questo valore outputItemSets: se settato “true”vengono mostrati gli itemset frequenti verbose: se abilitato esegue l’algoritmo in modalità verbose Regole associative: Apriori

Associate