Tecniche e algoritmi di base per l’estrazione di conoscenza

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Macchine di Percezione
Il senso dei dati: Elaborazione e Interpretazione.
____________________
Sistemi di Classificazione usando NCD
PHP.
LA MICROSEGMENTAZIONE DEL MERCATO
1 Il punto di vista Un sistema è una parte del mondo che una persona o un gruppo di persone, durante un certo intervallo di tempo, sceglie di considerare.
Sistemi di supporto alle decisioni Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dellInformazione Università di Siena
Sistemi di supporto alle decisioni 2. Features space
Quali sono i clienti che l’azienda è in grado di soddisfare?
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
La piattaforma di BI si basa essenzialmente su un sistema di metadati centralizzato che garantisce la consistenza delle informazioni e consente la navigazione.
Inferenza statistica per un singolo campione
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Ordinamenti ottimi.
ON LINE ANALYTICAL TRANSACTION PROCESSING (OLAP)
Tipo Documento: unità didattica 4 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
Apprendimento Non Supervisionato
Obiettivi del corso di Statistica Medica.
ALBERI DECISIONALI prima parte
attraverso la segmentazione
Corso di Finanza Aziendale
SITUAZIONE PATRIMONIALE ATTIVITA INVESTIMENTI MATERIALI Beni materiali dalla vita relativamente lunga INVESTIMENTI IMMATERIALI Beni che non hanno consistenza.
PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI
Campionamento Capitolo 3.
Progettare una ricerca: approcci e metodologie
Seminario su clustering dei dati – Parte I
Scene Modelling, Recognition and Tracking
L’indagine OCSE-PISA: il framework e i risultati per la matematica
Data Mining Giorgio Pedrazzi CINECA Torino, 20 febbraio 2003.
Tecniche e algoritmi di base per l’estrazione di conoscenza
Analisi dei gruppi – Cluster Analisys
Data mining for e-commerce sites
Chapter 14, Hastie , Tibshirani and Friedman
L’analisi strategica capitolo 28
Il Sistema informativo e la ricerca di Marketing Maria De Luca
METODI E CONTROLLI STATISTICI DI PROCESSO
STATISTICA PER LE DECISIONI DI MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Il ciclo finanziario dell’impresa
Docente: Roberto Basili Fond Inf (a.a ) Introduzione alla Progettazione Concettuale R. Basili.
Le distribuzioni campionarie
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
CLUSTERING WITH WEKA Branca Stefano Dosi Clio Gnudi Edward William.
Mining Frequent patterns without Candidate Generation
STATISTICA PER LE DECISIONI DI MARKETING
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
Principi di marketing.
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.
Statistica La statistica è
Tipo Documento: unità didattica 4 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
SCHEDA INFORMATIVA DI UNITÀ
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
5 C A P I T O L O 5 Marketing J. Paul Peter James H. Donnelly, Jr. La segmentazione del mercato.
IL CAMPIONE.
Paola Disisto, Erika Griffini, Yris Noriega.  Insieme ordinato di operazioni non ambigue ed effettivamente computabili che, quando eseguito, produce.
Hashing. 2 argomenti Hashing Tabelle hash Funzioni hash e metodi per generarle Inserimento e risoluzione delle collisioni Eliminazione Funzioni hash per.
DATA MINING.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
INDICATORI SOCIALI E VALUTATIVI
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
ICT e Sistemi informativi Aziendali Materiale di supporto alla didattica.
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
Access Breve introduzione. Componenti E’ possibile utilizzare Access per gestire tutte le informazioni in un unico file. In un file di database di Access.
Campionamento procedimento attraverso il quale si estrae, da un insieme di unità (popolazione) costituenti l’oggetto delle studio, un numero ridotto di.
Introduzione a Weka Di Fabio Cassano
Data warehouse(B.2.8) Nei database ci sono molti dati di tipo diverso e ciascuna tipologia di dato può avere un formato diverso. Alcuni provengono da legacy.
Transcript della presentazione:

Tecniche e algoritmi di base per l’estrazione di conoscenza Data Mining Tecniche e algoritmi di base per l’estrazione di conoscenza

Cosa vedremo ... Motivazione al data mining Panoramica approcci di base Idee generali algoritmi di base Collegamenti con discipline coinvolte Esempi applicativi

Cosa non vedremo ... Algoritmi nello specifico Tecniche avanzate

Data mining Introduzione

Knowledge Discovery La maggior parte delle aziende dispone di enormi basi di dati contenenti dati di tipo operativo Queste basi di dati costituiscono una potenziale miniera di utili informazioni

Knowledge Discovery Processo di estrazione dai dati esistenti di pattern: valide precedentemente sconosciute potenzialmente utili comprensibili [Fayyad, Piatesky-Shapiro, Smith 1996]

Esempio Prestiti o x Stipendio Persone che hanno ricevuto un prestito dalla banca: x: persone che hanno mancato la restituzione di rate o: persone che hanno rispettato le scadenze

Knowledge Discovery Dati: insieme di informazioni contenute in una base di dati o data warehouse Pattern: espressione in un linguaggio opportuno che descrive in modo succinto le informazioni estratte dai dati regolarita` informazione di alto livello

Esempio o o o o o Prestiti x x x o o o x x o x x o x o x o x o o x x o k Stipendio IF stipendio < k THEN mancati pagamenti

Caratteristiche dei pattern Validita`: i pattern scoperti devono essere validi su nuovi dati con un certo grado di certezza Esempio: spostamento a destra del valore di k porta riduzione del grado di certezza Novita`: misurata rispetto a variazioni dei dati o della conoscenza estratta

Caratteristiche dei pattern Utilita` Esempio: aumento di profitto atteso dalla banca associato alla regola estratta Comprensibilita`: misure di tipo sintattico semantico

Processo di estrazione dati dati selezionati DATA MINING dati processati dati trasformati pattern conoscenza

Requisiti Dati eterogenei efficienza e scalabilita` tecniche qualita`informazioni estratte criteri diversificati di estrazione privatezza dei dati

Discipline coinvolte AI machine learning knowledge acquisition statistics data visualization neural networks database data mining Dati in memoria centrale Dati in memoria secondaria

Data Mining Tecniche di analisi

Tecniche di analisi Regole di associazione Classificazione Clustering Similarity search

Regole di associazione Dati del problema: I insieme di items prodotti venduti da un supermercato transazione T: insieme di items t.c. T  I oggetti acquistati nella stessa transazione di cassa al supermercato base di dati D: insieme di transazioni

Regole di associazione Regola di associazione X  Y X,Y  I Supporto S: #trans. contenenti XY #trans. in D rilevanza statistica Confidenza C: #trans. contenenti XY #trans. contenenti X significativita` dell’implicazione

Esempio Latte  Uova Supporto: il 30% delle transazioni che contengono latte contiene anche uova Confidenza: il 2% delle transazioni contiene entrambi gli elementi

Regole di associazione Problema: determinare tutte le regole con supporto e confidenza superiori ad una soglia data

Esempio Assumiano: supporto minimo 50% confidenza minima 50% TRANSACTION ID 2000 1000 4000 5000 OGGETTI ACQUISTATI A,B,C A,C A,D B,E,F Assumiano: supporto minimo 50% confidenza minima 50%

Esempio Regole ottenute: A  C supporto 50% confidenza 66.6 TRANSACTION ID 2000 1000 4000 5000 OGGETTI ACQUISTATI A,B,C A,C A,D B,E,F Regole ottenute: A  C supporto 50% confidenza 66.6 C  A supporto 50% confidenza 100%

Applicazioni Analisi market basket Latte  * Dimensione del problema: *  uova cosa si deve promuovere per aumentare le vendite di uova? Latte  * quali altri prodotti devono essere venduti da un supermercato che vende latte? Dimensione del problema: oggetti: 104, 105, transazioni: > 106 base di dati: 10-100 GB

Settori di sviluppo Teniche definite prevalentemente nel contesto data mining

Decomposizione problema Trovare tutti gli insiemi di item che hanno un supporto minimo (frequent itemsets) Generazione delle regole a partire dai frequent itemsets Algoritmo fondamentale: APRIORI [Agrawal, Srikant 1994]

Esempio Passo 1: estrazione frequent itemsets supporto minimo 50% TRANSACTION ID 1 2 3 4 OGGETTI ACQUISTATI A,B,C A,C A,D B,E,F FREQUENT ITEMSET {A} {B} {C} {A,C} SUPPORTO 75% 50%

Esempio Passo 2: estrazione regole confidenza minima 50% Esempio: regola A  C supporto {A,C} = 50% confidenza = supporto {A,C}/supporto{A} = 66.6% regole estratte A  C supporto 50%, conf. 66.6% A  C supporto 50%, conf. 100%

Interesse regole estratte Non sempre tutte le regole con supporto e confidenza superiori alla soglia sono interessanti Esempio: scuola con 5000 studenti 60% (3000) gioca a pallacanestro 75% (3750) mangia fiocchi a colazione 40% (2000) gioca a pallacanestro e mangia fiocchi a colazione

Interesse regole estratte Con supporto min. 40% e confidenza min. 60%: gioca a pallacanestro  mangia fiocchi supporto = 2000/5000 = 0.4 confidenza = 2000/3000 = 0.66 > 0.6 regola fuorviante perche` il 75% degli studenti mangia fiocchi! Nuova misura: supporto(A,B) - supporto(B) supporto(A)

Estensioni Regole generalizzate vino  dolci, valida anche se: bevande  dolci non ha confidenza suff. Moscato WXY  dolci non ha supporto suff. alimentari bevande dolci limonata vino panforte panettone Moscato WXY

Estensioni Estrazione da dati di tipo numerico Metaregole partizionamento in intervalli misura della perdita di informazione dovuta al partizionamento sposato, eta` 50-60 anni  2 automobili Metaregole Ottimizzazione algoritmi: riduzione scan database campionamento update incrementale algoritmi paralleli

Classificazione Dati del problema: Problema: insieme di classi insieme di oggetti etichettati con il nome della classe di appartenenza (training set) Problema: trovare il profilo descrittivo per ogni classe, utilizzando le features dei dati contenuti nel training set, che permetta di assegnare altri oggetti, contenuti in un certo test set, alla classe appropriata

Applicazioni Classificazione tendenze di mercato identificazione automatica di immagini identificazione del rischio in mutui/assicurazioni efficiacia trattamenti medici

Settori di sviluppo Statistica machine learning reti neurali alberi di decisione inductive logic programming reti neurali sistemi esperti data mining

Ipotesi di funzionamento Training set contenuto nella memoria principale del sistema Nelle DB attuali possono essere disponibili anche Mbyte di training set dimensioni significative del training set possono migliorare l’accuratezza della classificazione

Alberi di decisione Veloci rispetto agli altri metodi Facili da interpretare tramite regole di classificazione Possono essere convertiti in interrogazioni SQL per interrogare la base di dati

Esempio ETA` 40 65 20 25 50 TIPO AUTO familiare sportiva utilitaria CLASSE RISCHIO basso alto Eta` < 26 si no Alto Tipo auto utilitaria sportiva familiare Alto Basso Alto

Costruzione albero Due fasi: fase di build: si costruisce l’albero iniziale, partizionando ripetutamente il training set sul valore di un attributo, fino a quando tutti gli esempi in ogni partizione appartengono ad una sola classe fase di pruning: si pota l’albero, eliminando rami dovuti a rumore o fluttuazioni statistiche

Fase di build Maketree(training set T) {Partition(T)} Partition(Data set S) { if (tutti i punti in S sono nella stessa classe) then return for tutti gi attributi A do valuta gli splits su A usa split migliore per partizionare S in S1 e S2 Partition(S1) Partition(S2) }

Split Su attributi numerici Su attributi categorici A  v v1 v2 v3 v4 v5 s1 s2 s3 s4 valori di split Su attributi categorici A = s1, per ogni s1 nel dominio di A, se e`piccolo euristica altrimenti

Indici di splitting Diverse tipologie di indice Indice Gini: dataset T con esempi di n classi gini(T) = 1 - i pi2 con pi frequenza class i in T Se T viene suddiviso in T1 con n1 esempi e T2 con n2 esempi: ginisplit(T) =(n1/n) gini(T1) + (n2/n) gini(T2)

Fase di pruning Due modalita`di base si estraggono campioni multipli dal training set e si costruiscono alberi indipendenti gli alberi vengono utilizzati per stimare il tasso di errore dei sottolaberi dell’albero di partenza non appropriato per training set molto grandi si divide il training set in due parti: costruzione albero pruning si puo`ridurre l’accuratezza della costruzione dell’albero i dati per il pruning devono riflettere la vera distribuzione dei dati

Estensioni Split su attributi multipli gestione training set in memoria secondaria tecniche machine learning e statistica in memoria centrale

Clustering Dati del problema: Problema: base di dati di oggetti trovare una suddivisione degli oggetti in gruppi in modo che: gli oggetti in un gruppo siano molto simili tra di loro oggetti in gruppi diversi siano molto diversi i gruppi possono essere anche sovrapposti o organizzati gerarchicamente

Applicazioni Identificazione di popolazioni omogenee di clienti in basi di dati di marketing valutazione dei risultati di esperimenti clinici monitoraggio dell’attivita` di aziende concorrenti

Settori di sviluppo Statistica machine learning database spaziali data mining

Esempio x x x x x Prestiti x x x x x x x x x x x x x x x x x x x x x x Stipendio

Approcci Approccio statistico: Machine learning: dati = punti nello spazio misure globali oggetti noti a priori non scalabili Machine learning: conceptual clustering

Approcci Data mining: si determinano i rappresentanti di ogni cluster si cercano gli elementi “simili” si aggiorna il methoid Gli algoritmi si differenziano principalmente nella scelta del medoid

Estensioni Molti algoritmi solo per memoria centrale Utilizzo di tecniche di indice spaziale per clusterizzazione dati su disco

Similarity search Dati del problema: Problema:determinare base di dati di sequenze temporali Problema:determinare sequenze simili ad una sequenza data tutte le coppie di sequenze simili

Applicazioni Identificazione delle societa`con comportamento simile di crescita determinazione di prodotti con profilo simile di vendita identificazione di azioni con andamento simile individuazione porzioni onde sismiche non simili per determinare irregolarita`geologiche

Settori di sviluppo Database temporali speech recognition techniques database spaziali

Tecniche Due tipi di interrogazione match completo: la sequenza cercata e le sequenze della base di dati hanno la stessa lunghezza match parziale: la sequenza cercata puo`essere sottosequenza di quelle recuperate dalla base di dati Possibilita`di traslazioni, variazioni di scala

Esempio tempo prezzo AZIONE A tempo prezzo tempo prezzo tempo prezzo AZIONE B

Misure Euclidea correlazione match con sequenze aventi la stessa lunghezza si devono generare tutte le sottosequenze aventi la lunghezza della sequenza di query correlazione non si devono generare le sottosequenze

Approccio database spaziali Ogni sequenza insieme di punti in uno spazio multi-dimensionale uso tecniche di indice spaziale per trovare sequenze simili

Indicazioni di ricerca Data mining Indicazioni di ricerca

Recenti direzioni di ricerca Definizione di linguaggi di alto livello per la specifica di criteri di estrazione della conoscenza gestione di tipologie diverse di dati (oggetti, attivi, deduttivi, spaziali, temporali, multimediali, ecc.) algoritmi incrementali nuove tipologie di applicazioni (web)

Argomenti per seminari Applicazione delle tecniche di ILP al data mining Data mining spaziale Data mining temporale WWW data mining