La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Sistemi di supporto alle decisioni Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dellInformazione Università di Siena

Presentazioni simili


Presentazione sul tema: "Sistemi di supporto alle decisioni Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dellInformazione Università di Siena"— Transcript della presentazione:

1

2 Sistemi di supporto alle decisioni Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dellInformazione Università di Siena rigutini@dii.unisi.it http://www.dii.unisi.it/~rigutini/ Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dellInformazione Università di Siena rigutini@dii.unisi.it http://www.dii.unisi.it/~rigutini/

3 Sistemi di supporto alle decisioni - Leonado Rigutini Introduzione Linformazione è un bene a valore crescente, necessario per pianificare e controllare le attività produttive: costituisce la materia prima che viene trasformata dai sistemi informativi dati = informazione Come è noto ai Web navigator lequazione dati = informazione non è sempre corretta: spesso la disponibilità di troppi dati rende arduo, se non impossibile, estrarre informazioni significative Sistemi per lestrazione, lanalisi e lorganizzazione automatica di queste enormi moli di dati possono fornire un supporto nei processi decisionali umani: sistemi di supporto alle Decisioni (DSS)

4 Sistemi di supporto alle decisioni - Leonado Rigutini Introduzione - 2 In particolare, i DSS nascono a seguito dellenorme accumulo di dati registrato nellultimo ventennio in forma elettronica, e dalla pressante richiesta di utilizzo di tali dati per scopi che superano quelli legati allelaborazione giornaliera Tali sistemi aiutano il decisore umano sia nelle decisioni operative, che nelle decisioni strategiche, a più lungo termine ed a più ampio respiro

5 Sistemi di supporto alle decisioni - Leonado Rigutini Introduzione - 3 Applicazioni Commercio Commercio analisi delle vendite e dei reclami, controllo di spedizioni ed inventari, cura del rapporto con i clienti Manifattura Manifattura controllo dei costi di produzione, supporto fornitori e ordini Servizi finanziari Servizi finanziari analisi del rischio, analisi utilizzo delle carte di credito, rilevamento di frodi Trasporti Trasporti gestione parco mezzi, gestione carico e distribuzione Telecomunicazioni Telecomunicazioni analisi del flusso delle chiamate e del profilo dei clienti Sanità Sanità analisi di ricoveri e dimissioni, contabilità per centri di costo

6 Sistemi di supporto alle decisioni - Leonado Rigutini Introduzione - 4 Lutilizzo dei DSS non è ristretto in ambito aziendale e dimpresa: spazia dallarea medico epidemiologica a quella demografica, dalle scienze naturali alla didattica Caratteristica comune ai diversi ambiti è la necessità di strumenti di archiviazione e di interrogazione, per ottenere, dallenorme quantità di dati contenuti nei database o resi disponibili da Internet... informazioni di sintesi che permettano la valutazione di un fenomeno la scoperta di correlazioni significative lacquisizione di conoscenza utile a stabilire una strategia decisionale

7 Sistemi di supporto alle decisioni - Leonado Rigutini Sistemi di supporto alle decisioni - 1 La funzione svolta dalle basi di dati in ambito aziendale è stata, fino a tempi recenti, quella di memorizzare dati operazionali, ossia dati generati da operazioni, in genere di carattere amministrativo, svolte allinterno dei processi gestionali (gestione acquisti, gestione vendite, fatturazione) Tuttavia, per ogni azienda, è fondamentale poter disporre in maniera rapida e completa delle informazioni necessarie al processo decisionale: le indicazioni strategiche sono estrapolate dalla mole dei dati operazionali, attraverso un procedimento di selezione e sintesi progressiva

8 Sistemi di supporto alle decisioni - Leonado Rigutini Sistemi di supporto alle decisioni - 2 Laumento esponenziale del volume dei dati operazionali ha reso il calcolatore lunico supporto adatto al processo decisionale Il ruolo delle basi di dati è sensibilmente cambiato, dalla fine degli anni `80, con la nascita dei DSS data warehouseintegrata subject orientedvariabile nel temponon volatile Nasce il data warehouse: una raccolta di dati integrata, subject oriented, variabile nel tempo e non volatile di supporto ai processi decisionali

9 Sistemi di supporto alle decisioni - Leonado Rigutini Sistemi di supporto alle decisioni - 3 sistema informativo Un sistema informativo converte dati in informazioni, ed ha lo scopo precipuo di collezionare, trasformare e distribuire informazione: Es. search engine sistema di supporto alle decisioni Un sistema di supporto alle decisioni è un sistema informativo intelligente che aiuta lutente a prendere decisioni, senza sostituirsi ad esso

10 Sistemi di supporto alle decisioni - Leonado Rigutini Sistemi di supporto alle decisioni - 4 Il DSS, attraverso procedure interattive, fornisce al decisore: la disponibilità di tutte le informazioni necessarie per la comprensione del problema la possibilità di esplorare i dati secondo diversi punti di vista, in base alle esigenze dello stesso utente la possibilità di valutare gli scenari conseguenti alle scelte compiute I DSS si adattano al trattamento di problemi strutturati o semi strutturati, per i quali non è possibile fornire una soluzione algoritmica

11 Sistemi di supporto alle decisioni - Leonado Rigutini Sistemi di supporto alle decisioni - 5 Tra le problematiche da affrontare per la realizzazione di un sistema di supporto alle decisioni ricordiamo la necessità di... …gestire grandi moli di dati …accedere a diverse fonti di dati su piattaforme eterogenee …garantire laccesso a più utenti con compiti differenziati per interrogazioni, analisi in tempo reale e simulazioni …gestire versioni storiche dei dati

12 Sistemi di supporto alle decisioni - Leonado Rigutini Obiettivi di un DSS Permettere lestrazione di informazione da grandi database, in tempi brevi ed in modo flessibile, per supportare e migliorare il processo decisionale operational database data warehouse Necessità di separare i dati generati dalle operazioni di gestione (operational database) dai dati utili ai processi decisionali (data warehouse) Data warehouse Data warehouse contiene un sottoinsieme dei dati mantenuti nelloperational database, ottimizzato per analisi focalizzate ai processi decisionali Nelloperational database e nel data warehouse i dati sono memorizzati a livelli diversi di aggregazione Capacità di analisi dei dati contenuti nel data warehouse in tempo reale e da diversi punti di vista

13 Data Warehous

14 Sistemi di supporto alle decisioni - Leonado Rigutini Data warehouse - 1 Integrazione Nel data warehouse confluiscono dati provenienti da più sistemi transazionali e da fonti esterne Lobiettivo dellintegrazione viene raggiunto mediante lutilizzo di metodi di codifica uniformi Orientamento al soggetto I dati vengono archiviati per poter essere facilmente reperiti ed analizzati dagli utenti Non si mira a minimizzare la ridondanza, ma piuttosto a fornire dati che abbiano una struttura in grado di favorire la produzione di informazioni

15 Sistemi di supporto alle decisioni - Leonado Rigutini Data warehouse - 2 Variabilità nel tempo Nel DW sono contenute informazioni relative alle aree di interesse che colgono la situazione relativa ad un dato fenomeno in un determinato intervallo temporale (generalmente antecedente allinterrogazione) Non volatilità Non modificabilità dei dati contenuti nel DW, che consente accessi in sola lettura Semplicità di progettazione: non si ricorre a strumenti complessi per gestire lintegrità referenziale o per bloccare record cui possono accedere più utenti in fase di aggiornamento

16 Sistemi di supporto alle decisioni - Leonado Rigutini Data warehouse - 3 Pertanto, il DW contiene i dati necessari ai processi decisionali Loperational database è aggiornato costantemente: deve fotografare listante corrente Il DW contiene i dati aggregati in particolari istanti di tempo (es. dati settimanali, mensili, trimestrali) Nel DW, i dati che provengono dalloperational database devono essere integrati con i dati relativi allambiente esterno (che condizionano il processo decisionale) Il DW è una sorta di storico che raccoglie istantanee significative delloperational database, o meglio… knowledge worker …è una collezione di metodi, tecnologie e strumenti di ausilio al knowledge worker (amministratore, gestore, analista, dirigente) per condurre analisi dei dati finalizzate allattuazione di processi decisionali e al miglioramento del patrimonio informativo

17 Sistemi di supporto alle decisioni - Leonado Rigutini Data warehouse - 4 Operational Database Web Mario Rossi 5000 Mario Rossi 15000 Mario Rossi 10000 Mario RossiVia Diotisalvi, 2Pisa10.000 Data Warehouse

18 Data mining

19 Sistemi di supporto alle decisioni - Leonado Rigutini Knowledge Data Discovery - 1 Gli stadi che caratterizzano un processo KDD sono stati identificati da Fayyad, Piatetsky Shapiro, Smyth e Uthurusamy (1996) Data Mining Nellelencare e descrivere le fasi del KDD, tale ricerca ha posto particolare accento sulla fase di Data Mining (DM), cioè sulle tecniche per lesplorazione e lo studio dei dati Il DM è ritenuta la fase più importante dellintero processo KDD e tale importanza rende sempre più difficile, soprattutto in termini pratici, distinguere il processo KDD dal DM

20 Sistemi di supporto alle decisioni - Leonado Rigutini Knowledge Data Discovery - 2 Il processo KDD prevede in input dati grezzi e fornisce in output informazioni utili ottenute attraverso le fasi di: Selezione Preprocessing Trasformazione dei dati Data mining Interpretazione e valutazione

21 Sistemi di supporto alle decisioni - Leonado Rigutini Knowledge Data Discovery - 3 dati dati selezionati dati elaborati dati trasformati pattern conoscenza Interpretazioni e valutazioni Selezione DATA MINING Trasformazione dei dati Preprocessing

22 Sistemi di supporto alle decisioni - Leonado Rigutini Knowledge Data Discovery - 4 Selezione target data I dati raw vengono segmentati e selezionati secondo criteri predefiniti, per pervenire ad un sottoinsieme di dati che rappresentano i target data o dati obiettivo; il database operazionale può contenere informazioni inutili per il problema specifico Esempio Esempio: se lobiettivo è lo studio delle associazioni tra i prodotti di una catena di supermercati, non ha senso conservare i dati relativi alla professione dei clienti; tali dati potrebbero invece fornire informazioni dinteresse relative al comportamento di determinate fasce di clienti, per effettuare unanalisi discriminante

23 Sistemi di supporto alle decisioni - Leonado Rigutini Knowledge Data Discovery - 5 Preprocessing Spesso, pur avendo a disposizione i dati obiettivo non è conveniente, né necessario, analizzarne lintero contenuto; occorre prima campionare le tabelle e, successivamente, effettuare unanalisi su base campionaria data cleaning Fa inoltre parte dello stadio di preprocessing la fase di pulizia dei dati, o data cleaning, che prevede leliminazione dei possibili errori e la definizione dei meccanismi di comportamento in caso di dati mancanti

24 Sistemi di supporto alle decisioni - Leonado Rigutini Knowledge Data Discovery - 6 Trasformazione dei dati Dopo il preprocessing, i dati, per essere utilizzabili, devono essere trasformati Si possono effettuare conversioni di tipo o definizioni di nuovi dati ottenuti attraverso luso di operazioni matematiche e logiche sulle variabili Inoltre, quando i dati provengono da fonti diverse, è necessario codificarli omogeneamente, per garantirne la consistenza

25 Sistemi di supporto alle decisioni - Leonado Rigutini Knowledge Data Discovery - 7 Data mining Ai dati trasformati vengono applicate tecniche per lestrazione di informazione non banale: i tipi di dati a disposizione e gli obiettivi da raggiungere indicano implicitamente il tipo di algoritmo DM da scegliere Il processo KDD è: interattivo interattivo, presuppone infatti un dialogo costante tra lutente e il software utilizzato iterativo iterativo, nel senso che la fase di DM può prevedere unulteriore trasformazione dei dati originali o unulteriore pulizia dei dati, ovvero una riesecuzione delle fasi preliminari

26 Sistemi di supporto alle decisioni - Leonado Rigutini Knowledge Data Discovery - 8 Interpretazione e valutazione Il DM crea dei pattern, ovvero dei modelli, che possono costituire un valido supporto alle decisioni Non è sufficiente, tuttavia, interpretare i risultati ottenuti, ma occorre utilizzarli per validare i modelli (dati e algoritmi) È dunque possibile, alla luce di risultati non perfettamente soddisfacenti, intervenire (in maniera sia adattiva che perfettiva) su una o più fasi del processo KDD

27 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining - 1 Data Mining Con Data Mining si indica lattività di individuazione automatica ed estrazione di informazioni, quali relazioni ed associazioni tra i dati, precedentemente sconosciute allutente Principali tecniche per il data mining: Sistemi a regole Algoritmi di clustering Algoritmi genetici Reti neurali e Support Vector Machine (SVM)

28 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining - 2 Il data mining è lestrazione non banale di informazione implicita, precedentemente sconosciuta e potenzialmente utile, attraverso lutilizzo di differenti approcci tecnici (Frawley, Piatetsky Shapiro e Matheus, 1991) Il data mining è una combinazione di tecniche potenti che aiutano a ridurre i costi e i rischi e ad aumentare le entrate, estraendo informazione dai dati disponibili (T. Fahmy) Il data mining consiste nelluso di tecniche statistiche da utilizzare con i database aziendali per scoprire modelli e relazioni che possono essere impiegati in un contesto di business (Trajecta lexicon)

29 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining - 3 Il data mining è lesplorazione e lanalisi, attraverso mezzi automatici e semiautomatici, di grosse quantità di dati allo scopo di scoprire modelli e regole significative (Berry e Linoff, 1997) Il data mining è la ricerca di relazioni e modelli globali che sono presenti in grandi database, ma che sono nascosti nellimmenso ammontare di dati. Tali relazioni rappresentano una preziosa conoscenza del database e, se il database è uno specchio fedele, del mondo reale che esso descrive (Holshemiere e Siebes, 1994)

30 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining - 4 Knowledge Data Discovery relazioni tra dati validenuoveutilicomprensibili Il termine Knowledge Data Discovery (KDD) si riferisce allintero processo, interattivo ed iterativo, di scoperta della conoscenza, che consiste nella identificazione di relazioni tra dati che siano valide, nuove, potenzialmente utili e comprensibili dati I dati sono una collezione di fatti F (per esempio tuple di una tabella di un database relazionale) relazionepattern Una relazione, o modello, o pattern, è unespressione E in un linguaggio L che descrive fatti in un sottoinsieme F E di F; una relazione deve essere più semplice, rispetto ad un dato criterio di semplicità, dellenumerazione di tutti i fatti in F E

31 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining - 5 Un processo di scoperta della conoscenza è un insieme di attività che coinvolgono la preparazione dei dati, la ricerca di relazioni, la valutazione e il raffinamento della conoscenza estratta Si assume che il processo sia non banale, cioè che le relazioni scoperte non siano già note valide Le relazioni scoperte sono valide se valgono, con un grado di certezza prefissato, anche su dati diversi da quelli usati per la scoperta delle stesse Individuare un grado di certezza è essenziale per stabilire quanta fiducia si può riporre nel sistema e nella relazione estratta

32 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining - 6 nuove Le relazioni scoperte devono essere nuove almeno per il sistema, devono cioè aumentare la conoscenza necessaria ad affrontare il problema decisionale utili Le relazioni dovrebbero potenzialmente condurre a delle azioni utili ; per esempio, la scoperta di una dipendenza fra articoli acquistati da uno stesso cliente in un supermercato potrebbe attivare opportune strategie di marketing comprensibili I pattern devono essere comprensibili agli utenti per facilitare una migliore conoscenza dei fatti coinvolti Poiché è difficile misurare la comprensibilità di un pattern spesso si ricorre a misure surrogate di semplicità sintattica/semantica

33 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining - Esempio x x x x x x x x x x x x x x oo o o o o o o o o o o o o o o x Stipendio Prestiti Persone che hanno ricevuto un prestito dalla banca: x: persone che hanno mancato la restituzione di rate o: persone che hanno rispettato le scadenze

34 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining - Esempio x x x x x x x x x x x x x x oo o o o o o o o o o o o o o o x Stipendio Prestiti IF stipendio < k THEN mancati pagamenti k

35 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining - esempio Validità I pattern scoperti devono essere validi su nuovi dati con un grado di certezza prestabilito: lo spostamento a destra del valore di k porta riduzione del grado di certezzaUtilità Aumento di profitto atteso dalla banca associato alla regola estratta

36 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining: tecniche di analisi - 1 La scelta del particolare algoritmo di data mining dipende dallobiettivo da raggiungere e dal tipo di dati da analizzare 1) Regole di associazione 2) Classificazione 3) Clustering 4) Similarity search

37 Sistemi di supporto alle decisioni - Leonado Rigutini Data mining: tecniche di analisi - 2 Le tecniche di clustering e le reti neurali non supervisionate consentono il raggruppamento di dati, cioè lindividuazione di gruppi omogenei, che presentano delle regolarità al loro interno, in grado di caratterizzarli e differenziarli dagli altri gruppi Le reti neurali supervisionate, le support vector machine e gli alberi di decisione consentono di effettuare operazioni di classificazione, fanno cioè uso della conoscenza acquisita in fase di addestramento per classificare nuovi oggetti o prevedere nuovi eventi Le tecniche di analisi delle associazioni consentono di individuare regole nelle occorrenze concomitanti di due o più eventi

38 Sistemi di supporto alle decisioni - Leonado Rigutini Applicazione del DM - 1 Indagini di mercato Indagini di mercato (Database Marketing) applicazione di tecniche di clustering per individuare gruppi omogenei in termini di comportamento dacquisto e di caratteristiche socio demografiche; lindividuazione delle diverse tipologie di clienti......permette di effettuare campagne di marketing mirate e di valutarne gli effetti...permette di ottenere indicazioni su come modificare la propria offerta...rende possibile monitorare nel tempo levoluzione della propria clientela e lemergenza di nuove tipologie Analisi testuale Analisi testuale (Text Mining) applicazione di tecniche di clustering per individuare gruppi omogenei di documenti in termini di argomento trattato; consente di accedere più velocemente allargomento di interesse e di individuarne i legami con argomenti correlati

39 Sistemi di supporto alle decisioni - Leonado Rigutini Applicazione del DM - 2 Analisi del paniere Analisi del paniere (Basket Analysis) applicazione di tecniche di individuazione di associazioni a dati di vendita per conoscere quali prodotti vengono acquistati congiuntamente Consente di migliorare lofferta dei prodotti (disposizione sugli scaffali) e di incrementare le vendite di particolari prodotti tramite offerte su generi associati Technology Watch Technology Watch (Competitive Intelligence) applicazione di tecniche di clustering a banche dati di tipo tecnico scientifico al fine di individuare i gruppi tematici principali, le loro relazioni, levoluzione temporale, le persone o le aziende coinvolte

40 Regole di associazione

41 Sistemi di supporto alle decisioni - Leonado Rigutini Regole di associazione - 1 Dati del problema: I I insieme di item Esempio: Esempio: prodotti venduti da un supermercato transazione T transazione T insieme di item t.c. T I Esempio: Esempio: oggetti acquistati nella stessa transazione di cassa al supermercato base di dati D base di dati D insieme di transazioni

42 Sistemi di supporto alle decisioni - Leonado Rigutini Regole di associazione - 2 Regola di associazione: Supporto - rilevanza statistica: Confidenza - importanza dellimplicazione: notare che:

43 Sistemi di supporto alle decisioni - Leonado Rigutini Regole di associazione - esempio 2 Transazioni: Acquisto 1: A,B,C Acquisto 2: A,C Acquisto 3: A,D Acquisto 4: B,E,F Regole ottenute: A C supporto 50% e confidenza 66.6% C A supporto 50% e confidenza 100%

44 Sistemi di supporto alle decisioni - Leonado Rigutini Esempi di applicazione Analisi market basket Uova cosa si deve promuovere per aumentare le vendite di uova? Latte quali altri prodotti devono essere venduti da un supermercato che vende latte? Dimensione del problema: oggetti: 10 5, transazioni: > 10 6 base di dati: 10 100 GB

45 Sistemi di supporto alle decisioni - Leonado Rigutini Regole di associazione - Esempio 1 Latte Uova Supporto: il 2% delle transazioni contiene entrambi gli elementi (latte e uova) Confidenza: il 30% delle transazioni che contengono latte contiene anche uova

46 Sistemi di supporto alle decisioni - Leonado Rigutini Decomposizione del problema Passo1: frequent itemset Trovare tutti gli insiemi di item che hanno supporto maggiore di una soglia pefissata frequent itemset Passso 2: Generazione delle regole a partire dai frequent itemset Algoritmo fondamentale: APRIORI APRIORI (Agrawal et al., 1994)

47 Sistemi di supporto alle decisioni - Leonado Rigutini Esempio decomposizione - 1 Passo 1 Passo 1: estrazione frequent itemset SupportoFrequent itemset 50%{A,C} 50%{C} 50%{B} 75%{A} Transazioni Acquisto 1: A,B,C Acquisto 2: A,C Acquisto 3: A,D Acquisto 4: B,C,D

48 Sistemi di supporto alle decisioni - Leonado Rigutini Esempio decomposizione - 2 Passo 2 Passo 2 estrazione regole confidenza minima 50%Esempio: regola A C supporto {A,C} = 50% confidenza = supporto{A,C}/supporto{A} = 66.6% regole estratte A C supporto 50%, confidenza 66.6% C A supporto 50%, confidenza 100%

49 Sistemi di supporto alle decisioni - Leonado Rigutini Importanza delle regole estratte - 1 Non tutte le regole con supporto e confidenza superiori ad una soglia prestabilita sono interessantiEsempio: scuola con 5000 studenti 60% (3000) gioca a pallacanestro 75% (3750) mangia fiocchi di mais a colazione 40% (2000) gioca a pallacanestro e mangia fiocchi di mais a colazione

50 Sistemi di supporto alle decisioni - Leonado Rigutini Importanza delle regole estratte - 2 Con supporto min. 40% e confidenza min. 60%: gioca a pallacanestro mangia fiocchi di mais supporto = 2000/5000 = 0.4 confidenza = 2000/3000 = 0.66 > 0.6 regola fuorviante perché il 75% degli studenti mangia fiocchi di mais ! Nuova misura:

51 ClusteringClustering

52 Sistemi di supporto alle decisioni - Leonado Rigutini Clustering Data una b: Data una base di dati di oggetti: Suddividere gli oggetti in gruppi, in modo che…...oggetti appartenenti allo stesso gruppo siano molto simili...oggetti in gruppi diversi siano molto diversi I gruppi possono essere disgiunti (hard clustering), parzialmente sovrapposti (soft clustering) oppure organizzati gerarchicamente (hierarchical clustering)

53 Sistemi di supporto alle decisioni - Leonado Rigutini Esempi di applicazioni Identificazione di popolazioni omogenee di clienti in basi di dati di marketing Valutazione dei risultati di esperimenti clinici Monitoraggio dellattività di aziende concorrenti Identificazione di geni con funzionalità simili Nel WWW… Classificazione di documenti Identificazione di gruppi di utenti (in base ai file di log) con caratteristiche di navigazione simili

54 Sistemi di supporto alle decisioni - Leonado Rigutini Esempi di applicazioni La tecniche di clustering vengono utilizzate generalmente quando si hanno dati eterogenei e si è alla ricerca di elementi anomali: le compagnie telefoniche utilizzano il clustering per individuare in anticipo gli utenti che diventeranno morosi Normalmente, tali utenti hanno un comportamento nettamente diverso rispetto alla maggioranza degli utenti telefonici e le tecniche di clustering riescono sovente ad individuarli o, comunque, definiscono un cluster dove vengono concentrati tutti gli utenti che hanno unelevata probabilità di diventare morosi

55 Sistemi di supporto alle decisioni - Leonado Rigutini Case study: k-Means - 1 Caratteristiche: partitioning Appartiene ai metodi di tipo partitioning cluster Dato un intero k, si calcola un partizionamento dei dati in ingresso in k cluster, che ottimizza il criterio di partizionamento scelto K means (MacQueen, 1967): ogni cluster è rappresentato dal centro (media) del cluster La scelta iniziale dei k centroidi viene effettuata in maniera casuale

56 Sistemi di supporto alle decisioni - Leonado Rigutini Case study: k-Means - 2 1.Scegli i k centri iniziali 2.Repeat 1. Assegna ciascun oggetto al cluster più vicino (il cui centro risulta il più vicino alloggetto dato) 2. Calcola i centroidi (punti medi) dei cluster until until gli assegnamenti non cambiano (o cambiano poco) Viene minimizzato lerrore quadratico medio

57 Sistemi di supporto alle decisioni - Leonado Rigutini Case study: k-Means - 3 Limiti di K means: Può essere applicato solo se il tipo di dato permette di definire la media Occorre specificare in anticipo il numero k di cluster Sebbene sia possibile dimostrare che il procedimento termina sempre, non è detto che venga raggiunto il minimo globale (il risultato è influenzato dalla scelta dei centri iniziali) Non garantisce la connessione dei cluster trovati e lassenza di punti isolati Può produrre risultati scadenti quando… …i cluster hanno differenti dimensioni, densità, forma non globulare …i dati contengono outlier

58 Sistemi di supporto alle decisioni - Leonado Rigutini Case study: k-Means - 4 Soluzione: Soluzione: usare molti cluster In questo caso… …i cluster calcolati sono partizioni dei cluster effettivamente presenti …è necessario fondere i cluster calcolati

59 Sistemi di supporto alle decisioni - Leonado Rigutini Case study: k-Means - 5 Tuttavia... il mondo reale non è crisp Effettuando il clustering non è sempre possibile definire in maniera precisa se un punto appartiene ad un cluster oppure ad un altro

60 Sistemi di supporto alle decisioni - Leonado Rigutini Case study: SOM - 1 Il clustering può anche essere interpretato come una forma di classificazione non supervisionata Self Organizing Map Come tale, può essere realizzato mediante un particolare tipo di architettura neurale, chiamata Self Organizing Map (SOM), che viene addestrata in modalità non supervisionata, cioè non conoscendo loutput atteso per ciascun dato in input

61 Sistemi di supporto alle decisioni - Leonado Rigutini Case study: SOM - 2 La SOM sarà comunque in grado, al termine della fase di apprendimento, di raggruppare i dati in cluster, ovvero di produrre output simili per input vicini, secondo una qualche metrica nello spazio degli ingressi

62 Sistemi di supporto alle decisioni - Leonado Rigutini Similarity search Data un base Data un base di dati di sequenze temporali o oggetti, determinare: Sequenze/oggetti simili ad una sequenza/oggetto data/o Tutte le coppie di sequenze/oggetti simili Due tipi di interrogazione: Matching completo Matching completo la sequenza cercata e le sequenze della base di dati hanno la stessa lunghezza Matching parziale Matching parziale la sequenza cercata può essere sottosequenza di quelle recuperate dalla base di dati

63 Sistemi di supporto alle decisioni - Leonado Rigutini Esempi di applicazioni Identificazione delle società con comportamento simile di crescita Determinazione di prodotti con profilo simile di vendita Identificazione di azioni con andamento simile Individuazione porzioni di onde sismiche non simili per determinare irregolarità geologiche Ricerca in database visuali Allineamento di sequenze di acidi nucleici e proteine

64 Sistemi di supporto alle decisioni - Leonado Rigutini Metriche di similarità Definita la modalità di descrizione di sequenze/ oggetti da ricercare, è necessario definire una metrica da usare per valutarne la similarità, in base alla distanza tra i rispettivi descrittori La metrica dovrebbe rispettare la percezione del concetto di similarità: descrittori vicini corrispondono a sequenze/oggetti simili Una metrica d(x,y), definita su uno spazio S, è una funzione che associa uno scalare a coppie di elementi in S, con le seguenti proprietà: Non negatività: d(x,y) 0 Riflessività: d(x,y) = 0 sse x=y Simmetria: d(x,y) = d(y,x) Disuguaglianza triangolare: d(x,y)+d(y,z) d(x,z)

65 Sistemi di supporto alle decisioni - Leonado Rigutini Metriche vettoriali In generale, una metrica di similarità per pattern in n è la metrica di Minkowsky, nota anche come metrica L k : Per k=1 si ha la distanza di Manhattan o city block Per k=2 si ha la distanza Euclidea

66 Sistemi di supporto alle decisioni - Leonado Rigutini Metriche per dati strutturati Per il confronto tra grafi si definisce una distanza tra nodi del grafo ed una distanza tra gli archi Generalmente, infatti, allinterno dei nodi del grafo si rappresentano caratteristiche locali delle singole regioni mentre con gli archi si descrivono le relazioni spaziali Per calcolare una distanza si dovranno tenere presenti sia le relazioni spaziali che le caratteristiche locali delle regioni Il problema è complicato perché spesso i grafi da confrontare hanno un diverso numero di nodi (subgraph matching – NP hard) reti neurali ricorsive Le reti neurali ricorsive possono essere addestrate per apprendere la similarità tra grafi

67 Sistemi di supporto alle decisioni - Leonado Rigutini Esempio: classificazione di immagini Trasformazione da RAG a grafo orientato Segmentazione Estrazione del grafo di adiacenza (RAG)


Scaricare ppt "Sistemi di supporto alle decisioni Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dellInformazione Università di Siena"

Presentazioni simili


Annunci Google