La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Introduzione al Data Mining Simona Balbi. Abbondanza di dati, ma … povertà di conoscenza Le basi di dati elettroniche sono sempre più grandi  Si ragiona.

Presentazioni simili


Presentazione sul tema: "Introduzione al Data Mining Simona Balbi. Abbondanza di dati, ma … povertà di conoscenza Le basi di dati elettroniche sono sempre più grandi  Si ragiona."— Transcript della presentazione:

1 Introduzione al Data Mining Simona Balbi

2 Abbondanza di dati, ma … povertà di conoscenza Le basi di dati elettroniche sono sempre più grandi  Si ragiona in termini di terabyte (10 12 ), ma anche, ad es. yottabyte (10 24 )  Siamo sommersi dai dati e sospettiamo che contengano nuova conoscenza raccoltamemorizzazione Questo grazie alle nuove tecnologie di raccolta e memorizzazione dei dati e soprattutto grazie alWEB

3 Che cos’è il Data Mining (DM)  DM è la ricerca semi-automatica di strutture, associazioni, anomalie e cambiamenti, all’interno di grandi insiemi di dati  Parole chiavi: grandi grandi insiemi di dati scoperta di strutture (NON verifica) data driven (NON hypothesis driven) machine-driven (NON human-driven)

4 Visualizzazione Statistica Intelligenza artificiale DM ha origine in numerose discipline Data base Systems Machine learning High Performance & Distributed Computing Information retrieval Data Mining Ma anche altri ambiti di applicazione … Marketing

5 The Data Gap N.B. E’ corretto usare il termine terabyte (TB), nel significato di mille miliardi di byte, se si è interessati ad esprimere un ordine di grandezza e non una quantità precisa (v. Wikipedia), per via dell’improprio riferimento al sistema binarioordine di grandezza La quantità di dati disponibili esplode, mentre il numero di scienziati, informatici, tecnici in grado di analizzarli rimane sostanzialmente costante. Questo è il data gap (nella definizione di Grossman) e il DM è un possibile strumento per colmare questo gap

6 In fact, the term “data mining” used to be a term of derision among statisticians, referring to when you’re fishing in the data without having an a priori hypothesis. If you do statistics properly, you’re supposed to come up with a hypothesis that you can either confirm or reject. In today’s world, that’s not a good way to go about it. When you have lots of data, and few people, you want algorithms that will churn through the data, evaluate lots of models, and look for things that might become interesting patterns or hypotheses. Un’intervista a USAMA FAYYAD ( Yahoo!'s chief data officer and senior vice president of Research & Strategic Data Solutions ) sul rapporto fra statistica e DM

7 Il rapporto fra statistica e DM secondo Fayyad few variables In a world where you have a few variables — just a couple things to evaluate — it makes more sense to put that information in front of a person and have them come up with hypotheses and test them. But let’s say you’re talking about ten variables—already the human is lost. million variables billions of data points If it’s a hundred, or a thousand, or ten thousand, or a million variables, and billions of data points, which, you know, is the kind of thing we deal with on a daily basis, in the scientific and commercial world, then you have no hope whatsoever of understanding it at all. Human beings, from a mathematical perspective, are fairly limited. Two and three dimensions, maybe five, and we’re OK. But that’s about it. And this is where these algorithms can help a lot, because they can comprehend thousands of dimensions, and focus their attention on things that might be interesting.

8 Un po’ di definizioni  DM is the process of discovering meaningful new correlations, patterns,and trends by sifting through large amounts of data stored in repositories  DM is the exploration and analysis, by automatic and semiautomatic means, of large quantitaties of data in order to discover meaningful patterns and rules  DM is the non trivial process of identifying valid, novel potentially useful and ultimately understandable patterns in data  Per DM si intende il processo di selezione, esplorazione e modellazione di grande masse di dati, al fine di scoprire regolarità o relazioni non note a priori e allo scopo di ottenere un risultato chiaro e utile al proprietario del data base

9 NOTA BENE Ciò che distingue il DM da un’analisi statistica non è tanto (o soltanto) la quantità dei dati che vengono analizzati o la particolarità delle tecniche impiegate: è l’integrazione fra le conoscenze sulla base di dati, la metodologia di analisi e la conoscenza del business business intelligence Il DM non è il mero utilizzo di un algoritmo informatico o di una tecnica statistica ma è un processo di business intelligence, volto all’utilizzo di quanto fornito dalla tecnologia dell’informazione e dalla metodologia statistica come supporto per le decisioni aziendali

10 Knowledge Discovery in Databases (KDD) dare un senso ai dati Il KDD può essere inteso come la disciplina che si occupa di sviluppare metodi e tecniche per dare un senso ai dati forme più compatte più astratte più utili Il problema di base cui il KDD vuole dare risposta è quello di trasformare dati di un livello inferiore, che sono di solito troppo voluminosi per essere compresi ed utilizzati facilmente, in altre forme più compatte (ad esempio brevi sintesi), più astratte (ad esempio un’approssimazione descrittiva, oppure un modello del processo di generazione dei dati), o più utili (ad esempio, un modello predittivo per stimare il valore di casi futuri). pattern Al centro del processo è l’applicazione di specifici metodi di DM per l’identificazione e l’estrazione di pattern pattern found in data “components of models, for example, a particular rule in a classification model or a linear component in a regression model” N.B. La parola pattern (genreralmente found in data) è ricorrente nella letteratura del DM, seguendo Fayyad et al., lo possiamo intendere come “components of models, for example, a particular rule in a classification model or a linear component in a regression model”

11 Le fasi che compongono una procedura di KDD (Fayyad, Piatetsky-Shapiro, Smyth, AI Magazine, 1996)

12 1.Capire il contesto applicativo e l’obiettivo conoscitivo del committente 2.Creare il target data set: selezionare un insieme di dati, oppure concentrarsi su un sottoinsieme di variabili o di individui (campione) pensiamo di voler studiare l’associazioni di prodotti acquistati dai clienti di un supermercato, avendo a disposizione la scheda fedeltà, associata ad un breve questionario descrittivo, ad esempio, del titolo di studio del cliente. Questa informazione potrebbe essere inutile, in questa analisi, mentre invece potrebbe essere rilevante per una specifica campagna promozionale, ad esempio di un abbonamento ad una rivista aziendale. Spesso, può non essere conveniente o necessario analizzare l’intera base di dati e può convenire esplorarlo preventivamente e giungere alla scelta di un’analisi su base campionaria. 3.Pulire i dati e pre-trattarli: eliminare il rumore, se necessario, raccogliere le informazioni sul modello di generazione dei dati, decidere le strategie per gestire i dati mancanti, o tener conto, ad esempio, di incoerenze e di eventuali errori. Possono essere necessarie codifiche o standardizzazioni. Può essere necessario rendere coerenti dati provenienti da fonti differenti (necessità dei metadati) Le fasi in dettaglio 1.

13 Le fasi in dettaglio 2. 4.Riduzione dei dati e proiezione : individuare utili caratteristiche per rappresentare i dati in relazione dell’obiettivo 5.Abbinare gli obiettivi di KDD (fase 1) ad uno specifico metodo di DM (ad es. sintesi, classificazione, regressione, clustering, …) 6.L’analisi esplorativa e la selezione del modello e delle ipotesi: scegliere i metodi e gli algoritmi di DM al fine di trovare i pattern nei dati. Si tratta di decidere modelli e parametri appropriati (ad esempio alla natura dei dati, quindi scelte di codifica: discretizzare i dati?) e abbinare i metodi di DM con i criteri generali definiti nel processo di KDD (ad es. c’è una necessità di predizione, o di comprendere le relazioni?)

14 7.E’ il DM: ricercare i pattern di interesse in una particolare forma di rappresentazione o un insieme di rappresentazioni (regole di classificazione, alberi, regressione, analisi dei gruppi). Il committente può essere determinante per la qualità del processo nella chiara definizione degli obiettivi 8.Interpretare i risultati ottenuti E’ possibile che a questo punto sia necessario tornare iterativamente a uno qualsiasi dei passi precedenti Questo passo può produrre la visualizzazione dei risultati 9.Utilizzare la conoscenza direttamente, incorporandola in un altro sistema per azioni ulteriori o semplicemente per documentare e presentare i risultati alle parti interessate. Il processo include il controllo e la soluzione di potenziali conflitti con precedenti convincimenti Il KDD è un processo ITERATIVO e INTERATTIVO Le fasi in dettaglio 3.

15 E il DM? Il Data mining è un passo del processo di KDD che consiste nell’applicare (spesso in maniera iterativa) l’analisi dei dati e nel costruire algoritmi che consentono di identificare strutture interessanti Gli obiettivi possono essere di due tipi: 1. di verifica 2. di scoperta In quest’ultimo possiamo ancora distinguere un obiettivo predittivo o un obiettivo descrittivo

16 FARE DM Fare DM significa tradurre le esigenze di business in una problematica da analizzare, nel reperimento del database necessario per l’analisi, nell’applicazione della tecnica statistica, implementate in un algoritmo informatico, al fine di produrre dei risultati rilevanti per prendere una decisione strategica, che a sua volta comporterà una nuova esigenza di misurazione e, quindi, in nuova opportunità di business, facendo partire quello che è stato chiamato il “circolo virtuoso della conoscenza del DM” (Berry, Linoff, 1997)

17 Es. tratto da G.Manco Tecniche Di Data Mining per l’Analisi dei Dati

18 Qualche semplice “query” Che voti hanno avuto gli studenti calabresi Che media hanno gli studenti del corso di DM Chi ha avuto il voto migliore Dalle “query” al supporto alle decisioni Quanti studenti che hanno ottenuto un voto di laurea superiore a 100 hanno avuto un voto alto (>27) agli esami sia di informatica che di Statistica ? Qual è l’andamento temporale della media dei voti in Informatica, rispetto alla media in Statistica ?

19 IDNome Voto Statistica Voto Informatica Voto LAUREA 1Enrico2726105 2Alfredo2024100 3Domenico192396 4Luisa30 108 5Giovanna27 104 6Diego232194 Quanti studenti che hanno ottenuto un voto di laurea superiore a 100 hanno avuto un voto alto (>27) agli esami sia di informatica che di Statistica ?

20 Es. tratto da G.Manco Tecniche Di Data Mining per l’Analisi dei Dati

21 Le sfide per uno statistico nel DM (da D. Hand, 1997) La teoria statistica di solito assume di operare su basi di dati piccole e pulite, che consentono risposte in termini di conoscenza, attraverso analisi intensive di un insieme di dati, statici, campionati secondo uno schema i.i.d., che sono spesso raccolti per rispondere a problemi specifici, di regola esclusivamente numerici NIENTE DI TUTTO QUESTO NEL DM I: la dimensione della base dei dati Un grande insieme di dati per uno statistico contiene poche centinaia di elementi, magari alcune migliaia. Bene, gli attuali data base spesso contengono milioni di record. Secondo Cortes and Pregibon nel 1997, AT&T aveva 100 milioni di clienti con 200 milioni di chiamate al giorno sulla sua rete. Il progetto sul genoma umano ha raccolto gigabytes di dati. Questi numeri mostrano la futilità dei metodi statistici classici

22 Un primo problema è l’impossibilità di tenere nella memoria centrale del computer (sia pure potentissimi) tutti i dati da analizzare. Questo vuole dire che i dati devono essere elaborati durante l’analisi, tecniche adattive o sequenziali devono essere sviluppate. Metodi di stima adattivi o sequenziali hanno ottenuto maggiore attenzione da parte di non statistici, in particolare ricercatori impegnati nella pattern recognition e nel machine learning Quando il numero di variabili è grande la maledizione della multidimensionalità comincia a colpire: con 1000 variabili dicotomiche, siamo nell’ordine delle 10300 celle, un numero che fa impallidire persino un miliardo di record Attenzione: gli insiemi di dati sono grandi perché il numero di record è grande e/o il numero di variabili è grande (naturalmente cosa è un record in un’analisi può essere una variabile in un’altra, a secondo dell’obiettivo!) Problemi di natura informatica

23 E non si tratta soltanto dei limiti di memoria dei computer: i dati possono non avere la confortante struttura piatta, ma possono avere strutture interrelate, magari gerarchiche. E’ possibile che basi di dati molto grandi siano distribuite su più computer e in più luoghi E’ questo, naturalmente, rende complicate le operazioni di campionamento e pesanti in termini di tempi di realizzazione. Tutto questo può rendere le tecniche statistiche classiche inapplicabili e loro varianti diventano necessarie Problemi di natura informatica

24 Altri problemi  DATI CONTAMINATI (outliers, dati mancanti o incoerenti)  NON STAZIONARIETA’, SELECTION BIAS, OSSERVAZIONI DIPENDENTI  DATI NON NUMERICI  RELAZIONI SPURIE

25 Dati contaminati fonti secondarie Il DM lavora necessariamente su dati provenienti da fonti secondarie, quindi non migliorabili con interventi alla fonte dato non validoanomalimancantiimprecisi Del resto, in grandi basi di dati è certo che ci sarà qualche dato non valido: dati anomali, dati mancanti, dati imprecisi, sia per misurazione, sia per problemi legati alla rilevazione che tipicamente si ritrovano in una base di dati, in particolare quando si lavoro con comportamenti umani, come nelle ricerche di mercato Si immagini semplicemente che, da un punto di vista statistico, soltanto 1 record su 1000 provenga da una popolazione diversa da quella ipotizzata Un decimo dell’1% dei dati provenienti da una fonte differente hanno un impatto modesto nei problemi statistici consueti, ma quando parliamo di 10000000000 di record, allora vuol dire 1000000 di dati estratti da una distribuzione differente E a questo punto è difficile ignorarli !

26 Osservazioni dipendenti I metodi statistici classici assumono che i dati siano campionati indipendentemente e dalla stessa distribuzione Esitono modelli, quali i metodi per misure ripetute, sono stati sviluppati per situazioni particolari, in cui uno schema i.i.d. non può essere assunto. Nel DM questa è la norma: è piuttosto difficile assumere che immense basi di dati siano generate così. Anzi, è più realistico che alcune regioni dello spazio delle variabili siano campionate più intensamente di altre (ad esempio, negli Stati Uniti, fusi orari diversi significano che le transazioni al supermercato, o le chiamate telefoniche non accadono “casualmente” su tutto il territorio degli USA) Questo può far sorgere dei dubbi sulla validità dei metodi di stima standard e pongono problemi particolari per la stima sequenziale e gli algoritmi di ricerca

27 Non Stazionarietà Si ha quando la popolazione di riferimento cambia. Pensiamo ad esempio come si modificano gli individui che accendono un mutuo, a secondo della situazione economica. Può anche succedere che gli strumenti di misurazione si modificano, distorcendo i dati rilevati, ad esempio quando una domanda in un questionario di indagini ripetute modifica il uso significato, ad esempio a seconda dell’età degli intervistati

28 Dati prodotti nel continuo Sebbene i tempi di acquisizione dei record individuali sia registrato, le modifiche nella struttura della popolazione possono essere inapprezzabili In più, la natura dei cambiamenti può essere sottile e difficile da essere individuata Alle volte la situazione può essere anche più complicata, quando i dati sono dinamici Pensiamo alle telefonate di AT&T: i dati sono prodotti in continuo e quindi il database che li contiene si evolvono continuamente. Questa è una situazione completamente differente da quelle affrontate dalla statistica classica. Può essere necessario elaborare i dati i tempo reale. I risultati dell’analisi se prodotti in settembre, con riferimento a quanto è accaduto a giugno, hanno ben poco interesse per l’organizzazione. La necessità di risposte rapide e la dimensione dei data set ancora una volta pongono questioni delicate sull’efficacia degli algoritmi statistici

29 Selection Bias La distorsione del campione selezionato al di fuori di un campionamento casuale è un problema importante e sottovalutato E’ un problema molto generale e non specifico delle grandi basi di dati, però è forse più grave in quest’ultimo caso Avviene, ad esempio, nella scelta dei pazienti nelle prove cliniche e dipendono dai criteri di inclusione/esclusione Può sorgere nelle indagini da questionario nei confronti delle cadute di risposta sistematiche E’ presente nelle ricerche psicologiche quando i soggeti sono scelti fra le persone disposte a partecipare, frequentemente studenti, giovani e intelligenti In generale, nei data set di grandi dimensioni si presente sotto la forma di campioni di convenienza e opportunità

30 Che fare ? La selection bias, o la non stazionarietà della popolazione, possono essere affrontate con un modello più ampio di quelli dello schema inferenziale classico, che includa il meccanismo di selezione del campione. Per i grandi insiemi di dati che sono al centro degli studi di DM – e che sono in genere anche insiemi di dati complessi - è anche difficile disporre di sufficienti informazioni su come i dati sono stati raccolti Questo rende difficile formulare questo genere di modelli

31 Cercare pattern interessanti nei dati! Fayyad et al. parlano dell’impatto devastante sull’astronomia dell’immensa quantità di dati diventata disponibile quasi improvvisamente : almeno 5 × 10 7 galassie e 2 × 10 9 oggetti stellari identificabili A questo punto occorre cercare pattern e strutture interessanti nei dati, ma soprattutto capire cosa si intende per pattern e cosa significa interessante

32 INTERESSANTE ? (Klosgen, 1996) Prova (evidence): importanza del riscontro del risultato con un criterio statistico Ridondanza (redundancy) quantifica la somiglianza di un risultato rispetto ad altri risultati Utilità (usefulness) rispetto all’obiettivo conoscitivo Novità (novelty) include la deviazione dalle conoscenze precedenti Semplicità (simplicity) fa riferimento alla complessità sintattica della presentazione dei risultati Generalità (generality) è determinata dalla frazione di popolazione cui i risultati si riferiscono

33 Dati Non Numerici La statistica classica lavora esclusivamente su dati numerici Oggi le basi di dati disponibili contengono sempre più frequentemente dati differetni: immagini, suoni, testi, mappe geografiche non convenzionali E’ spesso necessario identificare strutture e regolarità in questo genere di dati non convenzionali Web Mining Il Web Mining è oggi un area distinta del Mining e sarà oggetto della seconda parte del corso

34 Relazioni Spurie Il problema è simile a quello dell’overfitting per i modelli statistici Poiché la ricerca di regolarità esamina un numero grandissimo di possibili “regolarità (pattern)” identificabili, c’è un’alta probabilità che possano identificarsi configurazioni “spurie” come pattern Forse possibili soluzioni sono da ricercarsi ponendosi al di fuori del tradizionale punto di vista statistico e definire strategie, basate su regole di valutazione, piuttosto che su interpretazioni probabilistiche E in questo contesto non vanno neppure trascurate le conseguenze operative connesse ai risultati ottenuti

35 Data Retrieval1 Obiettivo: Obiettivo: trovare oggetti che soddisfino condizioni chiaramente specificate mediante una espressione regolare o di algebra relazionale, ma anche strumenti tipici di interrogazione di banche dati Esempi di risultati di un processo di data retrieval:  Risposte puntuali ad una richiesta Quanti prodotti abbiamo venduto questo mese?  Produzione di raccolte Quali sono i nominativi dei nostri clienti con ordinativi superiori a 10000€?  Supporto alla elaborazione di studi N.B. Legge di Mooers: “Un sistema di reperimento delle informazioni tenderà a non essere usato quando trovare le informazioni è “more painful and troublesome” ( “più noioso e doloroso”) che non trovarle”

36 Il data retrieval è uno strumento per interrogare banche dati, mediante query (interrogazione) Il sistema cerca, all interno della banca dati, tutti i casi che soddisfano le condizioni poste nella query vale a dire tutti i record che presentano le caratteristiche richieste, fornendo successivamente la risposta L'individuazione di associazioni nascoste può quindi solo procedere per tentativi, mentre l'uso di strumenti di data retrieval consente di avere risposte precise a qualsiasi domanda specifica, il data mining risponde a domande più generiche Si tratta quindi di un approccio verificativo e non esplorativo, come nel data mining Data Retrieval2.

37 Structured Query Language - SQL SQL è un linguaggio progettato per gestire e recuperare i dati in un sistema di gestione di basi di dati relazionali (DBMS) Si tratta di un linguaggio di programmazione interattivo. Le interrogazioni (query) hanno la forma di comandi, e consente all’utente di specificare la descrizione dei risultati desiderati Es. SELECT * FROM books WHERE price > 100.00 ORDER BY title; che consente di ottenere la lista dei titoi dei libri più cari contenuti nella base di dati su cui si è fatta l’interrogazione. In dettalgio, la query identifica nella tabella books tutte le righe nelle quali la colonna price contiene un valore superiore a 100,00. Il risultato è ordinato alfabeticamente, rispetto al campo title. L’asterisco (*) indica che tutte le colonne della tabella books per le quali è valida la richiesta devono essere incluse nell’insieme rei risultati

38 Piccolo glossario (da Wikipedia) Business Intelligence: Con il termine business intelligence (BI) ci si può solitamente riferire a:BI 1.un insieme di processi aziendali per raccogliere ed analizzare informazioni strategiche.processi aziendali 2. la tecnologia utilizzata per realizzare questi processi, 3.le informazioni ottenute come risultato di questi processi. Questo termine è stato coniato nel 1958 da Hans Peter Luhn, ricercatore tedesco, alla IBM.Hans Peter LuhnIBM Data mart: è un raccoglitore di dati specializzato in un particolare soggetto. E’ un sottoinsieme logico o fisico di un Data warehouse di maggiori dimensioni. La differenza fondamentale consiste nel fatto che la creazione del Data warehouse avviene in maniera generalizzata per poi venire incontro alle specifiche esigenze, mentre il Data mart viene generalmente creato per venire incontro ad un'esigenza specifica e già determinata. Data Wharehouse: "Magazzino di dati". è un archivio informatico contenente i dati di un'organizzazione. I DW sono progettati per consentire di produrre facilmente relazioni ed analisi. Il data warehouse è un sistema OLAPOLAP

39 Piccolo glossario (da Wikipedia) Machine learning L'Apprendimento automatico (noto in letteratura come Machine Learning) rappresenta una delle aree fondamentali dell'Intelligenza Artificiale e si occupa della realizzazione di sistemi che si basano su osservazioni o esempi come dati per la sintesi di nuova conoscenza (classificazioni, generalizzazioni, riformulazioni).Intelligenza Artificiale Metadato (dal greco meta- "oltre, dopo" e dal latino datum "informazione" - plurale: dati), letteralmente "dato su un (altro) dato", è l'informazione che descrive un insieme di dati. Un esempio tipico di metadati è costituito dalla scheda del catalogo di una biblioteca, la quale contiene informazioni circa il contenuto e la posizione di un libro, cioè dati riguardanti i dati che si riferiscono al libro. Un altro contenuto tipico dei metadati può essere la fonte o l'autore dell'insieme di dati descritto oppure le modalità d'accesso, con le eventuali limitazioni.grecolatinoinformazione biblioteca

40 Piccolo glossario (da Wikipedia) OLAP : acronimo che sta per l'espressione On-Line Analytical Processing, designa un insieme di tecniche software per l'analisi interattiva e veloce di grandi quantità di dati, che è possibile esaminare in modalità piuttosto complesse. Questa è la componente tecnologica base del data warehouse e, ad esempio, serve alle aziende per analizzare i risultati delle vendite, l'andamento dei costi di acquisto merci, al marketing per misurare il successo di una campagna pubblicitaria, ad una università i dati di un sondaggio ed altri casi simili. Gli strumenti OLAP si differenziano dagli OLTP per il fatto che i primi hanno come obiettivo la performance nella ricerca e il raggiungimento di un'ampiezza di interrogazione quanto più grande possibile; i secondi, invece, hanno come obiettivo la garanzia di integrità e sicurezza delle transazioni.acronimodata warehouse Pattern recognition è una delle aree del machine learning. L’obiettivo è quello di classificare i dati sulla base o di conoscenze a priori o su informazioni estratte dai dati Gli oggetti da classificare sono di regola rappresentati da punti in un appropriato spazio multidimensionale.machine learning


Scaricare ppt "Introduzione al Data Mining Simona Balbi. Abbondanza di dati, ma … povertà di conoscenza Le basi di dati elettroniche sono sempre più grandi  Si ragiona."

Presentazioni simili


Annunci Google