La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Data Mining Tecniche e algoritmi di base per lestrazione di conoscenza.

Presentazioni simili


Presentazione sul tema: "Data Mining Tecniche e algoritmi di base per lestrazione di conoscenza."— Transcript della presentazione:

1 Data Mining Tecniche e algoritmi di base per lestrazione di conoscenza

2 Cosa vedremo... zMotivazione al data mining zPanoramica approcci di base zIdee generali algoritmi di base zCollegamenti con discipline coinvolte zEsempi applicativi

3 Cosa non vedremo... zAlgoritmi nello specifico zTecniche avanzate

4 Data mining Introduzione

5 Knowledge Discovery zLa maggior parte delle aziende dispone di enormi basi di dati contenenti dati di tipo operativo yQueste basi di dati costituiscono una potenziale miniera di utili informazioni

6 Knowledge Discovery zProcesso di estrazione dai dati esistenti di pattern: yvalide yprecedentemente sconosciute ypotenzialmente utili ycomprensibili [Fayyad, Piatesky-Shapiro, Smith 1996]

7 Esempio x x x x x x x x x x x x x x oo o o o o o o o o o o o o o o x Stipendio Prestiti Persone che hanno ricevuto un prestito dalla banca: x: persone che hanno mancato la restituzione di rate o: persone che hanno rispettato le scadenze

8 Knowledge Discovery zDati: insieme di informazioni contenute in una base di dati o data warehouse zPattern: espressione in un linguaggio opportuno che descrive in modo succinto le informazioni estratte dai dati yregolarita` yinformazione di alto livello

9 Esempio x x x x x x x x x x x x x x oo o o o o o o o o o o o o o o x Stipendio Prestiti IF stipendio < k THEN mancati pagamenti k

10 Caratteristiche dei pattern zValidita`: i pattern scoperti devono essere validi su nuovi dati con un certo grado di certezza yEsempio: spostamento a destra del valore di k porta riduzione del grado di certezza zNovita`: misurata rispetto a variazioni dei dati o della conoscenza estratta

11 Caratteristiche dei pattern zUtilita` yEsempio: aumento di profitto atteso dalla banca associato alla regola estratta zComprensibilita`: misure di tipo ysintattico ysemantico

12 Processo di estrazione dati dati selezionati dati processati dati trasformati pattern conoscenza DATA MINING

13 Requisiti zDati eterogenei zefficienza e scalabilita` tecniche zqualita`informazioni estratte zcriteri diversificati di estrazione zprivatezza dei dati

14 Discipline coinvolte zAI zmachine learning zknowledge acquisition zstatistics zdata visualization zneural networks zdatabase zdata mining Dati in memoria centrale Dati in memoria secondaria

15 Data Mining Tecniche di analisi

16 zRegole di associazione zClassificazione zClustering zSimilarity search

17 Regole di associazione zDati del problema: yI insieme di items xprodotti venduti da un supermercato ytransazione T: insieme di items t.c. T I xoggetti acquistati nella stessa transazione di cassa al supermercato ybase di dati D: insieme di transazioni

18 Regole di associazione zRegola di associazione X Y X,Y I zSupporto S: #trans. contenenti X Y #trans. in D yrilevanza statistica zConfidenza C: #trans. contenenti X Y #trans. contenenti X ysignificativita` dellimplicazione

19 Esempio Latte Uova zSupporto: il 30% delle transazioni che contengono latte contiene anche uova zConfidenza: il 2% delle transazioni contiene entrambi gli elementi

20 Regole di associazione zProblema: ydeterminare tutte le regole con supporto e confidenza superiori ad una soglia data

21 TRANSACTION ID OGGETTI ACQUISTATI A,B,C A,C A,D B,E,F Esempio zAssumiano: ysupporto minimo 50% yconfidenza minima 50%

22 Esempio TRANSACTION ID OGGETTI ACQUISTATI A,B,C A,C A,D B,E,F zRegole ottenute: yA C supporto 50% confidenza 66.6 yC A supporto 50% confidenza 100%

23 Applicazioni zAnalisi market basket y* uova xcosa si deve promuovere per aumentare le vendite di uova? yLatte * xquali altri prodotti devono essere venduti da un supermercato che vende latte? zDimensione del problema: yoggetti: 10 4, 10 5, transazioni: > 10 6 ybase di dati: GB

24 Settori di sviluppo zTeniche definite prevalentemente nel contesto data mining

25 Decomposizione problema zTrovare tutti gli insiemi di item che hanno un supporto minimo (frequent itemsets) zGenerazione delle regole a partire dai frequent itemsets zAlgoritmo fondamentale: APRIORI [Agrawal, Srikant 1994]

26 Esempio zPasso 1: estrazione frequent itemsets zsupporto minimo 50% TRANSACTION ID OGGETTI ACQUISTATI A,B,C A,C A,D B,E,F FREQUENT ITEMSET {A} {B} {C} {A,C} SUPPORTO 75% 50%

27 Esempio zPasso 2: estrazione regole yconfidenza minima 50% yEsempio: regola A C xsupporto {A,C} = 50% xconfidenza = supporto {A,C}/supporto{A} = 66.6% yregole estratte xA C supporto 50%, conf. 66.6% xA C supporto 50%, conf. 100%

28 Interesse regole estratte zNon sempre tutte le regole con supporto e confidenza superiori alla soglia sono interessanti zEsempio: yscuola con 5000 studenti y60% (3000) gioca a pallacanestro y75% (3750) mangia fiocchi a colazione y40% (2000) gioca a pallacanestro e mangia fiocchi a colazione

29 Interesse regole estratte zCon supporto min. 40% e confidenza min. 60%: ygioca a pallacanestro mangia fiocchi ysupporto = 2000/5000 = 0.4 yconfidenza = 2000/3000 = 0.66 > 0.6 zregola fuorviante perche` il 75% degli studenti mangia fiocchi! zNuova misura: supporto(A,B) - supporto(B) supporto(A)

30 Estensioni zRegole generalizzate zvino dolci, valida anche se: ybevande dolci non ha confidenza suff. yMoscato WXY dolci non ha supporto suff. alimentari bevandedolci limonatavinopanettonepanforte Moscato WXY

31 Estensioni zEstrazione da dati di tipo numerico ypartizionamento in intervalli ymisura della perdita di informazione dovuta al partizionamento xsposato, eta` anni 2 automobili zMetaregole zOttimizzazione algoritmi: yriduzione scan database ycampionamento yupdate incrementale yalgoritmi paralleli

32 Classificazione zDati del problema: yinsieme di classi yinsieme di oggetti etichettati con il nome della classe di appartenenza (training set) zProblema: ytrovare il profilo descrittivo per ogni classe, utilizzando le features dei dati contenuti nel training set, che permetta di assegnare altri oggetti, contenuti in un certo test set, alla classe appropriata

33 Applicazioni zClassificazione tendenze di mercato zidentificazione automatica di immagini zidentificazione del rischio in mutui/assicurazioni zefficiacia trattamenti medici

34 Settori di sviluppo zStatistica zmachine learning yalberi di decisione yinductive logic programming zreti neurali zsistemi esperti zdata mining

35 Ipotesi di funzionamento zTraining set contenuto nella memoria principale del sistema zNelle DB attuali possono essere disponibili anche Mbyte di training set ydimensioni significative del training set possono migliorare laccuratezza della classificazione

36 Alberi di decisione zVeloci rispetto agli altri metodi zFacili da interpretare tramite regole di classificazione zPossono essere convertiti in interrogazioni SQL per interrogare la base di dati

37 Esempio Eta` < 26 AltoTipo auto BassoAlto ETA` CLASSE RISCHIO basso alto basso TIPO AUTO familiare sportiva utilitaria sportiva familiare sino sportiva familiare Alto utilitaria

38 Costruzione albero zDue fasi: yfase di build: si costruisce lalbero iniziale, partizionando ripetutamente il training set sul valore di un attributo, fino a quando tutti gli esempi in ogni partizione appartengono ad una sola classe yfase di pruning: si pota lalbero, eliminando rami dovuti a rumore o fluttuazioni statistiche

39 Fase di build Maketree(training set T) {Partition(T)} Partition(Data set S) { if (tutti i punti in S sono nella stessa classe) then return for tutti gi attributi A do valuta gli splits su A usa split migliore per partizionare S in S1 e S2 Partition(S1) Partition(S2) }

40 Split zSu attributi numerici yA v yv1v2v3v4v5 s1 s2 s3 s4valori di split zSu attributi categorici yA = s1, per ogni s1 nel dominio di A, se e`piccolo yeuristica altrimenti

41 Indici di splitting zDiverse tipologie di indice zIndice Gini: ydataset T con esempi di n classi ygini(T) = 1 - i p i 2 ycon p i frequenza class i in T zSe T viene suddiviso in T1 con n1 esempi e T2 con n2 esempi: ygini split (T) =(n1/n) gini(T1) + (n2/n) gini(T2)

42 Fase di pruning zDue modalita`di base ysi estraggono campioni multipli dal training set e si costruiscono alberi indipendenti xgli alberi vengono utilizzati per stimare il tasso di errore dei sottolaberi dellalbero di partenza xnon appropriato per training set molto grandi ysi divide il training set in due parti: xcostruzione albero xpruning xsi puo`ridurre laccuratezza della costruzione dellalbero xi dati per il pruning devono riflettere la vera distribuzione dei dati

43 Estensioni zSplit su attributi multipli zgestione training set in memoria secondaria ytecniche machine learning e statistica in memoria centrale

44 Clustering zDati del problema: ybase di dati di oggetti zProblema: ytrovare una suddivisione degli oggetti in gruppi in modo che: xgli oggetti in un gruppo siano molto simili tra di loro xoggetti in gruppi diversi siano molto diversi yi gruppi possono essere anche sovrapposti o organizzati gerarchicamente

45 Applicazioni zIdentificazione di popolazioni omogenee di clienti in basi di dati di marketing zvalutazione dei risultati di esperimenti clinici zmonitoraggio dellattivita` di aziende concorrenti

46 Settori di sviluppo zStatistica zmachine learning zdatabase spaziali zdata mining

47 Esempio x x x x x x x x x x x x x x xx x x x x x x x x x x x x x x x Stipendio Prestiti

48 Approcci zApproccio statistico: ydati = punti nello spazio ymisure globali yoggetti noti a priori ynon scalabili zMachine learning: yconceptual clustering

49 Approcci zData mining: ysi determinano i rappresentanti di ogni cluster ysi cercano gli elementi simili ysi aggiorna il methoid zGli algoritmi si differenziano principalmente nella scelta del medoid

50 Estensioni zMolti algoritmi solo per memoria centrale zUtilizzo di tecniche di indice spaziale per clusterizzazione dati su disco

51 Similarity search zDati del problema: ybase di dati di sequenze temporali zProblema:determinare ysequenze simili ad una sequenza data ytutte le coppie di sequenze simili

52 Applicazioni zIdentificazione delle societa`con comportamento simile di crescita zdeterminazione di prodotti con profilo simile di vendita zidentificazione di azioni con andamento simile zindividuazione porzioni onde sismiche non simili per determinare irregolarita`geologiche

53 Settori di sviluppo zDatabase temporali zspeech recognition techniques zdatabase spaziali

54 Tecniche zDue tipi di interrogazione ymatch completo: la sequenza cercata e le sequenze della base di dati hanno la stessa lunghezza ymatch parziale: la sequenza cercata puo`essere sottosequenza di quelle recuperate dalla base di dati zPossibilita`di traslazioni, variazioni di scala

55 Esempio tempo prezzo tempo prezzo tempo prezzo tempo prezzo AZIONE A AZIONE B

56 Misure zEuclidea ymatch con sequenze aventi la stessa lunghezza xsi devono generare tutte le sottosequenze aventi la lunghezza della sequenza di query zcorrelazione ynon si devono generare le sottosequenze

57 Approccio database spaziali zOgni sequenza yinsieme di punti in uno spazio multi- dimensionale zuso tecniche di indice spaziale per trovare sequenze simili

58 Data mining Indicazioni di ricerca

59 Recenti direzioni di ricerca zDefinizione di linguaggi di alto livello per la specifica di criteri di estrazione della conoscenza zgestione di tipologie diverse di dati (oggetti, attivi, deduttivi, spaziali, temporali, multimediali, ecc.) zalgoritmi incrementali znuove tipologie di applicazioni (web)

60 Argomenti per seminari zApplicazione delle tecniche di ILP al data mining zData mining spaziale zData mining temporale zWWW data mining


Scaricare ppt "Data Mining Tecniche e algoritmi di base per lestrazione di conoscenza."

Presentazioni simili


Annunci Google