La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Chapter 14, Hastie , Tibshirani and Friedman

Presentazioni simili


Presentazione sul tema: "Chapter 14, Hastie , Tibshirani and Friedman"— Transcript della presentazione:

1 Chapter 14, Hastie , Tibshirani and Friedman
Lecture 14 Association Rules Giuseppe Manco Readings: Chapter 6, Han and Kamber Chapter 14, Hastie , Tibshirani and Friedman

2 Association Rule Mining
Dato un insieme di transazioni, trovare le regole che predicono l’occorrenza di un item sulla base delle occorrenze di altri items nella transazione Conosciuta anche come market basket analysis Transazioni Market-Basket Esempi di associazioni {pannolini}  {birra}, {latte, Bread}  {Eggs,Coke}, {birra, Bread}  {latte}, NB: l’implicazione è co-occorrenza, non causalità!

3 Il contesto Abitudini del cliente tramite l’analisi delle correlazioni tra le varie cose che il cliente acquista latte, eggs, sugar, bread latte, eggs, cereal, bread Eggs, sugar Customer1 Customer2 Customer3

4 Il contesto [2] Dato: Trovare:
Un database di transazioni, dove ogni transazione è un insieme di items Trovare: I gruppi di items che sono stati acquistati insieme frequentemente

5 Road Map AR Unidimensionali/multidimensionali
Su insieme o su attributi Intra-Attributo, Inter-Attributo AR Qualitative/quantitative Dati categorici, dati numerici AR semplici/basate su vincoli Esempio: acquisti piccoli (sum < 100) causano grandi acquisti (sum > 1,000) Single level/multiple-level AR Esempio Quali marche di birra sono associate con quali marche di pannolini? Associazioni/correlazioni Causalità

6 Definizioni base Itemset Support () Itemset frequente
Una collezione di items Example: {latte, Bread, pannolini} k-itemset Un itemset contenente k items Support () Frequenza di occorrenze di un itemset E.g. ({latte, Bread,pannolini}) = 2 Itemset frequente Un itemset il cui supporto è maggiore di un valore soglia

7 Definizioni base [2] Transazione Formato relazionale Formato colonnare
Formato compatto

8 Itemset frequenti Support({formaggio}) = 3 (75%)
Support({frutta}) = 3 (75%) Support({formaggio, frutta}) = 2 (50%) Se  = 60% {formaggio} e {frutta} sono frequenti, mentre {formaggio, frutta} non lo è.

9 Itemset frequenti, regole logiche
La co-occorrenza non implica causalità b a a b ab Nessuna relazione b b a a ba Sia ba che ab

10 Definizioni base [3] Esempio: Regola associativa
Un’implicazione della forma X  Y, dove X e Y sono itemsets Esempio: {latte, pannolini}  {birra} Metriche per la valutazione di una regola Support (s) Frazione delle transazioni che contengono X e Y Confidence (c) Misura quante volte Y appare nelle transazioni che contengono X Esempio:

11 Regole associative e interpretazione probabilistica
support(A  B) = p(A  B) confidence(A  B) = p(B|A) = p(A & B)/p(A).

12 Il problema Dato un insieme T di transazioni, trovare tutte le regole per cui supporto ≥ minsup confidenza ≥ minconf Confidenza alta = forte regolarità Supporto alto = il pattern occorre spesso La co-occorrenza non è casuale

13 Applicazioni 1 (vendite al dettaglio)
market baskets Le catene di supermercati mantengono le transazioni relative agli acquisti dei clienti conseguenze Conoscere le abitudini d’acquisto dei clienti Posizionamento adeguato dei prodotti Cross-selling –gli hamburger al saldo, il prezzo del ketchup aumentato

14 Applicazioni 2 (Information Retrieval)
Scenario 1 baskets = documenti items = parole Gruppi di parole frequenti = concetti correlati. Scenario 2 items = frasi baskets = documenti contenti frasi Gruppi di frasi frequenti = possibili plagi

15 Applicazione 3 (Web Search)
Scenario 1 baskets = pagine web items = link in uscita Pagine con riferimenti simili  stessi topics Scenario 2 items = link in entrata Pagine con gli stessi in-links  mirrors

16 Regole associative Esempi di regole:
{latte,pannolini}  {birra} (s=0.4, c=0.67) {latte,birra}  {pannolini} (s=0.4, c=1.0) {pannolini,birra}  {latte} (s=0.4, c=0.67) {birra}  {latte,pannolini} (s=0.4, c=0.67) {pannolini}  {latte,birra} (s=0.4, c=0.5) {latte}  {pannolini,birra} (s=0.4, c=0.5) Le regole sono ottenute dal dataset {latte, pannolini, birra} Supporto simile, confidenza differente Decomposizione del problema: Trovare tutti gli itemset frequenti Utilizzare gli itemset frequenti per trovare le regole

17 Mining di regole associative
Obiettivo – trovare tutte le regole per cui Supporto ≥ s confidenza ≥ c Riduzione del problema trovare tutti gli itemsets frequenti X Dato X={A1, …,Ak}, generare le regole X-Aj  Aj Confidenza = sup(X)/sup(X-Aj) Supporto = sup(X) Eliminiamo le regole il cui supporto è basso Problema principale Trovare gli itemsets frequenti

18 Il reticolo degli itemsets
dati m items, ci sono 2m-1 possibili itemsets candidati

19 La scala del problema Catena di supermercati Web
vende m=100,000 items traccia n=1,000,000,000 transazioni al giorno Web Miliardi di pagine Approssimativamente una parola diversa per ogni pagina Un numero esponenziale di itemsets m items → 2m-1 possibili itemsets Non possiamo considerare tutti gli itemsets dato m Anche i 2-itemsets possono essere troppi m=100,000 → miliardi di coppie

20 Utilizzando SQL Assunzione di base: formato relazionale 3-itemsets:
Purchase(TID, ItemID) 3-itemsets: SELECT Fact1.ItemID, Fact2.ItemID, Fact3.ItemID, COUNT(*) FROM Purchase Fact1 JOIN Purchase Fact2 ON Fact1.TID = Fact2.TID AND Fact1.ItemID < Fact2.ItemID JOIN Purchase Fact3 ON Fact1.TID = Fact3.TID AND Fact1.ItemID < Fact2.ItemID AND Fact2.ItemID < Fact3.ItemID GROUP BY Fact1.ItemID, Fact2.ItemID, Fact3.ItemID HAVING COUNT(*) > 1000 Trovare i k-itemsets richiede k operazioni di join!

21 Monotonicità Idea chiave:
Se un itemset è frequente, Tutti i suoi sottoinsiemi devono essere frequenti Il principio di monotonicità vale per il supporto: Strategia di pruning: Se un itemset è infrequente, tutti i suoi sovrainsiemi devono essere infrequenti

22 Monotonicità infrequente pruning

23 L’algoritmo Apriori Join Step Prune Step Pseudo-codice:
Ck è generato fondendo Lk-1con sé stesso Prune Step Tutti i (k-1)-itemsets non frequenti non possono essere sottoinsiemi di un k-itemset frequente Pseudo-codice: Ck: itemsets candidati di dimensione k Lk : itemsets frequenti di dimensione k 1. L1 = {items frequenti}; 2. for (k = 1; Lk ≠ ; k++) do begin 3. Ck+1 = candidati generati da Lk; 4. for each transazione t in D 5. Incrementa il supporto dei candidati in Ck+1 contenuti in t 6. Lk+1 = tutti i candidati in Ck+1 con min_support 7. return ∪k Lk;

24 Esempio Database D L1 C1 Scan D C2 C2 L2 Scan D C3 L3 Scan D

25 Generazione di candidati [1]
Fase di join Passo 3 insert into Ck+1 select p.item1,p.item2, …, p.itemk-1,q.itemk-1 from p,q where p.item1=q.item1 and p.item2= q.item2 and … p.itemk-2= q.itemk-2 and p.itemk-1< q.itemk-1

26 Generazione candidati [2]
Fase di pruning Passo 3 Inizialmente, Eliminiamo {a,c,d,e} {c,d,e}L3

27 Generazione degli itemsets frequenti
Conteggio dei candidati Passo 6 Perché è problematico? Il numero totale dei candidati può essere alto Una transazione può contenere molti candidati Soluzione Hash-tree Nodi foglia Itemsets candidati Nodi interni Tabelle hash Ogni bucket punta ad un sottoinsieme di candidati Speed-up della relazione di sottoinsieme

28 Hash-tree

29 Utilizzo dell’Hash-tree
Inserzione Identifica la foglia opportuna e inserisci l’itemset La foglia è ottenuta con la ricerca Se c’è overflow, splitta la foglia in due foglie e aggiungi un nuovo nodo interno Ricerca Parti dalla radice Ad ogni livello i: Applica la funzione hash all’i-esimo elemento dell’itemset Scendi al livello puntato dal risultato della funzione Counting Passo 5 t={t1,t2,…tn} Ad ogni livello d Determina il nodo puntato da ti Continua la ricerca con {ti+1,…,tn} Se nodo foglia Aggiorna il supporto degli itemsets contenuti in t

30 Ricerca {3,7,11} 3 mod 3=0 7 mod 3=1 11 mod 3=2

31 Counting T={1,3,7,9,12} Nodi identificati Nodi tagliati


Scaricare ppt "Chapter 14, Hastie , Tibshirani and Friedman"

Presentazioni simili


Annunci Google