Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Dati utilizzati 500 titoli dell’indice S&P Anno 1998 Serie di 252 numeri Prezzo di apertura Classificazione S&P in 62 cluster
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Cosa vedremo… …clustering dello S&P Data pre-processing Data pre-processing Algoritmo di clustering Algoritmo di clustering Misure di similarità Misure di similarità Analisi dei risultati ottenuti Analisi dei risultati ottenuti Confronto con lo studio di Jin, Lu, Shi “Similarity measure based on partial information of time series ” Confronto con lo studio di Jin, Lu, Shi “Similarity measure based on partial information of time series ”
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 1. Rappresentazione della serie Raw data Raw data First derivative First derivative
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 2. Normalizzazione None None Z-score Z-score Piecewise Piecewise v’ = v – μ σ
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 3. Riduzione delle dimensioni PCA ( = principal component analysis) PCA ( = principal component analysis) Aggregation Aggregation Fourier transform Fourier transform
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni I. Principal Component Analysis Crea un nuovo insieme di attributi Dato il vettore X i in d dimensioni, trova le d basi ortonormali e ne seleziona M, con M<d, definite principal component ed ordinate in maniera decrescente secondo la varianza I dati iniziali diventano una combinazione lineare dei principal component
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni I. PCA Y 2 X 2 X 1 Y 1
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni II. Aggregation Sostituisce i valori di un periodo di giorni B con la loro media Il periodo B può avere ampiezza diversa (5, 10, 20 giorni) (5, 10, 20 giorni) La dimensione dei dati diminuisce di un fattore 1/B
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni III. Trasformata di Fourier Data una serie temporale s, i coefficienti di Fourier sono numeri complessi definiti come: Selezionando pochi coefficienti di Fourier si ottiene una buona approssimazione della serie iniziale La maggior parte dell’energia è concentrata alle basse frequenze S f = 1/√D ∑ t s t exp(-j2πft/D) f = 0,……,D-1
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 2: algoritmo di clustering Algoritmo gerarchico agglomerativo (HAC) unione binaria di cluster unione binaria di cluster unione di 2 cluster con la minima distanza intercluster unione di 2 cluster con la minima distanza intercluster
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 3: misure di similarità Confronto tra classificazione S&P di riferimento (C) e clustering effettuato con i metodi precedenti (C’) Similarità tra i 2 gruppi di cluster: Similarità tra i 2 gruppi di cluster: Similarità tra 2 singoli cluster: Similarità tra 2 singoli cluster: Sim(C,C’) = (∑ i max j Sim(C i,C’ j )) / k 2 |C i ∩ C’ j | |C i | + |C’ j | Sim(C i,C’ j ) =
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NNNN NNNN NNNN YYYY YYYY NNNN YYYY YYYY all 5 all 10 all 50 all
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMAggWinSim(S&P,HAC)Sim(HAC,S&P) NNNNNNNN NNNNNNNN YYYYYYYY YYYYYYYY NNNNNNNN YYYYYYYY NNNNNNNN YYYYYYYY none none none none
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMFreqSim(S&P,HAC)Sim(HAC,S&P) NNNNNNNN NNNNNNNN YYYYYYYY YYYYYYYY NNNNNNNN YYYYYYYY NNNNNNNN YYYYYYYY
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDSim(S&P,HAC)Sim(HAC,S&P)Win NNNNNNNNNNNN YYYYYYYYYYYY
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Precision-recall curves
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Precision-recall curves PRECISION =RECALL = + +
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Normalizzare i dati in input migliora la qualità dei risultati Normalizzare i dati in input migliora la qualità dei risultati FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM YYYY NNNN YYYY YYYY all 50 all
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Si ottengono migliori risultati con la piecewise normalization Si ottengono migliori risultati con la piecewise normalization FDSim(S&P,HAC)Sim(HAC,S&P)Win N 10Y FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NY YY all
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Utilizzando le first derivative normalizzate della serie temporale si ottengono risultati migliori Utilizzando le first derivative normalizzate della serie temporale si ottengono risultati migliori FDSim(S&P,HAC)Sim(HAC,S&P)Win NNNNNNNNNNNN YYYYYYYYYYYY
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Calcolare le first derivative senza normalizzare peggiora le performance Calcolare le first derivative senza normalizzare peggiora le performance FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NNNN NNNN NNNN YYYY YYYY NNNN YYYY YYYY all 5 all 10 all 50 all
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali I dati grezzi possono essere ridotti notevolmente senza perdere il loro contenuto, ma non è possibile ottenere buoni cluster da essi I dati grezzi possono essere ridotti notevolmente senza perdere il loro contenuto, ma non è possibile ottenere buoni cluster da essi Con le tecniche per ottenere buoni cluster non posso ridurre le dimensioni senza perdere le informazioni Con le tecniche per ottenere buoni cluster non posso ridurre le dimensioni senza perdere le informazioni
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni E’ POSSIBILE RIDURRE LE DIMENSIONI DEI DATI E FARE BUONI CLUSTER SU DI ESSI?
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Similarity measure based on partial information of time series X.Jin Y.lu C.Shi
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni MA LA % DI DATI CONSIDERATI HA UN IMPATTO DECISIVO SULLA QUALITA’ DEL CLUSTERING!