Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani.

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Dati utilizzati 500 titoli dell’indice S&P Anno 1998 Serie di 252 numeri Prezzo di apertura Classificazione S&P in 62 cluster

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Cosa vedremo… …clustering dello S&P Data pre-processing Data pre-processing Algoritmo di clustering Algoritmo di clustering Misure di similarità Misure di similarità Analisi dei risultati ottenuti Analisi dei risultati ottenuti Confronto con lo studio di Jin, Lu, Shi “Similarity measure based on partial information of time series ” Confronto con lo studio di Jin, Lu, Shi “Similarity measure based on partial information of time series ”

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 1. Rappresentazione della serie Raw data Raw data First derivative First derivative

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 2. Normalizzazione None None Z-score Z-score Piecewise Piecewise v’ = v – μ σ

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 3. Riduzione delle dimensioni PCA ( = principal component analysis) PCA ( = principal component analysis) Aggregation Aggregation Fourier transform Fourier transform

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni I. Principal Component Analysis Crea un nuovo insieme di attributi Dato il vettore X i in d dimensioni, trova le d basi ortonormali e ne seleziona M, con M<d, definite principal component ed ordinate in maniera decrescente secondo la varianza I dati iniziali diventano una combinazione lineare dei principal component

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni I. PCA Y 2 X 2 X 1 Y 1

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni II. Aggregation Sostituisce i valori di un periodo di giorni B con la loro media Il periodo B può avere ampiezza diversa (5, 10, 20 giorni) (5, 10, 20 giorni) La dimensione dei dati diminuisce di un fattore 1/B

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni III. Trasformata di Fourier Data una serie temporale s, i coefficienti di Fourier sono numeri complessi definiti come: Selezionando pochi coefficienti di Fourier si ottiene una buona approssimazione della serie iniziale La maggior parte dell’energia è concentrata alle basse frequenze S f = 1/√D ∑ t s t exp(-j2πft/D) f = 0,……,D-1

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 2: algoritmo di clustering Algoritmo gerarchico agglomerativo (HAC) unione binaria di cluster unione binaria di cluster unione di 2 cluster con la minima distanza intercluster unione di 2 cluster con la minima distanza intercluster

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 3: misure di similarità Confronto tra classificazione S&P di riferimento (C) e clustering effettuato con i metodi precedenti (C’) Similarità tra i 2 gruppi di cluster: Similarità tra i 2 gruppi di cluster: Similarità tra 2 singoli cluster: Similarità tra 2 singoli cluster: Sim(C,C’) = (∑ i max j Sim(C i,C’ j )) / k 2 |C i ∩ C’ j | |C i | + |C’ j | Sim(C i,C’ j ) =

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NNNN NNNN NNNN YYYY YYYY NNNN YYYY YYYY all 5 all 10 all 50 all 100 0.183 0.197 0.222 0.211 0.154 0.172 0.290 0.310 0.210 0.213 0.212 0.198 0.207 0.298 0.310

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMAggWinSim(S&P,HAC)Sim(HAC,S&P) NNNNNNNN NNNNNNNN YYYYYYYY YYYYYYYY NNNNNNNN YYYYYYYY NNNNNNNN YYYYYYYY none 5 10 20 none 5 10 20 none 5 10 20 none 5 10 20 0.183 0.192 0.193 0.192 0.228 0.217 0.221 0.215 0.152 0.190 0.195 0.178 0.288 0.225 0.230 0.211 0.210 0.217 0.215 0.213 0.217 0.212 0.216 0.220 0.197 0.211 0.217 0.208 0.294 0.217 0.231 0.211

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMFreqSim(S&P,HAC)Sim(HAC,S&P) NNNNNNNN NNNNNNNN YYYYYYYY YYYYYYYY NNNNNNNN YYYYYYYY NNNNNNNN YYYYYYYY 5 10 20 50 5 10 20 50 5 10 20 50 5 10 20 50 0.191 0.203 0.192 0.193 0.215 0.210 0.221 0.225 0.202 0.189 0.191 0.190 0.198 0.235 0.247 0.232 0.197 0.204 0.196 0.202 0.217 0.208 0.229 0.224 0.215 0.209 0.217 0.212 0.209 0.236 0.240 0.234

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti 10 15 30 45 60 75 0.322 0.307 0.270 0.266 0.246 0.255 0.338 0.346 0.330 0.346 0.316 0.310 0.326 0.314 0.273 0.281 0.241 0.257 0.334 0.339 0.329 0.333 0.310 0.297 FDSim(S&P,HAC)Sim(HAC,S&P)Win NNNNNNNNNNNN 10 15 30 45 60 75 YYYYYYYYYYYY

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Precision-recall curves

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Precision-recall curves PRECISION =RECALL = + +

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Normalizzare i dati in input migliora la qualità dei risultati Normalizzare i dati in input migliora la qualità dei risultati FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM YYYY NNNN YYYY YYYY all 50 all 100 0.154 0.172 0.290 0.310 0.198 0.207 0.298 0.310

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Si ottengono migliori risultati con la piecewise normalization Si ottengono migliori risultati con la piecewise normalization 100.322 0.338 0.326 0.334 FDSim(S&P,HAC)Sim(HAC,S&P)Win N 10Y FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NY YY all 0.222 0.290 0.213 0.298

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Utilizzando le first derivative normalizzate della serie temporale si ottengono risultati migliori Utilizzando le first derivative normalizzate della serie temporale si ottengono risultati migliori 10 15 30 45 60 75 0.322 0.307 0.270 0.266 0.246 0.255 0.338 0.346 0.330 0.346 0.316 0.310 0.326 0.314 0.273 0.281 0.241 0.257 0.334 0.339 0.329 0.333 0.310 0.297 FDSim(S&P,HAC)Sim(HAC,S&P)Win NNNNNNNNNNNN 10 15 30 45 60 75 YYYYYYYYYYYY

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Calcolare le first derivative senza normalizzare peggiora le performance Calcolare le first derivative senza normalizzare peggiora le performance FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NNNN NNNN NNNN YYYY YYYY NNNN YYYY YYYY all 5 all 10 all 50 all 100 0.183 0.197 0.222 0.211 0.154 0.172 0.290 0.310 0.210 0.213 0.212 0.198 0.207 0.298 0.310

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali I dati grezzi possono essere ridotti notevolmente senza perdere il loro contenuto, ma non è possibile ottenere buoni cluster da essi I dati grezzi possono essere ridotti notevolmente senza perdere il loro contenuto, ma non è possibile ottenere buoni cluster da essi Con le tecniche per ottenere buoni cluster non posso ridurre le dimensioni senza perdere le informazioni Con le tecniche per ottenere buoni cluster non posso ridurre le dimensioni senza perdere le informazioni

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni E’ POSSIBILE RIDURRE LE DIMENSIONI DEI DATI E FARE BUONI CLUSTER SU DI ESSI?

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Similarity measure based on partial information of time series X.Jin Y.lu C.Shi

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni MA LA % DI DATI CONSIDERATI HA UN IMPATTO DECISIVO SULLA QUALITA’ DEL CLUSTERING!

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani.

Presentazioni simili

Presentazione sul tema: "Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani.

Presentazioni simili

Presentazione sul tema: "Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back