La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani.

Presentazioni simili


Presentazione sul tema: "Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani."— Transcript della presentazione:

1 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani

2 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni

3 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Dati utilizzati 500 titoli dell’indice S&P Anno 1998 Serie di 252 numeri Prezzo di apertura Classificazione S&P in 62 cluster

4 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Cosa vedremo… …clustering dello S&P Data pre-processing Data pre-processing Algoritmo di clustering Algoritmo di clustering Misure di similarità Misure di similarità Analisi dei risultati ottenuti Analisi dei risultati ottenuti Confronto con lo studio di Jin, Lu, Shi “Similarity measure based on partial information of time series ” Confronto con lo studio di Jin, Lu, Shi “Similarity measure based on partial information of time series ”

5 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 1. Rappresentazione della serie Raw data Raw data First derivative First derivative

6 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 2. Normalizzazione None None Z-score Z-score Piecewise Piecewise v’ = v – μ σ

7 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 3. Riduzione delle dimensioni PCA ( = principal component analysis) PCA ( = principal component analysis) Aggregation Aggregation Fourier transform Fourier transform

8 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni I. Principal Component Analysis Crea un nuovo insieme di attributi Dato il vettore X i in d dimensioni, trova le d basi ortonormali e ne seleziona M, con M

9 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni I. PCA Y 2 X 2 X 1 Y 1

10 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni II. Aggregation Sostituisce i valori di un periodo di giorni B con la loro media Il periodo B può avere ampiezza diversa (5, 10, 20 giorni) (5, 10, 20 giorni) La dimensione dei dati diminuisce di un fattore 1/B

11 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni III. Trasformata di Fourier Data una serie temporale s, i coefficienti di Fourier sono numeri complessi definiti come: Selezionando pochi coefficienti di Fourier si ottiene una buona approssimazione della serie iniziale La maggior parte dell’energia è concentrata alle basse frequenze S f = 1/√D ∑ t s t exp(-j2πft/D) f = 0,……,D-1

12 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 2: algoritmo di clustering Algoritmo gerarchico agglomerativo (HAC) unione binaria di cluster unione binaria di cluster unione di 2 cluster con la minima distanza intercluster unione di 2 cluster con la minima distanza intercluster

13 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 3: misure di similarità Confronto tra classificazione S&P di riferimento (C) e clustering effettuato con i metodi precedenti (C’) Similarità tra i 2 gruppi di cluster: Similarità tra i 2 gruppi di cluster: Similarità tra 2 singoli cluster: Similarità tra 2 singoli cluster: Sim(C,C’) = (∑ i max j Sim(C i,C’ j )) / k 2 |C i ∩ C’ j | |C i | + |C’ j | Sim(C i,C’ j ) =

14 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NNNN NNNN NNNN YYYY YYYY NNNN YYYY YYYY all 5 all 10 all 50 all

15 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMAggWinSim(S&P,HAC)Sim(HAC,S&P) NNNNNNNN NNNNNNNN YYYYYYYY YYYYYYYY NNNNNNNN YYYYYYYY NNNNNNNN YYYYYYYY none none none none

16 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMFreqSim(S&P,HAC)Sim(HAC,S&P) NNNNNNNN NNNNNNNN YYYYYYYY YYYYYYYY NNNNNNNN YYYYYYYY NNNNNNNN YYYYYYYY

17 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDSim(S&P,HAC)Sim(HAC,S&P)Win NNNNNNNNNNNN YYYYYYYYYYYY

18 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Precision-recall curves

19 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Precision-recall curves PRECISION =RECALL = + +

20 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Normalizzare i dati in input migliora la qualità dei risultati Normalizzare i dati in input migliora la qualità dei risultati FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM YYYY NNNN YYYY YYYY all 50 all

21 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Si ottengono migliori risultati con la piecewise normalization Si ottengono migliori risultati con la piecewise normalization FDSim(S&P,HAC)Sim(HAC,S&P)Win N 10Y FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NY YY all

22 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni

23 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Utilizzando le first derivative normalizzate della serie temporale si ottengono risultati migliori Utilizzando le first derivative normalizzate della serie temporale si ottengono risultati migliori FDSim(S&P,HAC)Sim(HAC,S&P)Win NNNNNNNNNNNN YYYYYYYYYYYY

24 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni

25 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Calcolare le first derivative senza normalizzare peggiora le performance Calcolare le first derivative senza normalizzare peggiora le performance FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NNNN NNNN NNNN YYYY YYYY NNNN YYYY YYYY all 5 all 10 all 50 all

26 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali I dati grezzi possono essere ridotti notevolmente senza perdere il loro contenuto, ma non è possibile ottenere buoni cluster da essi I dati grezzi possono essere ridotti notevolmente senza perdere il loro contenuto, ma non è possibile ottenere buoni cluster da essi Con le tecniche per ottenere buoni cluster non posso ridurre le dimensioni senza perdere le informazioni Con le tecniche per ottenere buoni cluster non posso ridurre le dimensioni senza perdere le informazioni

27 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni E’ POSSIBILE RIDURRE LE DIMENSIONI DEI DATI E FARE BUONI CLUSTER SU DI ESSI?

28 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Similarity measure based on partial information of time series X.Jin Y.lu C.Shi

29 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali

30 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali

31 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni MA LA % DI DATI CONSIDERATI HA UN IMPATTO DECISIVO SULLA QUALITA’ DEL CLUSTERING!


Scaricare ppt "Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani."

Presentazioni simili


Annunci Google