Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani.

Slides:



Advertisements
Presentazioni simili
Macchine di Percezione
Advertisements

Selezione delle caratteristiche - Principal Component Analysis
Università degli studi di Modena e Reggio Emilia
COORDINATE POLARI Sia P ha coordinate cartesiane
Wavelet Analisi tempo-frequenza Cenni di Jpeg 2000
Wavelet Cenni di Jpeg 2000 Livio Tenze
La Macroeconomia: l’offerta e la domanda aggregata
La Macroeconomia: l’offerta e la domanda aggregata
Automatic Text Processing
Sistemi di supporto alle decisioni 2. Features space
Attività cerebrale I neuroni si attivano in gruppi sotto lazione di uno stimolo Attività in gruppi ben delimitati con alta o bassa attività Il gruppo.
Workshop «La misura dellinflazione per classi di spesa delle famiglie» Istat - Aula Magna, Roma,10 Maggio 2013 La misura dellinflazione per classi di spesa.
Inferenza statistica per un singolo campione
On the sources of convergence: A close look at the Spanish regions (Angel de la Fuente) A cura di De Rose Daniela A.A
Apprendimento Non Supervisionato
Apprendimento Automatico: Apprendimento Pigro (Lazy Learning)
Statistica per le decisioni aziendali ed analisi dei costi Modulo II - Statistica per le decisioni Aziendali Richiami di Algebra Matriciale.
1 Esempi di consistenza sui limiti Non consistente sui limiti, considera Z=2, poi X-3Y=10 Ma il dominio qui sotto e consistente sui limiti: Confrontare.
Algoritmi e Strutture Dati
TITOLI E INVESTIMENTI FINANZIARI
Serie e trasformate di Fourier
Serie e trasformate di Fourier
Teoria e Tecniche del Riconoscimento
Teoria e Tecniche del Riconoscimento
Seminario su clustering dei dati – Parte I
Scene Modelling, Recognition and Tracking
D2I - Tema 3 Analysis and comparison of methods and algorithms for data mining.
CRIF al servizio di banche e società finanziarie
Analisi di Equilibrio Economico Generale
Teoria e Tecniche del Riconoscimento
Marco CristaniTeoria e Tecniche del Riconoscimento1 Notizie preliminari Introduzione Facoltà di Scienze MM. FF. NN. Università di Verona A.A
Marco CristaniTeorie e Tecniche del Riconoscimento1 Notizie preliminari Introduzione Facoltà di Scienze MM. FF. NN. Università di Verona A.A
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte.
Learning finite Mixture-Models
1 La mutazione genetica delle esportazioni italiane Intervento del Direttore Generale Pietro Modiano al convegno della Sace su Commercio, competitività
Case Based Reasoning
APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA
Progetto FIRB Gestione della conoscenza Esposizione dei casi di studio Bressanone, 15 settembre 2006 Unità di ricerca del Politecnico di Bari.
LE TECNICHE CHE VEDREMO OGGI Pi
Efficient Region- Based Image Retrieval di Roger Weber e Michael Mlivoncic Swiss Federal Institute of Technology (ETH) Presentazione di Laura Galli, Mauro.
Frequency Domain Processing
Multimedia Information Retrieval
ANALYSIS & DESIGN 1. Analysis & Design The goal of the Analysis & Design workflow is to show how the system will be realized in the implementation phase.
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
L’enhancement di immagini mammografiche
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
CSN1 – 7 febbraio 2006 Francesco Forti, INFN-Pisa per il gruppo di referaggio.
Sistemi Informativi A. A. 2013/14 WEKA. WEKA Explorer.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Metodi Quantitativi per Economia, Finanza e Management Lezione n°2 Fonti Dati, le ricerche di mercato. Set-up di un questionario e costruzione di una Customer.
Principi di macroeconomia Robert H. Frank, Ben S. Bernanke Copyright © The McGraw-Hill Companies, srl Capitolo 6 Risparmio e formazione di capitale.
Algoritmi di classificazione e reti neurali Seminario su clustering dei dati Università Sapienza di Roma Dipartimento di ingegneria Informatica, Automatica.
Ontologia AA F. Orilia. Lez. 16 Discussione dell'approccio controfattualista di lewis condotta da Antonio De Grandis.
Il Calendario.
Metodi Quantitativi per Economia, Finanza e Management Lezioni n° 7-8.
D2I: Integrazione, warehousing e mining di sorgenti eterogenee di dati Tema2: Progettazione e interrogazione di data warehouse Unità: Bologna, Cosenza.
DATA MINING.
TEORIE E TECNICHE DEL RICONOSCIMENTO
Titolo: Sistemi di bigliettazione elettronica: analisi dati e data mining Relatore: Andrea Gaffi.
SEGMENTAZIONE del mercato.
Literature mining.  Data mining Processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
ICT e Sistemi informativi Aziendali Materiale di supporto alla didattica.
SUMMARY Interconnection of quadripoles RIEPILOGO Interconnessione di quadripoli RIEPILOGO Interconnessione di quadripoli.
In my free time I like….
RICCARDO FERRARI POLO TECNOLOGICO PAVIA. Dall’acceleratore d’impresa ai servizi e alle opportunità per aziende, start-up e spin-off Riccardo Ferrari 18.
Laboratorio
PRESENTAZIONE CORSO: Statistica Multivariata Applicata OPZIONALE Docente: Marcello Mascini Il Docente e' disponibile per chiarimenti.
I NTRODUZIONE AL W EKA Umberto Panniello DIMEG, Politecnico di Bari Modelli di e-business e business intelligence Cdl Ingegneria Informatica.
Transcript della presentazione:

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Dati utilizzati 500 titoli dell’indice S&P Anno 1998 Serie di 252 numeri Prezzo di apertura Classificazione S&P in 62 cluster

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Cosa vedremo… …clustering dello S&P Data pre-processing Data pre-processing Algoritmo di clustering Algoritmo di clustering Misure di similarità Misure di similarità Analisi dei risultati ottenuti Analisi dei risultati ottenuti Confronto con lo studio di Jin, Lu, Shi “Similarity measure based on partial information of time series ” Confronto con lo studio di Jin, Lu, Shi “Similarity measure based on partial information of time series ”

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 1. Rappresentazione della serie Raw data Raw data First derivative First derivative

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 2. Normalizzazione None None Z-score Z-score Piecewise Piecewise v’ = v – μ σ

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 1: data pre-processing 3. Riduzione delle dimensioni PCA ( = principal component analysis) PCA ( = principal component analysis) Aggregation Aggregation Fourier transform Fourier transform

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni I. Principal Component Analysis Crea un nuovo insieme di attributi Dato il vettore X i in d dimensioni, trova le d basi ortonormali e ne seleziona M, con M<d, definite principal component ed ordinate in maniera decrescente secondo la varianza I dati iniziali diventano una combinazione lineare dei principal component

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni I. PCA Y 2 X 2 X 1 Y 1

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni II. Aggregation Sostituisce i valori di un periodo di giorni B con la loro media Il periodo B può avere ampiezza diversa (5, 10, 20 giorni) (5, 10, 20 giorni) La dimensione dei dati diminuisce di un fattore 1/B

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni III. Trasformata di Fourier Data una serie temporale s, i coefficienti di Fourier sono numeri complessi definiti come: Selezionando pochi coefficienti di Fourier si ottiene una buona approssimazione della serie iniziale La maggior parte dell’energia è concentrata alle basse frequenze S f = 1/√D ∑ t s t exp(-j2πft/D) f = 0,……,D-1

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 2: algoritmo di clustering Algoritmo gerarchico agglomerativo (HAC) unione binaria di cluster unione binaria di cluster unione di 2 cluster con la minima distanza intercluster unione di 2 cluster con la minima distanza intercluster

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni FASE 3: misure di similarità Confronto tra classificazione S&P di riferimento (C) e clustering effettuato con i metodi precedenti (C’) Similarità tra i 2 gruppi di cluster: Similarità tra i 2 gruppi di cluster: Similarità tra 2 singoli cluster: Similarità tra 2 singoli cluster: Sim(C,C’) = (∑ i max j Sim(C i,C’ j )) / k 2 |C i ∩ C’ j | |C i | + |C’ j | Sim(C i,C’ j ) =

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NNNN NNNN NNNN YYYY YYYY NNNN YYYY YYYY all 5 all 10 all 50 all

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMAggWinSim(S&P,HAC)Sim(HAC,S&P) NNNNNNNN NNNNNNNN YYYYYYYY YYYYYYYY NNNNNNNN YYYYYYYY NNNNNNNN YYYYYYYY none none none none

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDNORMFreqSim(S&P,HAC)Sim(HAC,S&P) NNNNNNNN NNNNNNNN YYYYYYYY YYYYYYYY NNNNNNNN YYYYYYYY NNNNNNNN YYYYYYYY

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Risultati ottenuti FDSim(S&P,HAC)Sim(HAC,S&P)Win NNNNNNNNNNNN YYYYYYYYYYYY

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Precision-recall curves

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Precision-recall curves PRECISION =RECALL = + +

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Normalizzare i dati in input migliora la qualità dei risultati Normalizzare i dati in input migliora la qualità dei risultati FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM YYYY NNNN YYYY YYYY all 50 all

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Si ottengono migliori risultati con la piecewise normalization Si ottengono migliori risultati con la piecewise normalization FDSim(S&P,HAC)Sim(HAC,S&P)Win N 10Y FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NY YY all

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Utilizzando le first derivative normalizzate della serie temporale si ottengono risultati migliori Utilizzando le first derivative normalizzate della serie temporale si ottengono risultati migliori FDSim(S&P,HAC)Sim(HAC,S&P)Win NNNNNNNNNNNN YYYYYYYYYYYY

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali Calcolare le first derivative senza normalizzare peggiora le performance Calcolare le first derivative senza normalizzare peggiora le performance FDNORMSim(S&P,HAC)Sim(HAC,S&P)DIM NNNN NNNN NNNN YYYY YYYY NNNN YYYY YYYY all 5 all 10 all 50 all

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali I dati grezzi possono essere ridotti notevolmente senza perdere il loro contenuto, ma non è possibile ottenere buoni cluster da essi I dati grezzi possono essere ridotti notevolmente senza perdere il loro contenuto, ma non è possibile ottenere buoni cluster da essi Con le tecniche per ottenere buoni cluster non posso ridurre le dimensioni senza perdere le informazioni Con le tecniche per ottenere buoni cluster non posso ridurre le dimensioni senza perdere le informazioni

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni E’ POSSIBILE RIDURRE LE DIMENSIONI DEI DATI E FARE BUONI CLUSTER SU DI ESSI?

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Similarity measure based on partial information of time series X.Jin Y.lu C.Shi

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Osservazioni generali

Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni MA LA % DI DATI CONSIDERATI HA UN IMPATTO DECISIVO SULLA QUALITA’ DEL CLUSTERING!