La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Sistemi di supporto alle decisioni 2. Features space Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dellInformazione Università di Siena

Presentazioni simili


Presentazione sul tema: "Sistemi di supporto alle decisioni 2. Features space Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dellInformazione Università di Siena"— Transcript della presentazione:

1 Sistemi di supporto alle decisioni 2. Features space Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dellInformazione Università di Siena

2 Sistemi di supporto alle decisioni - Leonardo Rigutini Feature extraction I dati memorizzati nel data warehouse provengono da sources differenti: Databases,pagine html, blog, bollettini interni, news, newsgroups, etc… Normalmente tali dati sono memorizzati in forma non-strutturata, rappresentazione non particolarmente adatta per essere processata da uno strumento elettronico deve essere derivata una nuova rappresentazione dei dati estraendo caratteristiche ritenute utili allanalisi che deve essere fatta Rappresentazione che sia memorizzata in una forma strutturata in modo da poter essere analizzata da un software Dati (Rappresentazione non-strutturata) ==> Feature Space Es. bag-of-words nellAutomatic Text Processing, DAG nellananlisi delle immagini ecc…

3 Sistemi di supporto alle decisioni - Leonardo Rigutini Feature extraction Varie sono le possibili rappresentazioni nello spazio delle features: i dati sono rappresentati da vettori in uno spazion n-dimensionale i dati sono rappresentati da sequenze i dati sono rappresentati da strutture più complesse (alberi,grafi ecc…) … la rappresentazione vettoriale è la più semplice ma anche la più semplice e povera di informazioni: più si complica la struttura utilizzata nella rappresentazione dei dati, più essa contiene informazione

4 Sistemi di supporto alle decisioni - Leonardo Rigutini Feature extraction Es.1: consideriamo ad esempio una rappresentazione dei dati con un grafo (Image Processing): i nodi sono caratterizzati da features rappresentati in vettori n-dimensionali gli archi contengono informazioni riguardo alle relazioni presenti tra i nodi anche gli archi comunque sono caratterizzati da features rappresentate da vettori m-dimensionali Es.2: le sequenze temporali contengono una informazione aggiuntiva rispetto ad un vettore in R n : la dipendenza temporale tra le features Individuare le features dalle quali estrarre informazioni dai dati è compito del progettista del sistema di data mining: Nel proseguo assumeremo che i pattern sono rappresentati da vettori in R n

5 Sistemi di supporto alle decisioni - Leonardo Rigutini Feature selection Non tutte le features scelte per la rappresentazione dei pattern sono realmente significative, al contrario alcune potrebbero anche disturbare il processo di analisi: Ad esempio, gli articoli, gli avverbi e le congiunzioni non sono utili alla determinazione del topic di un documento di testo Normalmente dopo la fase di feature extraction, segue una fase di filtraggio automatico delle feature: feature selection o feature filtering

6 Sistemi di supporto alle decisioni - Leonardo Rigutini 1. La legge di Zipf Si basa su unanalisi sulla distribuzione delle features nella base di dati Si basa su unanalisi sulla distribuzione delle features nella base di dati Zipf,s law Zipf,s law La probabilità che un item occorra q volte nella collezione è inversamente proporzionale al numero delle sue occorrenze: La probabilità che un item occorra q volte nella collezione è inversamente proporzionale al numero delle sue occorrenze: La legge di Zipf può essere espressa anche come: La legge di Zipf può essere espressa anche come:

7 Sistemi di supporto alle decisioni - Leonardo Rigutini 1. La legge di Zipf Lidea è che solamente le features comprese in un intervallo t1 f t2 sono significative Lidea è che solamente le features comprese in un intervallo t1 f t2 sono significative t2 t1 f pos

8 Sistemi di supporto alle decisioni - Leonardo Rigutini 2. Misure di informatività La legge di Zipf, taglia le features in base alla loro frequenza nel training set. La legge di Zipf, taglia le features in base alla loro frequenza nel training set. Ma la frequenza di una features misura abbastanza linformatività (informativeness) della feature stessa? Ma la frequenza di una features misura abbastanza linformatività (informativeness) della feature stessa? è possibile definire una funzione di pesatura f w (x) più idonea a misurare linformatività delle features è possibile definire una funzione di pesatura f w (x) più idonea a misurare linformatività delle features 2 possibili approcci: 2 possibili approcci: fissare una soglia sulla informativeness in modo da rimuovere le features con valore inferiore fissare una soglia sulla informativeness in modo da rimuovere le features con valore inferiore definire un naturale k e selezionare le prime k features con informativenes maggiore definire un naturale k e selezionare le prime k features con informativenes maggiore

9 Sistemi di supporto alle decisioni - Leonardo Rigutini 2. Misure di informatività Alcune funzioni di pesatura Alcune funzioni di pesatura Document frequency Document frequency misura il numero di esempi in cui la feature appare. E necessario rimuovere quelle features presenti in troppi esempi (troppo diffuse) e quelle che appaiono in pochi esempi (non significative) misura il numero di esempi in cui la feature appare. E necessario rimuovere quelle features presenti in troppi esempi (troppo diffuse) e quelle che appaiono in pochi esempi (non significative) Information gain Information gain Misura il guadagno di informazione dovuto alla presenza o assenza di una feature w i data la classe C k Misura il guadagno di informazione dovuto alla presenza o assenza di una feature w i data la classe C k Se il valore di IG è alto, la feature è importante per la classe, altrimenti può essere rimossa (soglia o k) Se il valore di IG è alto, la feature è importante per la classe, altrimenti può essere rimossa (soglia o k)

10 Sistemi di supporto alle decisioni - Leonardo Rigutini 2. Misure di informatività Gain Ratio Gain Ratio è una versione normalizzata dellIG. è una versione normalizzata dellIG. Chi-quadro Chi-quadro deriva dalla statistica e misura lindipendenza tra due variabili. Il risultato è zero se le due variabili sono indipendenti deriva dalla statistica e misura lindipendenza tra due variabili. Il risultato è zero se le due variabili sono indipendenti

11 Sistemi di supporto alle decisioni - Leonardo Rigutini 2. Misure di informatività Le misure viste assegnano pesi alle features fissata la classe. Per ottenere una misura globale e indipendente dalal categoria viene applicata una funzione finale che combina le misure class- dependent: Le misure viste assegnano pesi alle features fissata la classe. Per ottenere una misura globale e indipendente dalal categoria viene applicata una funzione finale che combina le misure class- dependent:

12 Sistemi di supporto alle decisioni - Leonardo Rigutini 3. Latent Semantic Analysis Un approccio differente per ridurre la dimensionalità dello spazio ed individuare features più significative deriva dalla teoria di decomposizione matriciale Un approccio differente per ridurre la dimensionalità dello spazio ed individuare features più significative deriva dalla teoria di decomposizione matriciale Sia X una matrice di dimensioni w x D, dove w è la dimensione dello spazio originario e D è il numero di esempi nella base di dati: D vettori colonna, ognuno è il features vector di un esempio. Sia X una matrice di dimensioni w x D, dove w è la dimensione dello spazio originario e D è il numero di esempi nella base di dati: D vettori colonna, ognuno è il features vector di un esempio.

13 Sistemi di supporto alle decisioni - Leonardo Rigutini 3. Latent Semantic Analysis Utilizzando la decomposizione a valori singolari (SVD) si può scrivere: Utilizzando la decomposizione a valori singolari (SVD) si può scrivere: Poiché r < w, si ha che U è la matrice che mappa il vecchio spazio (dimensione w) nel nuovo spazio (dimensione r) mentre con è la rappresentazione di X in questo nuovo spazio. Poiché r < w, si ha che U è la matrice che mappa il vecchio spazio (dimensione w) nel nuovo spazio (dimensione r) mentre con è la rappresentazione di X in questo nuovo spazio. Nota che dove mappa il vecchio spazio nel nuovo Nota che dove mappa il vecchio spazio nel nuovo Dato un vettore y, la sua rappresentazione nel nuovo spazio è semplicemente Ry Dato un vettore y, la sua rappresentazione nel nuovo spazio è semplicemente Ry

14 Sistemi di supporto alle decisioni - Leonardo Rigutini 3. Latent Semantic Analysis Ogni nuova feature generata da R è una combinazione lineare degli elementi dello spazio originale: Ogni nuova feature generata da R è una combinazione lineare degli elementi dello spazio originale: Concetto, significato di un set di features Concetto, significato di un set di features Normalmente viene scelto un e vengono selezionati i primi k autovalori di Sigma: Normalmente viene scelto un e vengono selezionati i primi k autovalori di Sigma: con e

15 Sistemi di supporto alle decisioni - Leonardo Rigutini 4. Random projection In questo approccio, lo spazio originale n-dimensionale è proiettato in uno spazio molto più piccolo utilizzando una matrice random R stocastica (le colonne sommano ad 1). In questo approccio, lo spazio originale n-dimensionale è proiettato in uno spazio molto più piccolo utilizzando una matrice random R stocastica (le colonne sommano ad 1). Come nel caso precedente, sia la matrice [features x esempi], linsieme dei features vector nel nuovo spazio sara: Come nel caso precedente, sia la matrice [features x esempi], linsieme dei features vector nel nuovo spazio sara: Il teorema di Jonson-Linderstrauss assicura che è possibile proiettare k in uno spazio di dimensione senza distorcere lo spazio di un fattore superiore a, con Il teorema di Jonson-Linderstrauss assicura che è possibile proiettare k in uno spazio di dimensione senza distorcere lo spazio di un fattore superiore a, con

16 Sistemi di supporto alle decisioni - Leonardo Rigutini 4. Random projection Questo vuol dire che se due pattern sono vicini (simili) nello spazio originario, lo saranno anche nel nuovo spazio di rappresentazione, a meno di un errore di Questo vuol dire che se due pattern sono vicini (simili) nello spazio originario, lo saranno anche nel nuovo spazio di rappresentazione, a meno di un errore di R deve essere una matrice ortogonale, quindi una volta creata random, deve essere effettuato uno step per renderla ortogonale: R deve essere una matrice ortogonale, quindi una volta creata random, deve essere effettuato uno step per renderla ortogonale: Passo computazionalmente molto costoso Passo computazionalmente molto costoso


Scaricare ppt "Sistemi di supporto alle decisioni 2. Features space Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dellInformazione Università di Siena"

Presentazioni simili


Annunci Google