Sistemi di supporto alle decisioni 2. Features space

Slides:



Advertisements
Presentazioni simili
Macchine di Percezione
Advertisements

8) GLI INTERVALLI DI CONFIDENZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Seminario Sicurezza a.a. 2001/2002 Barbara Anconelli
COORDINATE POLARI Sia P ha coordinate cartesiane
RICONOSCIMENTO AUTOMATICO DI DADI DA GIOCO TRAMITE IMAGE PROCESSING
Text Representation Ing. Leonardo Rigutini Dipartimento Ingegneria dell’Informazione Rigutini Leonardo – Dipartimento di.
Riconoscimento di forme
Progettini BDM su Crossword Solving 06 Giugno 2006 Marco Ernandes
Automatic Text Processing
Automatic Text Segmentation: TextTiling (Hearst)
Algebra delle Matrici.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Applet Dott. Ing. Leonardo Rigutini Dipartimento Ingegneria dellInformazione Università di Siena Via Roma 56 – – SIENA Uff
TEORIA RAPPRESENTAZIONALE DELLA MISURA
Teoria e Tecniche del Riconoscimento
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Processi Aleatori : Introduzione – Parte I
Abbiamo visto un esempio di applicazione del teorema, ma a noi interessa l’applicazione del Teorema di Bayes alla combinazione delle informazioni, ovvero.
Appunti di inferenza per farmacisti
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
Stima ed algoritmi di consensus distribuito: considerazioni su IKF
Università degli studi La Sapienza CLS Ingegneria Informatica a.a. 2007/2008 Visione e Percezione Face Recognition Studenti: Andrea Pennisi Daniele Perrone.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
EQUAZIONI PER IL MOTO DEI FLUSSI GEOFISICI
Teoria e Tecniche del Riconoscimento
Modelli probabilistici
Analisi delle corrispondenze
UNIVERSITÀ DEGLI STUDI DI PERUGIA Dipartimento di Ingegneria Industriale Prof. Francesco Castellani Corso di Meccanica Applicata A.A.
Elaborazione (digitale) delle immagini
Lezione 13 Equazione di Klein-Gordon Equazione di Dirac (prima parte)
Lezione 9 Invarianze e leggi di conservazione: definizioni generali
Main tools of the probabilistic method with applications in graph theory Attività formativa - Yuri Faenza Supervisore: Prof. B. Scoppola CdLS in Ingegneria.
Applicazioni di modelli matematici alla ricerca semantica
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Sistema di interrogazione intelligente di
Federico Batini Item analisi Federico Batini
Le distribuzioni campionarie
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
STATISTICA PER LE DECISIONI DI MARKETING
Modelli predittivi delle agenzie di rating internazionali: il modello MEU evoluto (maximum expected utility) Mattia Ciprian*, Daria Marassi°, Valentino.
STATISTICA PER LE DECISIONI DI MARKETING
Enver Sangineto, Dipartimento di Informatica Annotazione Automatica di materiale multimediale.
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
Sottospazi vettoriali
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
Scomposizione della devianza
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
A proposito di spazio scala e di altre features locali... Elisabetta Delponte
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
APPROSSIMAZIONE DI FUNZIONI
Intervalli di confidenza
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Elaborazione statistica di dati
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
“ Pseudocodice ” Un programma per computer lavorerà su in insieme di “ variabili ” contenenti i dati del problema, soluzioni intermedie, soluzioni finali.
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Lezione n° 5: Esercitazione
L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.
Prof. Cerulli – Dott. Carrabs
Transcript della presentazione:

Sistemi di supporto alle decisioni 2. Features space Ing. Leonardo Rigutini, Ph.D. Dipartimento di Ingegneria dell’Informazione Università di Siena rigutini@dii.unisi.it http://www.dii.unisi.it/~rigutini/

Sistemi di supporto alle decisioni - Leonardo Rigutini Feature extraction I dati memorizzati nel data warehouse provengono da sources differenti: Databases,pagine html, blog, bollettini interni, news, newsgroups, etc… Normalmente tali dati sono memorizzati in forma non-strutturata, rappresentazione non particolarmente adatta per essere processata da uno strumento elettronico deve essere derivata una nuova rappresentazione dei dati estraendo caratteristiche ritenute utili all’analisi che deve essere fatta Rappresentazione che sia memorizzata in una forma strutturata in modo da poter essere analizzata da un software Dati (Rappresentazione non-strutturata) ==> Feature Space Es. bag-of-words nell’Automatic Text Processing, DAG nell’ananlisi delle immagini ecc… Sistemi di supporto alle decisioni - Leonardo Rigutini

Sistemi di supporto alle decisioni - Leonardo Rigutini Feature extraction Varie sono le possibili rappresentazioni nello spazio delle features: i dati sono rappresentati da vettori in uno spazion n-dimensionale i dati sono rappresentati da sequenze i dati sono rappresentati da strutture più complesse (alberi,grafi ecc…) … la rappresentazione vettoriale è la più semplice ma anche la più semplice e povera di informazioni: più si complica la struttura utilizzata nella rappresentazione dei dati, più essa contiene informazione Sistemi di supporto alle decisioni - Leonardo Rigutini

Sistemi di supporto alle decisioni - Leonardo Rigutini Feature extraction Es.1: consideriamo ad esempio una rappresentazione dei dati con un grafo (Image Processing): i nodi sono caratterizzati da features rappresentati in vettori n-dimensionali gli archi contengono informazioni riguardo alle relazioni presenti tra i nodi anche gli archi comunque sono caratterizzati da features rappresentate da vettori m-dimensionali Es.2: le sequenze temporali contengono una informazione aggiuntiva rispetto ad un vettore in Rn: la dipendenza temporale tra le features Individuare le features dalle quali estrarre informazioni dai dati è compito del progettista del sistema di data mining: Nel proseguo assumeremo che i pattern sono rappresentati da vettori in Rn Sistemi di supporto alle decisioni - Leonardo Rigutini

Sistemi di supporto alle decisioni - Leonardo Rigutini Feature selection Non tutte le features scelte per la rappresentazione dei pattern sono realmente significative, al contrario alcune potrebbero anche disturbare il processo di analisi: Ad esempio, gli articoli, gli avverbi e le congiunzioni non sono utili alla determinazione del topic di un documento di testo Normalmente dopo la fase di feature extraction, segue una fase di filtraggio automatico delle feature: feature selection o feature filtering Sistemi di supporto alle decisioni - Leonardo Rigutini

Sistemi di supporto alle decisioni - Leonardo Rigutini 1. La legge di Zipf Si basa su un’analisi sulla distribuzione delle features nella base di dati Zipf,s law La probabilità che un item occorra q volte nella collezione è inversamente proporzionale al numero delle sue occorrenze: La legge di Zipf può essere espressa anche come: Sistemi di supporto alle decisioni - Leonardo Rigutini

Sistemi di supporto alle decisioni - Leonardo Rigutini 1. La legge di Zipf L’idea è che solamente le features comprese in un intervallo t1ft2 sono significative t2 f t1 pos Sistemi di supporto alle decisioni - Leonardo Rigutini

2. Misure di informatività La legge di Zipf, taglia le features in base alla loro frequenza nel training set. Ma la frequenza di una features misura abbastanza l’informatività (informativeness) della feature stessa? è possibile definire una funzione di pesatura fw(x) più idonea a misurare l’informatività delle features 2 possibili approcci: fissare una soglia sulla informativeness in modo da rimuovere le features con valore inferiore definire un naturale k e selezionare le prime k features con informativenes maggiore Sistemi di supporto alle decisioni - Leonardo Rigutini

2. Misure di informatività Alcune funzioni di pesatura Document frequency misura il numero di esempi in cui la feature appare. E’ necessario rimuovere quelle features presenti in troppi esempi (troppo diffuse) e quelle che appaiono in pochi esempi (non significative) Information gain Misura il guadagno di informazione dovuto alla presenza o assenza di una feature wi data la classe Ck Se il valore di IG è alto, la feature è importante per la classe, altrimenti può essere rimossa (soglia o k) Sistemi di supporto alle decisioni - Leonardo Rigutini

2. Misure di informatività Gain Ratio è una versione normalizzata dell’IG. Chi-quadro deriva dalla statistica e misura l’indipendenza tra due variabili. Il risultato è zero se le due variabili sono indipendenti Sistemi di supporto alle decisioni - Leonardo Rigutini

2. Misure di informatività Le misure viste assegnano pesi alle features fissata la classe. Per ottenere una misura globale e indipendente dalal categoria viene applicata una funzione finale che combina le misure class-dependent: Sistemi di supporto alle decisioni - Leonardo Rigutini

3. Latent Semantic Analysis Un approccio differente per ridurre la dimensionalità dello spazio ed individuare features più significative deriva dalla teoria di decomposizione matriciale Sia X una matrice di dimensioni w x D, dove w è la dimensione dello spazio originario e D è il numero di esempi nella base di dati: D vettori colonna, ognuno è il features vector di un esempio. Sistemi di supporto alle decisioni - Leonardo Rigutini

3. Latent Semantic Analysis Utilizzando la decomposizione a valori singolari (SVD) si può scrivere: Poiché r < w, si ha che U è la matrice che mappa il vecchio spazio (dimensione w) nel nuovo spazio (dimensione r) mentre con è la rappresentazione di X in questo nuovo spazio. Nota che dove mappa il vecchio spazio nel nuovo Dato un vettore y, la sua rappresentazione nel nuovo spazio è semplicemente Ry Sistemi di supporto alle decisioni - Leonardo Rigutini

3. Latent Semantic Analysis Ogni nuova feature generata da R è una combinazione lineare degli elementi dello spazio originale: Concetto, significato di un set di features Normalmente viene scelto un e vengono selezionati i primi k autovalori di Sigma: con e Sistemi di supporto alle decisioni - Leonardo Rigutini

Sistemi di supporto alle decisioni - Leonardo Rigutini 4. Random projection In questo approccio, lo spazio originale n-dimensionale è proiettato in uno spazio molto più piccolo utilizzando una matrice random R stocastica (le colonne sommano ad 1). Come nel caso precedente, sia la matrice [features x esempi], l’insieme dei features vector nel nuovo spazio sara: Il teorema di Jonson-Linderstrauss assicura che è possibile proiettare k in uno spazio di dimensione senza distorcere lo spazio di un fattore superiore a , con Sistemi di supporto alle decisioni - Leonardo Rigutini

Sistemi di supporto alle decisioni - Leonardo Rigutini 4. Random projection Questo vuol dire che se due pattern sono vicini (simili) nello spazio originario, lo saranno anche nel nuovo spazio di rappresentazione, a meno di un errore di R deve essere una matrice ortogonale, quindi una volta creata random, deve essere effettuato uno step per renderla ortogonale: Passo computazionalmente molto costoso Sistemi di supporto alle decisioni - Leonardo Rigutini