Formalismo ed applicabilità del metodo ICA (Independent Component Analysis) Francesca Marcucci Università di Perugia e INFN Udine 31 gennaio 2003.

Slides:



Advertisements
Presentazioni simili
Dipartimento di Economia
Advertisements

Capitolo 8 Sistemi lineari.
Autovalori e autovettori
COORDINATE POLARI Sia P ha coordinate cartesiane
LE MATRICI.
FUNZIONI DI DUE VARIABILI
6. Catene di Markov a tempo continuo (CMTC)
Integrazione Corso: Analisi Numerica Anno Accademico:
Sistemi di supporto alle decisioni 2. Features space
Algebra delle Matrici.
6. Catene di Markov a tempo continuo (CMTC)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Teoria e Tecniche del Riconoscimento
Valutazione delle ipotesi
Support Vector Machines
Support Vector Machines
Apprendimento Bayesiano
RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Alberi di Ricorrenza Gli alberi di ricorrenza rappresentano un modo conveniente per visualizzare i passi di sostitu- zione necessari per risolvere una.
Teoria e Tecniche del Riconoscimento
Teoria e Tecniche del Riconoscimento
Strumentazione per bioimmagini
BIOINGEGNERIA S. Salinari Lezione 4.
BIOINGEGNERIA S. Salinari Lezione 8. RETI AD APPRENDIMENTO NON SUPERVISIONATO Le reti ad apprendimento non supervisionato debbono essere in grado di determinare.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Teoria e Tecniche del Riconoscimento
Introduzione all’algebra lineare
Studente Claudia Puzzo
PATTERN RECOGNITION.
1 Esempio : Utile per considerare limportanza delle ALTE FREQUENZE nella ricostruzione del segnale, in particolare dei FRONTI di SALITA e di DISCESA (trailing.
Analisi delle corrispondenze
Principi di Interferometria – I
Analisi di Immagini e Dati Biologici
Metodi numerici per lapprossimazione Laboratorio di Metodi Numerici a.a. 2008/2009 Prof. Maria Lucia Sampoli.
Il calcolo di radiosity
Statistica economica (6 CFU) Corso di Laurea in Economia e Commercio a.a Docente: Lucia Buzzigoli Lezione 5 1.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Laureando: Enrico Masini
Università degli Studi di Cagliari
Sottospazi vettoriali
…….. Sottrazione del NN: strategia Segnale IF Canali aus. Segnale IF “migliorato” I canali ausiliari devono essere correlati col rumore presente sul canale.
Strumenti statistici in Excell
redditività var. continua classi di redditività ( < 0 ; >= 0)
Analisi di Immagini e Dati Biologici Edge detection and sharpening L7 38.
Riassumendo: ipotesi per OLS 1.Modello lineare 2.X e Y sono frutto di osservazioni indipendenti 3.X è di rango pieno 4.I residui hanno media = 0 5.I residui.
Assicurazioni vita e mercato del risparmio gestito Lezione 17 Stimatori bayesiani e allocazione del portafoglio.
Claudio Arbib Università dell’Aquila Ricerca Operativa Metodo del simplesso per problemi di distribuzione single-commodity.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Interferometria ottica-infrarossa in Astrofisica Esame Scuola VLTI, Porto, 28 Maggio – 8 Giugno 2007 Dottorando: Mario Giuseppe Guarcello.
APPROSSIMAZIONE DI FUNZIONI
Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.
Metodi di minimizzazione Ricerca del minimo di dove è l’insieme delle variabili (coordinate)
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Lezione n° 5: Esercitazione
Lezione n° 8 - Matrice di base. - Soluzioni di base ammissibili. - Relazione tra vertici di un poliedro e soluzioni basiche. - Teorema fondamentale della.
ANALISI DEI SEGNALI Si dice segnale la variazione di una qualsiasi grandezza fisica in funzione del tempo. Ad esempio: la pressione in un punto dello spazio.
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.
Prof. Cerulli – Dott. Carrabs
Transcript della presentazione:

Formalismo ed applicabilità del metodo ICA (Independent Component Analysis) Francesca Marcucci Università di Perugia e INFN Udine 31 gennaio 2003

ICA: Independent Component Analysis i=1,..,M j=1,..,N Modello: Ms 1 s 2 s s M Supponiamo che M segnali di media nulla s 1 s 2 s s M ma siano osservabili solo N N combinazioni lineari delle variabili s i x j = a ij · s i x=As A={a ij } Statistical latent variables model A Se la matrice A non è nota il problema puo essere risolto facendo alcune assunzioni s i sulle proprietà statistiche delle sorgenti s i n Dovrebbe essere considerato anche un termine aggiuntivo n per il rumore x=As + n ICA è una tecnica statistica per la decomposizione di un complesso dataset nelle sue sottoparti indipendenti ed è particolarmente utile nella soluzione di problemi di Blind Source Separation (BSS)

Ipotesi per l applicabilità di ICA: N >= MM=N N >= M (nel seguito assumiamo M=N senza perdita di generalità) al massimo una delle sorgenti e gaussiana s i le sorgenti s i sono statisticamente indipendenti A la matrice A ha rango massimo n=0 per ora n=0, ma il modello puo essere esteso anche se di più difficile risoluzione Ambiguità del metodo: Il metodo fornisce una misura dell indipendenza delle componenti ma non da informazioni sullEnergia (varianza) e sull ordine in cui si ottengono, ovvero la matrice A puo essere scritta (dopo la convergenza) come: A=PD P=permutazione D=matrice diagonale Soluzione: Whitening or Sphering

PREPROCESSAMENTO DEI DATI: Se i dati s i non hanno media nulla allora si sottrae il valor medio (ad x i ) Whitening o sphering: Serve ad ottenere dei nuovi dati x con varianza unitaria x=Vx dove E{ x x T }=1 (=I) Se E{ x x T }=C allora V=C -1/2 infatti E{ x x T }= E{V x x T V T }=C -1/2 C C -1/2 =I

Illustrazione del metodo: Supponiamo di avere due variabili indipendenti uniformemente distribuite nella regione illustrata, con media nulla e varianza unitaria 1/2 3 |s i |< 3 Ad es. P(s i )= 0 altrove Applichiamo 2 3 A= 2 1 Le direzioni ci danno informazione sulle colonne di A s1s1 s2s2 x2x2 x1x1

Per stimare una delle componenti indipendenti consideriamo y = w T x = i w i x i se w fosse l i-ima riga di A -1 allora y= s i z = A T w y = w T x = w T As = z T s WWW T =I Se i dati hanno varianza unitaria W e una matrice ortogonale WW T =I … cerchiamo un metodo piu generale Procedimento: Si basa sul teorema del limite centrale: La distribuzione della somma di variabili random indipendenti tende ad una distribuzione gaussiana

Come usare il teorema del limite centrale? Ora abbiamo y = z T s ossia una combinazione lineare delle sorgenti indipendenti. Tale somma è piu gaussiana delle componenti originarie e lo diventa al minimo quando y=s i ossia z ha solo li-imo elemento non nullo. w scelto in modo da massimizzare la non-gaussianità di w T x Misure di non-gaussianità: KURTOSIS KURTOSIS kurt(y)=E{y 4 } – 3(E{y 2 }) 2 è nullo per variabili gaussiane quindi si cerca il max di |Kurt(y)| NEGENTROPY NEGENTROPY J(y)=H(y gauss ) – H(y) con H(y)= f(y) log f(y) dy è nulla per variabili gaussiane (quelle con la max entropia H) MUTUAL INFORMATION MUTUAL INFORMATION I(y 1,…,y M ) = i H(y i ) – H(y) È nulla per variabili indipendenti e non negativa va minimizzata

Modello di rete neurale: y xx WQ y è una stima del vettore s y = W x Q è una stima della matrice A x = Q y 1. Apprende una matrice W tale che y=Wx sono indipendenti 2. Apprende una matrice Q tale da minimizzare E{||n|| 2 }=E{||x-Qy|| 2 }

x x x V Q y BTBT W=B T V Con pre-withening:

LEARNING: Massimizzare/minimizzare rispetto a w una delle funzioni F(w) precedenti imponendo dei vincoli ad esempio E{y 2 }=1 e E{y}=0, ad esempio utilizzando i moltiplicatori di Lagrange : gradient-ascendent method: w k+1 = w k + L wk Newton-Like method: L w 2 = r(w) R xx L w 2 w k = - L wk w k+1 = w k - R xx -1 L wk / r(w)ALGORITMI: Herault-Jutten: fallisce per piu di 2 sorgenti EASI: performance uniforme Bells and Seinowskys: performance uniforme e non richiede pre-withening Chicocki and Amari: per feedforward e recurrent network BIGRADIENT: necessario prewhitening, molto flessibile NONLINEAR PCA: senza prewhitening separa solo componenti sinusoidali. Adatto principalmente per funzioni sub-gaussiane

FastICA : Caso semplice one-unit (una sola unità computazionale 1 neurone con peso w) FastICA trova un vettore unitario w tale che massimizzi la non-gaussianità di w T x (utilizzando la Negentropy) con il metodo Newton-Like 1. Sceglie un iniziale vettore w random 2. calcola w+ = E{xg (w T x)} – E{g (w T x)} w g derivata di una funzione non quadratica 3. controlla se w = w+ / ||w+|| 4. se non converge (w w+ = 1, hanno la stessa direzione) ritorna al punto 2 Tale algoritmo one-unit permette di determinare solo 1 componente ma può essere facilmente esteso per la stima di più componenti indipendenti improntando una rete several-unit con neuroni di pesi w 1,…,w n Converge più rapidamente del metodo ICA; non necessita della stima di funzioni g o di parametri di altri parametri, è gratuito e disponibile sul web.

Recente applicazione: (Baccigalupi et al. 2002) SCOPO: SCOPO: Separazione di componenti astrofisiche sovrapposte, ricostruendone sia le caratteristiche spaziali che spettrali, senza assunzioni a priori se non lindipendenza e lassenza di componenti gaussianeMODELLO: x i (r, )= ij s j (r, ) (N differenti processi fisici) x=vettore M-dim M canali di misura (diverse bande di frequenza) e strumento caratterizzato da una PSF B(r, ) e funzione di risposta t ( ) x (r)= B(r-r, ) j t ( )s j (r, ) dr d + n Ipotesi: 1. funzione separabile s j (r, ) = f j ( ) s j (r) 2. B(r-r, )=B(r) indipendente dalla frequenza 3. aij= t ( )f ( ) d x(r)=A s(r) * B(r) + n 4. n è un rumore bianco, indipendente dal segnale, Gaussiano e stazionario

Synchrotron angular power spectra Inputoutput

CMB angular power spectra

Limiti: La ricostruzione della matrice di separazione peggiora nellì ipotesi in cui il rapporto tra due componenti è fortemente variabile lungo la skymap ES: le polveri dominano sul piano galattico mentre CMB domina ad alte latitudini La ricostruzione è ottenuta con un errore migliore dell 1% nelle regioni in cui S/N 1.5, lerrore cresce fino al 10% per S/N 1

Ancora un applicazione in astrofisica: (Maria Funaro, Erkki Oja e Harri Valpola,2002) Scopo: Individuare e rimuovere gli artefacts che influenzano le immagini (fluttuazioni,stelle della nostra galassia, rumore strumentale) basandosi sull analisi del profilo temporale della luminosità dei pixel e sullindipendenza delle componenti dell immagine. Dati: Immagini della Galassia M31 N T M X = AS Modello: N pixel T immagini M sorgenti X = AS X X matrice TxN riga X t : singola immagine al tempo t colonna X n : serie temporali (curve di luce) del pixel n S S matrice MxN righe: immagini delle componenti indipendenti per il singolo pixel n X n = a m S mn A A matrice TxM : le M colonne di A (mixing vectors a m ) sono delle curve di luce virtuali le cui combinazioni lineari danno quelle reali X n a m caratterizza il comportamento temporale della sorgente m S mn caratterizza il comportamento spaziale

T = 35 e N=100x100 pixel dopo whitening componenti indip. Immagine originaria 1° e 2° autovettori: Raggi cosmici

5° autovettore: Sorgente puntiforme

Conclusioni Ci sono pochi casi in letteratura di applicazioni ICA in astrofisica, ma in questo campo lindipendenza delle componenti assicura lapplicabilità del metodo. La bontà statistica del metodo e legata principalmente alla minimizzazione della funzione di costo nella rete neurale implementata. E necessario verificarne laccuratezza con modelli simulati piu vicini alla realtà osservativa ICA è sicuramente piu rapido dei metodi tradizionali … ma è ugualmente attendibile? PROPOSTA: Utilizzare in un primo momento FastICA,Likelihood e Wavelet con gli output del light simulator e confrontare i due metodi