Formalismo ed applicabilità del metodo ICA (Independent Component Analysis) Francesca Marcucci Università di Perugia e INFN Udine 31 gennaio 2003
ICA: Independent Component Analysis i=1,..,M j=1,..,N Modello: Ms 1 s 2 s s M Supponiamo che M segnali di media nulla s 1 s 2 s s M ma siano osservabili solo N N combinazioni lineari delle variabili s i x j = a ij · s i x=As A={a ij } Statistical latent variables model A Se la matrice A non è nota il problema puo essere risolto facendo alcune assunzioni s i sulle proprietà statistiche delle sorgenti s i n Dovrebbe essere considerato anche un termine aggiuntivo n per il rumore x=As + n ICA è una tecnica statistica per la decomposizione di un complesso dataset nelle sue sottoparti indipendenti ed è particolarmente utile nella soluzione di problemi di Blind Source Separation (BSS)
Ipotesi per l applicabilità di ICA: N >= MM=N N >= M (nel seguito assumiamo M=N senza perdita di generalità) al massimo una delle sorgenti e gaussiana s i le sorgenti s i sono statisticamente indipendenti A la matrice A ha rango massimo n=0 per ora n=0, ma il modello puo essere esteso anche se di più difficile risoluzione Ambiguità del metodo: Il metodo fornisce una misura dell indipendenza delle componenti ma non da informazioni sullEnergia (varianza) e sull ordine in cui si ottengono, ovvero la matrice A puo essere scritta (dopo la convergenza) come: A=PD P=permutazione D=matrice diagonale Soluzione: Whitening or Sphering
PREPROCESSAMENTO DEI DATI: Se i dati s i non hanno media nulla allora si sottrae il valor medio (ad x i ) Whitening o sphering: Serve ad ottenere dei nuovi dati x con varianza unitaria x=Vx dove E{ x x T }=1 (=I) Se E{ x x T }=C allora V=C -1/2 infatti E{ x x T }= E{V x x T V T }=C -1/2 C C -1/2 =I
Illustrazione del metodo: Supponiamo di avere due variabili indipendenti uniformemente distribuite nella regione illustrata, con media nulla e varianza unitaria 1/2 3 |s i |< 3 Ad es. P(s i )= 0 altrove Applichiamo 2 3 A= 2 1 Le direzioni ci danno informazione sulle colonne di A s1s1 s2s2 x2x2 x1x1
Per stimare una delle componenti indipendenti consideriamo y = w T x = i w i x i se w fosse l i-ima riga di A -1 allora y= s i z = A T w y = w T x = w T As = z T s WWW T =I Se i dati hanno varianza unitaria W e una matrice ortogonale WW T =I … cerchiamo un metodo piu generale Procedimento: Si basa sul teorema del limite centrale: La distribuzione della somma di variabili random indipendenti tende ad una distribuzione gaussiana
Come usare il teorema del limite centrale? Ora abbiamo y = z T s ossia una combinazione lineare delle sorgenti indipendenti. Tale somma è piu gaussiana delle componenti originarie e lo diventa al minimo quando y=s i ossia z ha solo li-imo elemento non nullo. w scelto in modo da massimizzare la non-gaussianità di w T x Misure di non-gaussianità: KURTOSIS KURTOSIS kurt(y)=E{y 4 } – 3(E{y 2 }) 2 è nullo per variabili gaussiane quindi si cerca il max di |Kurt(y)| NEGENTROPY NEGENTROPY J(y)=H(y gauss ) – H(y) con H(y)= f(y) log f(y) dy è nulla per variabili gaussiane (quelle con la max entropia H) MUTUAL INFORMATION MUTUAL INFORMATION I(y 1,…,y M ) = i H(y i ) – H(y) È nulla per variabili indipendenti e non negativa va minimizzata
Modello di rete neurale: y xx WQ y è una stima del vettore s y = W x Q è una stima della matrice A x = Q y 1. Apprende una matrice W tale che y=Wx sono indipendenti 2. Apprende una matrice Q tale da minimizzare E{||n|| 2 }=E{||x-Qy|| 2 }
x x x V Q y BTBT W=B T V Con pre-withening:
LEARNING: Massimizzare/minimizzare rispetto a w una delle funzioni F(w) precedenti imponendo dei vincoli ad esempio E{y 2 }=1 e E{y}=0, ad esempio utilizzando i moltiplicatori di Lagrange : gradient-ascendent method: w k+1 = w k + L wk Newton-Like method: L w 2 = r(w) R xx L w 2 w k = - L wk w k+1 = w k - R xx -1 L wk / r(w)ALGORITMI: Herault-Jutten: fallisce per piu di 2 sorgenti EASI: performance uniforme Bells and Seinowskys: performance uniforme e non richiede pre-withening Chicocki and Amari: per feedforward e recurrent network BIGRADIENT: necessario prewhitening, molto flessibile NONLINEAR PCA: senza prewhitening separa solo componenti sinusoidali. Adatto principalmente per funzioni sub-gaussiane
FastICA : Caso semplice one-unit (una sola unità computazionale 1 neurone con peso w) FastICA trova un vettore unitario w tale che massimizzi la non-gaussianità di w T x (utilizzando la Negentropy) con il metodo Newton-Like 1. Sceglie un iniziale vettore w random 2. calcola w+ = E{xg (w T x)} – E{g (w T x)} w g derivata di una funzione non quadratica 3. controlla se w = w+ / ||w+|| 4. se non converge (w w+ = 1, hanno la stessa direzione) ritorna al punto 2 Tale algoritmo one-unit permette di determinare solo 1 componente ma può essere facilmente esteso per la stima di più componenti indipendenti improntando una rete several-unit con neuroni di pesi w 1,…,w n Converge più rapidamente del metodo ICA; non necessita della stima di funzioni g o di parametri di altri parametri, è gratuito e disponibile sul web.
Recente applicazione: (Baccigalupi et al. 2002) SCOPO: SCOPO: Separazione di componenti astrofisiche sovrapposte, ricostruendone sia le caratteristiche spaziali che spettrali, senza assunzioni a priori se non lindipendenza e lassenza di componenti gaussianeMODELLO: x i (r, )= ij s j (r, ) (N differenti processi fisici) x=vettore M-dim M canali di misura (diverse bande di frequenza) e strumento caratterizzato da una PSF B(r, ) e funzione di risposta t ( ) x (r)= B(r-r, ) j t ( )s j (r, ) dr d + n Ipotesi: 1. funzione separabile s j (r, ) = f j ( ) s j (r) 2. B(r-r, )=B(r) indipendente dalla frequenza 3. aij= t ( )f ( ) d x(r)=A s(r) * B(r) + n 4. n è un rumore bianco, indipendente dal segnale, Gaussiano e stazionario
Synchrotron angular power spectra Inputoutput
CMB angular power spectra
Limiti: La ricostruzione della matrice di separazione peggiora nellì ipotesi in cui il rapporto tra due componenti è fortemente variabile lungo la skymap ES: le polveri dominano sul piano galattico mentre CMB domina ad alte latitudini La ricostruzione è ottenuta con un errore migliore dell 1% nelle regioni in cui S/N 1.5, lerrore cresce fino al 10% per S/N 1
Ancora un applicazione in astrofisica: (Maria Funaro, Erkki Oja e Harri Valpola,2002) Scopo: Individuare e rimuovere gli artefacts che influenzano le immagini (fluttuazioni,stelle della nostra galassia, rumore strumentale) basandosi sull analisi del profilo temporale della luminosità dei pixel e sullindipendenza delle componenti dell immagine. Dati: Immagini della Galassia M31 N T M X = AS Modello: N pixel T immagini M sorgenti X = AS X X matrice TxN riga X t : singola immagine al tempo t colonna X n : serie temporali (curve di luce) del pixel n S S matrice MxN righe: immagini delle componenti indipendenti per il singolo pixel n X n = a m S mn A A matrice TxM : le M colonne di A (mixing vectors a m ) sono delle curve di luce virtuali le cui combinazioni lineari danno quelle reali X n a m caratterizza il comportamento temporale della sorgente m S mn caratterizza il comportamento spaziale
T = 35 e N=100x100 pixel dopo whitening componenti indip. Immagine originaria 1° e 2° autovettori: Raggi cosmici
5° autovettore: Sorgente puntiforme
Conclusioni Ci sono pochi casi in letteratura di applicazioni ICA in astrofisica, ma in questo campo lindipendenza delle componenti assicura lapplicabilità del metodo. La bontà statistica del metodo e legata principalmente alla minimizzazione della funzione di costo nella rete neurale implementata. E necessario verificarne laccuratezza con modelli simulati piu vicini alla realtà osservativa ICA è sicuramente piu rapido dei metodi tradizionali … ma è ugualmente attendibile? PROPOSTA: Utilizzare in un primo momento FastICA,Likelihood e Wavelet con gli output del light simulator e confrontare i due metodi