La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

BIOINGEGNERIA S. Salinari Lezione 8. RETI AD APPRENDIMENTO NON SUPERVISIONATO Le reti ad apprendimento non supervisionato debbono essere in grado di determinare.

Presentazioni simili


Presentazione sul tema: "BIOINGEGNERIA S. Salinari Lezione 8. RETI AD APPRENDIMENTO NON SUPERVISIONATO Le reti ad apprendimento non supervisionato debbono essere in grado di determinare."— Transcript della presentazione:

1 BIOINGEGNERIA S. Salinari Lezione 8

2 RETI AD APPRENDIMENTO NON SUPERVISIONATO Le reti ad apprendimento non supervisionato debbono essere in grado di determinare autonomamente i pesi delle loro connessioni sulla base di ingressi che vengono loro presentati in successione. Caratteristica dellinsieme degli ingressi deve quindi essere una elevata ridondanza: lo stesso ingresso deve essere presentato parecchie volte alla rete. Reti di questo tipo sono utilizzate per differenti applicazioni: Familiarità. Una sola uscita a valori continui può rappresentare il grado di somiglianza di una nuova configurazione di ingresso con la media dei precedenti ingressi. Analisi delle componenti principali. Estensione del caso precedente a più unità di uscita. La somiglianza agli esempi precedentiviene misurata lungo un insieme di assi (autovettori della matrice di correlazione delle configurazioni in ingresso). Clustering. Un insieme di unità di uscita a valori binari, con una sola unità attiva alla volta, può determinare lappartenenza dellingresso ad una determinata classe. Prototipi. La rete individua le categorie fornendo in uscita un prototipo della classe appropriata. Codifica. Luscita può corrispondere ad una codifica dellingresso che utilizzi un numero inferiore di bit (Problemi di compressione)

3 RETI AD APPRENDIMENTO NON SUPERVISIONATO x1 w 1 x2x3xN V w 2 w 3 w N Si consideri, come primo esempio, una rete molto semplice costituita da uno strato di ingresso, con configurazioni di ingresso ad N componenti x = (x 1 x 2.....x N ) T ed ununica unità di uscita V lineare: Se i pesi vengono aggiornati secondo la regola di Hebb ( w i = Vx i ) è abbastanza intuitivo che gli ingressi che si presentano più frequentemente saranno quelli che avranno maggiore influenza nella determinazione dei pesi e quindi quando un ingresso nuovo appartenente allinsieme maggiormente presente durante lapprendimento verrà presentato in ingresso luscita V risulterà massima. Allequilibrio sarà verificato: Dove c i corrisponde alla i-esima riga della matrice di correlazione fra le componenti dellingresso.

4 RETI AD APPRENDIMENTO NON SUPERVISIONATO x1 w 1 x2x3xN V w2 w2 w 3 w N La matrice C è simmetrica semidefinita positiva per cui i suoi autovalori saranno positivi o nulli e gli autovettori possono essere scelti ortogonali. Di conseguenza la relazione: w = autovettore di C corrispondente ad un autovalore nullo I pesi allequilibrio raggiunto, ottenuti con la regola di Hebb, corrispondono quindi agli autovettori della matrice di correlazione degli ingressi relativi agli autovalori nulli. si può dimostrare che questi valori di equilibrio non sono stabili per cui la regola di apprendimento è stata modificata secondo la regola di Oja per cui: w i = V( x i – w i V ) La variazione del peso della i-esima connessione è quindi data dal prodotto delluscita per la differenza fra li-esima componente dellingresso e luscita V retropropagata sulla i-esima connessione. Si può verificare che i pesi calcolati secondo tale regola godono delle seguenti proprietà: 1.|w | =1 ovvero i w i 2 =1 2.Sono le componenti dellautovettore relativo al massimo autovalore di C 3.Rendono massima V 2 C =..................................

5 RETI AD APPRENDIMENTO NON SUPERVISIONATO Verifica della proprietà 3 E una conseguenza della proprietà 2. Infatti dalle V = i w j x j = w T x = x T w e C = si ha: = = = w T C w per w dato e C simmetrica la forma w T C w ha valore massimo quando la direzione di w coincide con quella dellautovettore relativo al massimo autovalore di C. Quindi la proprietà 3 discende dalla 2. Verifica delle proprietà 1 e 2 Per verificare le 1 e 2, considerando la regola di Oja, la variazione media dei pesi allequilibrio deve essere nulla: 0 = = = = j C j w j – ( j,k w j C jk w k )w i 0 = = Cw – (w T C w )w Da cui allequilibrio Cw = w = w T C w = w T w = w 2 Si dimostra quindi che allequilibrio w è un autovettore di C e che la sua norma è unitaria. Rimane da dimostrare che tale autovettore coincide con lautovalore corrispondente allautovalore massimo. Scegliamo un peso w vicino ad un qualunque autovettore di C normalizzato w=ca+e con Cca= aca e |ca|=1. Per tale autovettore risulterà: = C(ca+e)-(((ca) T +e T )C(ca+e))(ca+e) = aca+Ce –(((ca) T C +e T C)(ca+e)(ca+e) = = aca+Ce – ((ca) T C ca+e T Cca+(ca) T Ce+e T C e)(ca+e) = = aca+Ce – (ca T C ca)ca –(e T Cca)ca -(ca T Ce)ca – (ca T C ca)e+O(e 2 ) = = aca+Ce – (ca T aca)ca –(e T aca)ca -(ca T Ce)ca – (ca T aca)e+O(e 2 ) = = aca+Ce – aca- a(e T ca)ca –(e T Cca)ca – ae+ O(e 2 ) = Ce+2 a (e T ca) – ae+ O(e 2 ) Consideriamo la componente di lungo un altro autovettore normalizzato cb si trascurino i termoni O(e 2 ). cb T = b cb T e -2 a (e T ca) cb T ca – a cb T e = b cb T e -2 a (e T ca) ab – a cb T e = ( b- a- 2 a ab) cb T e Lultima equazione esprime che se lb>la la componente e cresce lungo la direzione cb e la soluzione è instabile. Ciò avviene per qualunque la che non coincida con lautovalore massimo, quindi lunico autovettore stabile è quello corrispondente allautovalore massimo.

6 ANALISI DELLE COMPONENTI PRINCIPALI Lanalisi delle componenti principali PCA consiste nel trovare un insieme di M vettori ortogonali nello spazio dei dati che esprima il più possibile la varianza dei dati. Proiettare i dati dal loro spazio ad N dimensioni ad uno spazio ad M dimensioni (con M<<N), che spesso mantiene la maggior parte dellinformazione contenuta nei dati stessi, può significareuna grossa riduzione nella mole dei dati e quindi una maggiore faciltà di costruzione di gruppi di dati. La scelta delle componenti principali viene effettuata nel seguente modo: la prima viene scelta nella direzione di massima varianza dei dati, la seconda deve appartenere al sottospazio perpendicolare al primo nella direzione di massima varianza, in generale la direzione della k-esima componente coinciderà con la direzione dellautovettore corrispondente al k-esimo autovalore più grande nella matrice delle covarianze. Nel caso di dati a media nulla tale matrice coincide con la matrice C di correlazione precedentemente considerata. In questo caso si è visto che la direzione di massima varianza non vincolata e quindi la prima componente principale, corrisponde con la direzione dellautovettore relativo al massimo autovalore della C. Per verificare il corrispondente risultato per la k-esima componente principale si consideri che la varianza dei dati lungo la direzione di un vettore unitario u è data da: x 2 = = = u T Cu = a a u a 2. Ordinando gli autovalori di C in modo che 1 2.... N con 1 = max, assumendo che le prime k-1 componenti principali coincidano con i primi k-1 autovettori la k-esima componente principale deve essere perpendicolare a queste direzioni quindi le sue prime (k-1) componenti debbono essere nulle (u 1 =u 2 =...=u k-1 =0). Essendo inoltre u 2 = a a u a 2 massimizzare con |u| =1 implica u j = 1 se j=k u j =0 se j k. Quindi la k-esima componente principale si trova lungo il k-esimo autovettore e la varianza u 2 è uguale a k quando la direzione di u è quella della k-esima componente.

7 ANALISI DELLE COMPONENTI PRINCIPALI MULTIPLE Le componenti principali possono essere estratte attraverso una rete feed-forward lineare con M unità di uscita in cui i pesi possono essere aggiornati con le seguenti regole Regola di Oja w ij = V i ( x i – w kj V k ) k=1,..., M Regola di Sanger w ij = V i ( x i – w kj V k ) k=1,...,i VNVN V1Vi- 1 ViVi+ 1 xj wij V1Vi- 1 Vi xj wij Per entrambe le regole i vettori convergono a vettori normalizzati ortogonali. In particolare la regola di Sanger fornisce le M componenti principali in ordine. La regola di Oja per M unità converge ad M vettori peso che definiscono lo stesso sottospazio formato di primi M autovettori ma non corrispondono alle direzioni degli autovettori stessi.

8 APPRENDIMENTO COMPETITIVO Nelle reti ad apprendimento competitivo è attiva una sola unità di uscita alla volta e le differenti unità di uscita competono fra loro per diventare lunità attiva. Scopo di tali rete è quello della classificazione o raggruppamento dei dati: ingressi simili devono essere classificati come appartenenti alla stessa categoria. Un esempio di rete per lapprendimento competitivo con due unità di uscita e cinque in ingresso è riportata in figura. Le frecce nere rappresentano connesioni eccitatorie, quelle colorate connessioni inibitorie. O1O2 x1x2x3x4x5 RETI AD APPRENDIMENTO COMPETITIVO SEMPLICE Tali reti sono costituite sono costituite da un solo strato di unità di uscita Oi completamente connesse ad un insieme di ingressi xj con pesi wij. Ingressi ed uscite sono in generale a valori binari. Una sola unità di uscita alla volta diviene attiva ed è normalmente quella con lingresso maggiore: Definisce lunità vincente i* con Oi*=1

9 RETI AD APPRENDIMENTO COMPETITIVO SEMPLICE Se il vettore dei pesi relativo ad ogni singola unità di uscita è normalizzato ( |wi|=1) il prodotto corrisponde alla componente di x lungo la direzione definita da wi, per cui lunità vincitrice risulta essere quella con vettore dei pesi wi più vicino ad x. Per realizzare il fatto che una sola unità di uscita si attiva ogni volta si può, nel caso di simulazione su calcolatore, individuare semplicemente il massimo valore di hi. In una rete reale si possono realizzare delle connessioni inibitorie fra le unità di uscita (inibizione laterale) e per ciascuna uscita una connessione eccitatoria su sè stessa. I pesi delle connessioni laterali e le funzioni di attivazione debbono essere scelti opportunamente per evitare oscillazioni. Laggiornamento dei pesi viene effettuato nel seguente modo: I pesi vengono inizializzati a piccoli valori casuali evitando ogni simmetria.Le configurazioni di ingresso possono essere presentate in modo casuale, a turno,oppure secondo una distribuzione di probabilità P(x). Per ogni ingresso si determina lunità vincitrice e si aggiornano I pesi relativi alla sola unità vinncente, la regola generalmente utilizzata per laggiornamento è la regola standard: In questa seconda forma valida per ogni i. Infatti luscita Oi è uguale ad uno solo per lunità vincitrice e zero per tutte le altre.

10 RETI AD APPRENDIMENTO COMPETITIVO SEMPLICE Si può verificare, applicando la regola standard che alcune unità di uscita non vengano mai attivate (unità morte). Ciò avviene quando i vettori peso relativi a tali unità sono lontani da ogni ingresso. Si può superare tale inconveniente in vari modi: 1.Si inizializzano i pesi a campioni presi dallingresso in modo che tutti i vettori peso si trovino nel dominio corretto. 2.Si aggiornano anche i pesi delle unità perdenti con un tasso di apprendimento più basso. 3.Nel caso di unità disposte secondo una geometria si aggiornano i pesi dei perdenti vicini (reti di Kohonen) 4.Gli ingressi vengono aumentati gradualmente secondo la x + (1- ) con vettore costante a cui vengono inizializzati tutti i pesi e che varia da 0 a 1. Al variare di fra 0 e 1 gli ingressi si allontanano da portandosi dietro i relativi pesi. 5.Si può sottrarre un soglia i da hi in modo da facilitare la vincita delle unità perdenti. La regola standard può essere associata alla minimizzazione della funzione costo:

11 RETI AD APPRENDIMENTO COMPETITIVO Reti di Kohonen Le reti di Kohonen si applicano a strutture delle unità di uscita a geometria piana o rettilinea senza connessioni laterali fra le unità stesse e completamente connesse agli ingressi. Lunità vincente è quella per cui | wi*-x | |wi-x| i Laggiornamento dei pesi avviene secondo la regola: wij = (i,i*)(xj-wij) Dove (i,i*) (Funzione di vicinato)=1 per i=i* e diminuisce con la distanza |ri-ri*| Dove diminuisce come 1/t t passo di apprendimento. Anche il tasso di apprendimento viene preso variabile t - 0< 1

12 ANALISI DELLE COMPONENTI INDIPENDENTI LAnalisi delle componenti indipendenti o Independent component analysis (ICA) è una tecnica statistica e computazionale per per mettere in evidenza componenti nascoste in insiemi di variabili, misure o segnali casuali. ICA definisce un modello di generazione per i dati osservati. Nel modellosi assume che i dati o le variabili misurate risultino da una combinazione lineare di alcune variabili nascoste e che anche il sistema che realizza la combinazione dei dati sia incognito.Si assume inoltre che le variabili nascoste siano non gaussiane e mutuamente indipendenti, e sono chiamate componenti independenti dei dati (o anche sorgenti o fattori) e possono essere ricavate tramite lICA. I dati analizzati possono in generale derivare da differenti settori applicativi quali: immagini, data base di documenti, indicatori economici, misure psicometriche, riconoscimento del parlato, potenziali elettroencefalografici, segnali radio o serie temporali derivanti da misure su processi industriali. Il metodo ICA presenta comunque alcune ambiguità. Infatti non è possibile con tale metodo determinare le varianze delle componenti indipendenti e tali componenti non sono ricavabili in ordine.

13 ANALISI DELLE COMPONENTI INDIPENDENTI Si supponga di osservare n combinazioni lineari di n variabili indipendenti: x j = a j1 s 1 + a j2 s 2 +...+ a jn s n per ogni j x=As s=Wx con W=A -1 Come è intuibile il problema di trovare s essendo nota solo la x è un problema che non ha una unica soluzione se non vengono fatte alcune ipotesi. Si assume quindi che le x j ed s k siano variabili aleatorie che godono delle seguenti proprietà: Le x j ed s k hanno valore medio nullo e varianza unitaria Le s k sono statisticamente indipendenti la funzione densità di probabilità congiunta p(s i s k )=p(s i )p(s k ) da cui deriva che, date due funzioni h(s i ) e g(s k ), E{h(s i )g(s k )}= E{h(s i )}+ E{g(s k )} Le componenti indipendenti non devono essere gaussiane.

14 ANALISI DELLE COMPONENTI INDIPENDENTI Massimizzazione dellinformazione Un modo di ricavare le componenti indipendenti fa riferimento alla massimizzazione della mutua informazione che luscita della rete neurale, che realizza lalgoritmo, contiene rispetto allingresso. Considerando quindi la s=Wx massimizzare la mutua informazione corrisponde a massimizzare la: I(s,x) = H(s) –H(s |x) con H(s) = - p(s)log(p(s))ds entropia delluscita H(s|x) = - p(s|x)log(p(s|x))ds entropia delluscita non derivante dallingresso. In assenza di rumore la trasformazione da x ad s è deterministica e la H(s|x) assume il valore minimo cioè -. La derivata della mutua informazione rispetto al parametro w coinvolto dalla trasformazione da x ad s fornisce: I(s,x)/ w = H(s)/ w+ H(s|x)/ w poichè la H(s|x) non dipende da w. Infatti se si considera che la s = g(x) + n con g trasformazione invertibile ed n rumore additivo si ha H(s|x)=H(n) da cui H(n)/ w = 0. Per trasformazioni deterministiche continue ed invertibili la mutua informazione fra ingresso e uscita può essere resa massima massimizzando solo lentropia delluscita.

15 ANALISI DELLE COMPONENTI INDIPENDENTI Massimizzazione dellinformazione – Un solo ingresso ed una sola uscita Si assuma che luscita s dipenda dallingresso secondo la funzione s = g(x). Nel caso in cui la funzione g(x) sia monotona crescente o decrescente, abbia quindi ununica funzione inversa la funzione densità di probabilità delluscita può essere scritta in funzione della densità di probabilità dellingresso secondo la p s (s) = p x (x)/ | s/ x| e la H(s) = - p s (s)log(p s (s))ds = -E[lnp s (s)] = E[ ln | s/ x| ] – E[lnp x (x)] Il secondo termine corrisponde allentropia di x che rimane inalterata al variare del parametro w che determina la g(x). Quindi per massimizzare lentropia di s è sufficiente massimizzare solo il primo termine. Da cui la regola di apprendimento risulta: w H/ w = (ln | s/ x| )/ w = ( s/ x) -1 ( s/ x )/ w Nel caso in cui la g(x) è la funzione logistica s= 1/(1+e -u ) u=wx *+ w0 si ottiene : w 1/w + x(1-2s) w0 1-2s Nel caso di ingressi ed uscite multidimensionali la funzione densità di probabilità di s può essere scritta come p s (s) = p x (x)/| J | dove | J | è il valore assoluto del determinante dello Jacobiano della trasformazione g(x).

16 RIFERIMENTI BIBLIOGRAFICI Gli argomenti relativi alle lezioni 1 – 3 possono essere approfonditi sul testo: BOSIC: DIGITAL AND KALMAN FILTERING Gli argomenti relativi alle lezioni 4 – 8 possono essere approfonditi sul testo: DOMENICONI-JORDAN: DISCORSI SULLE RETI NEURALI E APPRENDIMENTO Entrambi i testi sono in visione presso il Dip. Informatica e Sistemistica.


Scaricare ppt "BIOINGEGNERIA S. Salinari Lezione 8. RETI AD APPRENDIMENTO NON SUPERVISIONATO Le reti ad apprendimento non supervisionato debbono essere in grado di determinare."

Presentazioni simili


Annunci Google