La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore


Presentazioni simili


1 PATTERN RECOGNITION: A COMPREHENSIVE APPROACH USING ARTIFICIAL NEURAL NETWORK OR/AND FUZZY LOGIC Sergio C. BROFFERIO email Aims of the course (An Engineering Approach) The pattern recognition problem Deterministic and statistical methods:models Neural and Behavioural models How to pass the exam? Paper review or Project

2 REFERENCES FOR ARTIFICIAL NEURAL NETWORKS (ANN) a)Basic textbooks C. M. Bishop: “Neural Network for Pattern Recognition” Clarendon Press-Oxford (1995). Basic for Engineers S. Haykin; "Neural Networks" Prentice Hall 1999. Complete text for Staic and dynamic ANN. T. S. Koutroumbas, Konstantinos: “ Pattern Recognition” – 4. ed.. - Elsevier Academic Press, 2003. - ISBN: 0126858756 Y.-H. Pao: “Adaptive Pattern Recognition and Neural Networks” Addison-Wesley Publishing Company. Inc. (1989) Very clear and good text R. Hecht-Nielsen: “Neurocomputing”, Addison-Wesley Publishing Co., (1990). G.A. Carpenter, S. Grossberg: “ART”: self-organization of stable category recognition codes for analog input pattern” Applied Optics Vol. 26, 1987

3 b) Applications F.-L. Luo, R. Unbehauen: “Applied Neural Networks for Signal Processing” Cambridge University Press (1997). R. Hecht-Nielsen: “Nearest Matched filter Classification of Spatiotemporal Patterns” Applied Optis Vol. 26 n.10 (1987) pp. 1892-1898 Y. Bengio, M. Gori: “Learning the dynamic nature of speech with back-propagation for sequences”” Pattern Recognition Letters n. 13 pp. 375-85 North Holland (1992) A.Waibel et al.: “Phoneme Recognition Using Time Delay Neural Networks” IEEE Trans. On Acoustics, Speech and Signal processing Vol. 37. n. 3 1989 P. J. Werbos: “Backpropagation through time: what it does and how to do it2 Proceedings of the IEEE, vol. 78 1990

4 REFERENCES FOR FUZZY LOGIC Y.H. Pao: “Adaptive Pattern Recognition and Neural Networks”, Addison-Wesley Publishing Company. Inc. (1989) B. Kosko: “Neural Networks and Fuzzy Logic” Prentice Hall (1992) G.J. Klir, U.H.St.Cair,B.Yuan: “Fuzzy Set Theory: Foundations and Applications” Prentice Hall PTR (1997) J.-S. Roger Jang: “ ANFIS: Adaptive_Network-Based Fuzzy Inference System”, IEEE Trans. on Systems, Man, and Cybernetics, Vol. 23 No. 3 1993

5 dati osservazioni espertoclasse dati osservazioni elaboratore dati osservazioni esperto elaboratoreclasse Evoluzione dell’ automatizzazione dei metodi di riconoscimento Historical evolution of Pattern Recognition

6 Trasformazione ‘fisica’ Riconoscimento Elaborazione semantica simboli campioni pattern (caratteristiche) ( features) Organizzazione a livelli delle elaborazioni per il riconoscimento automatico Hierarchical organization of Pattern recognition segnali dal sensore segnali all’ attuatore informazioni semantiche

7 x campione (pattern) spazio dei campioni (anche continuo)..... Il riconoscimento come mappatura dello spazio dei campioni nello spazio delle classi (o dei simboli) Sample to Class Mapping C3C3 C2C2 C1C1 *** spazio delle classi (discreto)..

8 x2x2 x1x1 C3C3 C2C2 C1C1 x discriminante d 31 (x)=0 caratteristica (feature) campione (pattern) classe (simbolo) Il riconoscimento come partizione dello spazio dei campioni Space Partitioning for pattern Recognition spazio dei campioni Funzione di decisione: D i (x) con i = 1...K Discriminante: d ij (x)= D i (x)- D j (x) con i,j= 1...K D 3 (x)>0 D 1 (x)>0 caratteristica (feature)

9 Pattern classifications types Area Computation Algorithm Classification of the Area value (S) Or its quantization (Sq) S F2F2 F1F1 E A O U Speech Recognizer [Hz] Vowel

10 Esempio di riconoscimento di vocali con logica sfumata Example of pattern recognition (Vowel Recognition) using Fuzzy Logic F2F2 F1F1 E A O U I Speech Recognizer F1F1 MP P MG F2F2 B A UO U E A A EI V={I,U,O,A,E} F 1 ={MP, P,M,G} F 2 ={B,A} Vowel [Hz]

11 The neuron Cell body Dendrites Axon Synaptic Connections

12 Our Brain and its neurons - Main characteristics Neurons: ~10 11 Connections: ~10 15, ~10 4 connections/neuro Switching time: ~1ms, (10 ps in computers) Switching energy: ~10 -6 joule/cycle -Learning and adaptation paradigm: from neurology and psychology - Historical and functional approaches

13 Caratteristiche delle RNA (ANN characteristics) -non linearita’ (non linearrity) - apprendimento (con o senza maestro) Supervised or unsupervised learning - Adattamento: plasticita’ e stabilita’ (Adaptability: plasticity and stability) - risposta probativa (probative recognition) - informazioni contestuali (contextual information) - tolleranza ai guasti (fault tolerance) - analogie neurobiologiche (neurobiological analogies) - realizzazione VLSI (VLSI implementations) - uniformita’ di analisi e progetto (uniformity of analysis and design)

14 Stability is the capability of recogniono in presence of noise Overfitting produces a loss of plasticity when the number of traning sessions is above n ott

15 w ji i yjyj Components of the Artificial Neural Network(ANN) Receptive Field Local induced field Neuron Activity Neuron Synaptic Weight connection... j

16 vettore di Y uscita strato di uscita strato nascosto vettore x i d’ ingresso X w ji j i y(t) =f(x(t),W,t) yhyh Struttura di una Rete Neuronale Artificiale Layered structure of a ANN conness. con ritardo Delay...

17 RNA statica dinamica Campione (Sample) Percettrone multistrato (MLP) Memorie statico autoassociative Mappa autorganiz- dinamiche zata (SOM) dinamico a ritardo (TDNN) spazio-temporale FIR non lin. IIR non lin. Tipi di RNA( statiche e dinamiche)e tipi di campioni (statici e dinamici) Static and Dynamic ANN’s for either Static and Dynamic samples Pattern Recognition

18 RNA W Ambiente x, y* WW x stimolo (campione) risposta y Interazione fra RNA e ambiente (stimoli e eventualmente risposta desiderata) Learning through interactions of an ANN with its environment y* risposta desiderata “adattatore”

19 Hebb’ law i j w ji xixi xjxj If two neurons are active the weight of their connection is increased, Otherwise their connection weight is decreased  w ji =  x i x j

20 w j1 w ji w jN 1 jx1x1 xixi xNxN w j(N+1) s f(s) yjyj ingressi: x= (x i, i=1  N, x (N+1) =1) pesi: w j =(w ji, i=1  N+1) campo locale indotto : s =  w ji.x i con i=1  N+1 + Struttura del neurone artificiale ANN ON-OFF or “sigmoidal” node structure funzioni di attivazione: y= f(s)=u(s) y=f(s)=  (s)= 1/(1+exp(-s) y=f(s)=Th(s)

21 s f(s) 1 0.5 Funzione di attivazione sigmoidale Activation function of a sigmoidal neuron

22 x1x1 x2x2 f(s) = f(0) x Discriminante lineare Linear discrimination n d s(x)=0 s>0 s<0 d= (w 1 x 1 + w 2 x 2 + w 3 )(w 1 2 + w 2 2 ) -1/2 o w1w1 w2w2 1 x1x1 x2x2 w3w3 s f(s)y + s= w 1 x 1 + w 2 x 2 + w 3

23 w j1 w ji w jN j x1x1 xixi xNxN exp(-d 2 /d 0 2 ) yjyj ingressi: x= (x i, i=1  N) pesi: w j =(w ji, i=1  N) funzione di attivazione: y=f(d)=exp(-d 2 /d 0 2 ) |x,w j )| d2d2 Neurone artificiale risonante (selettivo, radiale, radiale) Resonant (Selective, Radial Basis) Artificial Neuron distanza: d 2 = [  (x,w j )] 2 =  i  x i -w ji ) 2 oppure distanza pesata: d 2 = [  (x,w j )] 2 =  i  c i (x i -w ji ) 2

24 Fig. 5b) Funzione di attivazione radiale y=f(s)= exp[-d/d 0 ) 2 ] Funzione base radiale (Radial Basic Function, RBF) d f(s) 1 d0d0 d0d0 1/e~0.3

25 x1x1 x2x2 x wjwj o d Attività di una funzione risonante (radiale) di due variabili Two components radial basis function

26 ANN learning methods Supervised learning (Multi Layer Perceptron)) Sample-class pairs are applied (X,Y*); a) The ANN structure is defined b) Only the rule for belonging to the same class is defined (Adaptive ANN) Unsupervised learning (Self Organising Maps SOM) Only the sample X is applied a) the number of classes K is defined b) Only the rule for belonging to the same class is defined (Adaptive ANN)

27 Ingressi: x i ; campo locale indotto: s =  w i x i ; uscita: y=  (s) dati per l’addestramento: coppia campione classe (x,y*); errore;  e = y*-y aggiornamento dei pesi:  w i =  e  ’(s)  x i con  ’(s) = y(1-y) if y =  (s)=1/(1+exp(-s)) Il percettrone The Perceptron wiwi i xixi y 1 N N+1 1 wiwi i xixi y - y* e  +

28 x1x1 x2x2 f(s) = f(0) x Discriminante lineare Linear discrimination n d s(x)=0 s>0 s<0 d= (w 1 x 1 + w 2 x 2 + w 3 )(w 1 2 + w 2 2 ) -1/2 o w1w1 w2w2 1 x1x1 x2x2 w3w3 s f(s)y + s= w 1 x 1 + w 2 x 2 + w 3

29 Hebb’ law i j w ji xixi xjxj  w ji =  x i x j Perceptron learning y=  (s); s= w T x; E(w)=(d-y) 2 =1/2e 2 ; Training pair (x,d)  d  dw  w =dE/dw. (-  dE/dw)= -  (dE/dw) 2  w=-  dE/dw =-  (  E/  s) (  s/  w)= =-   (s)x  E/  s =  (s) is called the local gradient with respect to node 1 or s  s   E/  s =e.  ’(s)  w i =-  dE/dw i =-  (  E/  s) (  s/  w i )= -   (s)x i Gradient learning i wiwi xixi  (s)  w ji =  s  x i

30 x 2 x 1 c ab y c a b A + x 2 x 1 1

31 x 2 x 1 y x 1 x 2 c Partizione dello spazio dei campioni di un percettrone multistrato The partitioning of the sample space by the MLP ab   AB c a b    A B (x, c/c*)

32 Y y 1 y h y K strato nascosto H2 strato nascosto H1 strato d’ ingresso vettore d’ uscita strato d’ uscita vettore x 1 x k x M d’ ingresso X v hj j i Il percettrone multilivello The Multilayer Perceptron (MLP) w ji k w ik... yiyi yjyj E(W)=1/2  (d h -y h ) 2 with h=1÷K

33 Sequential learning  Multi Layer Perceptron y=  (s 2 ); s 2 = v T y; y 1 =f(s 1 ); s 1 = w T x ; E=(d-y) 2 =e 2 Training pair (x,d)  w=-  dE/dw =-  (  E/  s 1 ) (  s 1 /  w)= =-   (s 1 )x  E/  s 1 =  (s 1 ) the local gradient with respect to node 1 or s 1  s    E/  s 2.ds 2 /dy 1.dy 1 /ds 1 =  (s 2 )v 1  ’(s 1 )=e 1  ’(s 1 )  e 1 =  (s 2 )v 1 s the backpropagated error  detailed notation  w =-  e 1  ’(s 1 )x =  e  ’(s 2 )v 1  ’(s 1 ) x

34  1  h  M ’(sj)’(sj) e j =  h w hj  s j )= e j  ’(s j ) y j + w ji v 1j v Mj v hj y 1 y h y M (sj)(sj) yjyiyjyi w ji v 1j v Mj v hj (si)(si) (s1)(s1) (sh)(sh) (sM)(sM) Forward step Backpropagation step s j  w ji x i e j =  h v hj y i  (s j )  j = - e j  ’(s j );  w ji = -  j y i

35 e 1 e h =  y* h - y h e M w hj w ji O H2 H1 I ’(sh)’(sh) ’(sj)’(sj) w ik ’(si)’(si) yjyj  w hj = -  h y j  h = e h s’(s h ) e j =  h w hj  j = e j  ’(s j )  w ji = -  j y i yiyi e i =  j  j w ji  i = e j  ’(s j ) x 1 x k x N  w ik = -  i x k Rete di retropropagazione dell’ errore Linear ANN for error back propagation 1 h M 1 j M H2 1 i M H1 1 k N yhyh

36 Metodo di aggiornamento sequenziale dei pesi (Sequential weights learning) Insieme d’ addestramento: (x k,y* k ), k=1-Q, Vettore uscita desiderato y* k = (y* k m, m=1-M) Vettore uscita y k = (y k m, m=1-M) prodotto da x k =(x k i,i=1-N) Funzione errore: E (W)= 1/2  m (y* k m -y k m ) 2 = 1/2  m  e k m ) 2 Formula d’ aggiornamento:  w ji =- .dE/dw ji = -  j  y i =   ’(s j ).e j  y i dove e j =  m  w mj  m e  m = -  ’(s m ).e m Formule d’ aggiornamento (per ogni coppia x k,y* k, si e’ omesso l’apice k) Learning expressions (for each pair x k, y *k, the apex k has been dropped) strato d’ uscita O: y m =  (s m ) e m =  y* m -y m  m = e m  ’(s m )  w jm =  m y j strato nascosto H2: e j =  m  m w jm  j = e j  ’(s j )  w kj =  j y k strato nascosto H1: e k =  j  j w kj  k = e k  ’(s k )  w ik =  k x i

37 Addestramento globale dei pesi sinaptici (Global synaptical weights learning) Insieme d’ addestramento: (x k,y* k ), k=1÷Q, Vettore uscita desiderato y* k = (y* k m, m=1-M) Vettore uscita prodotto da x k =(x k i,i=1-N) y k = (y k m, m=1-M) Funzione errore globale: E g (W j )= 1/2  k  m (y* k m -y k m ) 2 = 1/2  k  m  e k m ) 2 Retropropagazione dell’ errore (per ogni coppia x k,y* k, si e’ omesso l’apice k) strato d’ uscita O: y m =  (s m ) e m =  y* m -y m  m = e m  ’(s m ) strato nascosto H2: e j =  m  m w jm  j = e j  ’(s j ) strato nascosto H1: e k =  j  j w kj  k = e k  ’(s k ) Formule per l’ aggiornamento globale: (Expressions for global learning)  w ji = - .dE g /dw ji =  k  k j  y k i =  k  ’(s k j ).e k j dove e k j =  hj  w hj  k h e  k j = -  ’(s k j ).e k j

38 y x 1 x 2 MPL per EXOR 1 1 x 1 x 2 y 0 0 0 0 1 1 1 0 1 1 1 0 x 2 1 0 1 x 1 y=0 y=1

39 yAyA 1 3 x1x1 1 2 x2x2 y A* x1x1 x2x2 y A =f A (s) = 0.5 X A A* y A* =f A* (s) = 0.5 + +

40 x1x1 x2x2 z=f(s) = 0.5 X z=f(s) =-T z=f(s) =T A A* I 13 x1x1 1 2 x2x2 yAyA y A* z u(z-T) u(-z-T) Zona morta per migliorare l’affidabilità della classificazione Dead zone to improve the classifcation reliability

41 MLP per riconoscimento di due classi con p.d.f. gaussiane (HAYKIN Cap.4.8) MLP perceptron for gaussian d.p.f. pattern (HAYKIN Cap.4.8) BB x2x2 AA X A zona di decisione ottima Bayesiana BB AA rArA x1x1 X XAXA X discriminante MLP x 1 1 x 2 yAyA yByB MLP: Pe = 0.196 Bayesiana: Pe = 0.185 Parametri di addestramento   =0.1,  =0.5

42 Note Notes a) metodo dei momenti (moments method) :  w ij (n)=   w ij (n-1) +  i (n)x j (n) con  <1 b) suddivisione suggerita per l’ insieme di addestramento+validazione suggested partitioning for the traing and validation tests add.val. 1. Sessione 2. Sessione 3. Sessione 4. Sessione c) normalizzazione: al valor medio e agli autovalori) (normalization to the mean and the eigen value) d) inizializzazione: pesi casuali e piccoli (funzionamento in zona lineare),  =.1,  ~.9 initialization wth small and random values (linear zone operation), h=0.1,  ~.9

43 Mappe autoorganizzate SELF ORGANIZING MAPS (SOM) a)Numero di classi (cluster) predefinito The number of classes is predefined b) Paradigma di classificazione: verosimiglianza nella distribuzione statistica Predefined classification paradigm: likelihood in statistical distribution - modello: disposizione dei neuroni sulla corteccia cerebrale; model: disposition of the brain neurons on the cerebral cortex - Modello di apprendimento: interazione eccitatoria/inibitoria dei neuroni; learning model: excitatory/inhibitory neuron interactions - rappresentazione geometrica: tassellazione di Voronoi; geometrical representation: Voronoi tasselation

44 1 i N 1 j N 1 j M x Von der Malsburg Kohonen wjwj w1w1 wMwM yjyj y1y1 yMyM bidirectional interactions

45 j i wjwj wiwi x x2x2 x1x1 spazio delle uscite (bidimensionale) output space (two discrete dimensionality) Spazio dei campioni (elavata dimensionalità) Pattern space (large and continous dimensionality) Riduzione della dimensionalita’ (neuroni su reticolo) Dimensionality reduction (neurons on a grid)

46 Struttura delle SOM SOM structure h k x1x1 x2x2 xixi x4x4 xNxN Input layer (N nodes) Output layer (M nodes) Twodimensional Output vector y Input vector x

47 xi xi w ji 1 i N 1 j M yiyi j = argmin[  (x,w h ); h=1  M] y j =1; y h =0 per h  j) -competizione (per la selezione e attivazione del nodo d’ uscita corrispondente alla massima attività) -competition (for the selection and activation of the output neuron corresponding to maximum activity) -cooperazione (per la modifica dei pesi) -cooperation (for weights modification) -adattamento sinaptico: eccitazione/inibizione -synaptic adaptation: excitatory/inhibitory Paradigma di apprendimento (Learning paradigm)

48 Turing, 1952 Si puo’ realizzare una strutturazione globale mediante interazioni locali A global structure can need only local interactions La strutturazione e’ realizzata da interconnessioni neuronali locali The structure is implemented by local neural interconnections Principio 1. Le interconnessioni sono generalmente eccitatorie 1. Principle: Interconnections are mainly excitatory Principio 2. La limitazione delle ‘risorse’ facilita specifiche attivita’ 2. Principle: The resource limitation makes easier specific activities Principio 3. Le modifiche dei pesi sinaptici tendono ad essere cooperative 3. Principle: Weight modifcations tend to be cooperative Principio 4. Un sistema autorganizzato deve essere ridondante 4. Principle: A self organizing system has to be redundant

49 Competizione Competition neurone vincente winning neuron : j = argmin[||x-w h ||) ; h=1  M] oppure or: j = argmax[x T w h ; h=1  M] Cooperazione Cooperation distanza reticolare d(j,i) dei nodi i e j Manhattan distance d(i,j) of nodes i and j funzioni di vicinato neighbourhood functions : Excitatory only: h i (j) = exp[- d(i,j) 2 /2  2 ] oppure or Mexican hat: h i (j) = a.exp[- d(i,j) 2 /2  e 2 ] – b exp[- d(i,j) 2 /2  i 2 ] Adattamento sinaptico (Synaptical updating):  w i =  h i (j)(x-w i )  e   diminuiscono durante l’apprendimento decrease during learning Autorganizzazione self organisation:  =0.1-0.01, Convergenza statistica stastistical convergence:  =0.01, 1  d(i,j)  0 i j d(i,j)=5

50 Aggiornmento dei pesi con il metodo del gradiente Weights updating by gradient learning w i (i=1÷M) vettore prototipo del nodo i prototype vector of node i Error function ( winning node j): E j (W)= 1/2  i h i (j) (x- w i ) 2 (i=1÷M) Computation of the gradient  E j (w i )= grad(E j (w j )).  w i = (  E(W)/  w i ).  w i Weight updating   w i = -  E j (W)/  w i =  h i (j) (x- w i ). Manhattan distance Euclidean distance

51 w ji 1 i N 1 j M Classe desiderata Y* Desired class Y* Strato delle classi Class layer Strato nascosto competitivo Hidden competive layer Strato d’ ingresso Input layer Pattern vector x SOM supervisionata Supervised SOM 1 i K Vettore campione: x= (x i, i=1-N) xixi yiyi PERCETTRONE SOM

52 w ji 1 i N 1 q j M Vettore quantizzato x q (x q, i=1  N) Quantized vector Strato di quantizzazione Quantisation layer SOM learning q=(q j ;j=1÷M) Strato d’ ingresso Campione x (x i, i=1  N) Fig. 14c) Quantizzatore vettoriale adattativo (Adaptive Learning Vector Quantization, ALVQ) 1 i N xixi x qi PERCETTRONE SOM

53 Addestramento delle SOM supervisionate Learning Vector Quantizer (LVQ) dati di addestramento learning data: (x) a)apprendimento della SOM (con x) ; SOM learning (only x) b1) Addestramento (x,c) dello strato d’uscita (con q,x) (x,c) eq. (q,c) Outuput layer learning (with q,x) b2) Addestramento con etichettatura, Learning with labelling b3) Addestramento e etichettatura dello strato nascosto Learning and labelling of the hidden layer  w c = +/-  (x-w c ) se x appartiene o no alla classe C  if x belong or not to class C

54 Inferenza statistica delle RNA Statistical Inference of the ANN RNA (ANN) x, c k y 1 (x) y m (x) y k (x) y M (x) E 2 =  X P(x)(  k P(c k /x)  m [y m (x)-y* m (x)] 2 }) E 2 =  X P(x)(  m {  k P(c k /x) [y m (x)-  m (x) k ] 2 }) y* 1 (x) =  l (x) = 0 y* m (x) =  m (x) = 0 y* k (x) =  k (x) = 1 y* M (x) =  M (x) = 0 c k =(  l (x) ….  k (x) …..  M (x))

55 E 2 =  X P(x)(  m {  k [y m (x)-  m (x)] 2 P(c k /x) })  k [y m (x)-  m (x)] 2 P(c k /x)= y m 2 (x)-2y m (x) P(c m /x) + P(c m /x)= as  m (x)=1 only for k = m and  k P(c k /x)=1, adding and subtracting P 2 (c m /x) we get: [y m 2 (x)-2y m (x) P(c m /x) + P 2 (c m /x)] + [P(c m /x) - P 2 (c m /x)] = = [y m (x)-P(c m /x)] 2 + P(c m /x) [1- P(c m /x)] where only the first term depends on the ANN, that if the ANN has been correctly updated the minimum value of E 2 is obtained when: dove solo il primo addendo dipende dalla rete per cui addestrandola correttamente si ottiene il minimo di E 2 per: y m (x)=P(c m /x)

56 Reti Neuronali Adattative Teoria della risonanza adattativa Adaptive Neural Networks (Adaptive Resonance Theory, ART) Meccanismo psicofisiologico di adattamento all’ambiente: 1) Attenzione selettiva: ricerca di una situazione nel dominio di conoscenza 2) Risonanza: se l’ attenzione selettiva rileva una situazione nota 3) Orientamento: ricerca o creazione di una nuova conoscenza Vantaggi: compatibilita’ fra plasticita’ e stabilita’ Svantaggi: complessita’ della struttura e dell’ algoritmo di apprendimento Paradigm of Psychological Adaptation to the Environment: 1) Selective Attention: research in the knowledge domain; 2) Resonance: if positive response of the knowledge domain; 3)Orientation: research or implementation of new knowledge Advantages: plasticity and stability are compatible Disadvantages: complexity of the structure and of the learning algorithm

57 Plasticity and Stability A training algorithm is plastic if it has the potential to adapt to new vectors indefinitely A training algorithm is stable if it preserves previously learned knowledge + category representation w prototype representation Input pattern representation Selection based on input-prototype distance Classification based on input-category distance + w w +

58 Apprendimento: Attivazione dello strato di riconoscimento con competizione SOM (attenzione selettiva) Retropropagazione allo strato di confronto e verifica della risonanza al modello attivato Creazione di un nuovo neurone in caso di impossibilità di risonanza (orientamento) Learning Paradigm Activation of the output layer by SOM learning (selective attention) Feedback to the comparison layer and resonance evaluation with the activated pattern Implementation of a new neuron if no resonance is possible (orientation) strato delle categorie category layer strato di confronto comparison layer 1 j P P+1 1 i N WjWj x 1 x i x N ZjZj

59 strato di riconoscimento strato di confronto 1 j P P+1 1 i N w ji x 1 x i x N z ij j=argmax [x T w h, h=1÷P ] Attenzione selettiva Selective attention  coefficiente di risonanza (resonance coefficient) x T z j >  risonanza (resonance): adattamento di adaptation of w j e z j x T z j < j Se (if) x T z h <  per ogni (for each) h=1÷P si crea un nuovo nodo P+1 w P+1 =x (a new node) P+1 w P+1 =x is implemented

60 1 h j P P+1 y 1 y h y j y P x 1 x N t j x  || x y 1 y h y j y P b ji x 1 x i x N If t j x  || x || for all j then generate node P+1 < t hi ART1 For binary input pattern

61 Learning of ART1 (Pao model) Initialization: t ji 0 =1 e b ji 0 =1/(1+N) Competition phase: y j =b j T x j=argmax[y p ; p=1÷P] Selective attention: verification of the resonance if t j T x>  ||x|| resonance is satisfied then (risonanza) weight updating t ji k+1 = t ji k x i e b ji k+1 = t ji k x i /(0,5+ t j k x) else (orientamento): a new node is implemented t ji 0 =1 e b ji 0 =1/(1+N)

62 Struttura di principio delle reti ART Basic ART Structure F2 strato dei nodi delle categorie STM rappresentazione della categoria estratta F2 field of category nodes STM representation of the extracted category LTM rappresentazione dell’informazione appresa e memorizzata (in F1 e F2) LTM representation of the learned and stored information (in F1 and F2) F1 strato dei nodi di confronto STM rappresentazione filtrata dei pattern d’ingresso e di categoria F1 field of comparison nodes STM representation of filtered input and category pattern STM: Short Term Memory (Attività dei nodi) LTM: Long Term Memory (Pesi delle connessioni)

63 A: control node Input I generates activity pattern X, non specifically activates A and extracts category Y

64 Category pattern V generates activity X* and deactivates A

65 Because of mismatch a new category is searched

66 A new category is extracted

67 A new comparison cycle is started !!

68 ART2 Reset if  /|r|>1 r=u+cp p=u+g(y J )z J J is the selected category q= p/|p| v=f(x)+bf(q) u=v/|v| x=w/|w| w=i+au F 1 : Patterns layer F 1 : Categrory layer

69 Category selection F 1 loop-processing p =u u=v/|v| v=bf( ,q)+f( ,x) q=p/|p| x=w/|w| w=au+i Then: T h =p.z B h J= argmax [T h, h= 1÷P] Parameters: a;b;  Non linear filter f( x )= 0 if x <  else f(x) =x Resonance evaluation F 2 Top-down and F 1 loop-processing p =u+dz T J u=v/|v| v=bf(q,q)+f(q,x) q=p/|p| x=w/|w| w=au+i Then: r= (u+cp)/(|u|+c|p| Resonance condition:  /|r|<1 Parameters: d,c, 

70 If resonance ART learning for category J: F1-F2 connection weights updating F1 F2:  z B J = du-d(1-d)z B J F2 F1:  z T J = du-d(1-d)z T J else Reset and Orientation: selection of another category: next lower Th If no resonance: implementation of a new category

71 Caratteristiche di ART2 ART2 characteristics a.Compromesso fra stabilità e plasticità Stability/Plasticity Trade-Off b.Compromesso fra ricerca e accesso diretto Search/Direct-Access Trade-Off c. Compromesso fra inizializzazione econfronto Match/Reset trade-Off d. Invarianza delle rappresentazioni (STM) durante l’estrazione delle informazioni memorizzate (LTM) STM Invariance under Read-Out of Matched LTM e. Coesistenza dell’estrazione di LTM e normalizzazione di STM Coexistence of LTM Read-Out and STM Normalization f. Invarianza di LTM all’ applicazione di ingressi particolari No LTM recording by Superset Inputs g. Scelta stabile fino all’azzeramento Stable choice until reset. h. Aumento del contrasto, soppressione del rumore e riduzione del confronto con filtraggi non lineari Contrast Enhancement, Noise Suppression and Mismatch Attenuation by Non Linear Filtering i.Autostabilizzazione veloce Rapid Self-stabilzation j. Normalizzazione Normalization k. Elaborazione locale Local Computation

72 a) b) Classificazione ART ART classification (a) soglia bassa, low threshold (b) soglia alta, high threshold Da: G.A. Carpenter e S. Grossberg: Applied Optics, 1987, Vol 26 p. 4920, 49221

73 x1 x2 x=(x1,x2) Computer experiment: apply ART2 to category recognition


Presentazioni simili

Annunci Google