La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 09/09/2014 LE RETI NEURALI: MODELLI, ALGORITMI E APPLICAZIONI Giancarlo Mauri Università di Milano - Bicocca.

Presentazioni simili


Presentazione sul tema: "1 09/09/2014 LE RETI NEURALI: MODELLI, ALGORITMI E APPLICAZIONI Giancarlo Mauri Università di Milano - Bicocca."— Transcript della presentazione:

1 1 09/09/2014 LE RETI NEURALI: MODELLI, ALGORITMI E APPLICAZIONI Giancarlo Mauri Università di Milano - Bicocca

2 2 09/09/ Perché le reti neurali … E I SUOI LIMITI riconoscimento di persone, oggetti, suoni (anche in presenza di rumore) riconoscimento del parlato e comprensione del linguaggio naturale apprendimento, classificazione, generalizzazione visione e controllo del movimento adattamento a nuove situazioni soluzione di problemi complessi in modo esaustivo (ottimizzazione combinatoria) … E I SUOI LIMITI riconoscimento di persone, oggetti, suoni (anche in presenza di rumore) riconoscimento del parlato e comprensione del linguaggio naturale apprendimento, classificazione, generalizzazione visione e controllo del movimento adattamento a nuove situazioni soluzione di problemi complessi in modo esaustivo (ottimizzazione combinatoria) LA POTENZA DEL CALCOLO ELETTRONICO… calcoli numerici complessi (anni per un uomo) in frazioni di secondo memorizzazione grandi quantità di dati LA POTENZA DEL CALCOLO ELETTRONICO… calcoli numerici complessi (anni per un uomo) in frazioni di secondo memorizzazione grandi quantità di dati

3 3 09/09/ Perché le reti neurali Perché il cervello risulta superiore al computer per certe categorie di problemi? I meccanismi operanti nel cervello possono essere imitati per produrre macchine più efficienti ? Perché il cervello risulta superiore al computer per certe categorie di problemi? I meccanismi operanti nel cervello possono essere imitati per produrre macchine più efficienti ?

4 4 09/09/ Perché le reti neurali La differenza non sta nelle componenti: Cellule nervose: tempo risposta ordine msec Circuiti logici elettronici: tempo risposta ordine nsec ma nella "architettura"

5 5 09/09/ Perché le reti neurali IL CERVELLO COME CALCOLATORE L'elaborazione è frutto di un processo altamente parallelo La potenza di calcolo deriva dalla cooperazione di molti processori semplici e fortemente interconnessi: neuroni 10 5 connessioni/ neurone Le connessioni si modificano con l'apprendimento L'informazione non é localizzata, ma distribuita globalmente nella rete di processori L'intelligenza deriva dalla interazione tra i neuroni, non é prerogativa di un singolo neurone Ha una notevole tolleranza ai guasti

6 6 09/09/ Un po' di storia INTERESSE PER IL NEURAL COMPUTING

7 7 09/09/ Un po' di storia 1943 : McCulloch e Pitts "A Logical calculus of Ideas Immanent in Nervous Activity" Primo modello formale di funzionamento di una rete nervosa, descritta come un circuito i cui componenti sono porte logiche costruite a partire dalle funzioni booleane elementari: OR, AND, NOT : McCulloch e Pitts "A Logical calculus of Ideas Immanent in Nervous Activity" Primo modello formale di funzionamento di una rete nervosa, descritta come un circuito i cui componenti sono porte logiche costruite a partire dalle funzioni booleane elementari: OR, AND, NOT. I PIONIERI (Anni '40) 1949 : Wiener introduce la visione del sistema nervoso come un sistema per l'elaborazione delle informazioni 1949 : Wiener introduce la visione del sistema nervoso come un sistema per l'elaborazione delle informazioni 1949 : D.O. Hebb "The organization of behavior" ipotizza che alla base del meccanismo di apprendimento vi sia una modifica dell'efficacia sinaptica tra coppie di neuroni, atraverso il rafforzamento di connessioni spesso attive. La regola di apprendimento di Hebb è ancora alla base di molti modelli 1949 : D.O. Hebb "The organization of behavior" ipotizza che alla base del meccanismo di apprendimento vi sia una modifica dell'efficacia sinaptica tra coppie di neuroni, atraverso il rafforzamento di connessioni spesso attive. La regola di apprendimento di Hebb è ancora alla base di molti modelli

8 8 09/09/ Un po' di storia Fine anni '40: von Neumann sviluppa la teoria degli automi "ramo seriale" che darà origine alle architetture "alla von Neumann" "ramo parallelo" che produrrà gli automi cellulari e le reti neuronali Fine anni '40: von Neumann sviluppa la teoria degli automi "ramo seriale" che darà origine alle architetture "alla von Neumann" "ramo parallelo" che produrrà gli automi cellulari e le reti neuronali LA PRIMA ETA’ DELL’ORO ('50–'60) 1960: B. Widrow, M. Hoff "Adaptive switching circuits" Uno dei primi neurocomputer, con regola di apprendimento di Widrow–Hoff, capace di riconoscere semplici pattern. La differenza tra l'uscita del circuito e l'uscita desiderata modifica per controreazione le resistenze nel circuito per ottenere uscite più corrette. 1960: B. Widrow, M. Hoff "Adaptive switching circuits" Uno dei primi neurocomputer, con regola di apprendimento di Widrow–Hoff, capace di riconoscere semplici pattern. La differenza tra l'uscita del circuito e l'uscita desiderata modifica per controreazione le resistenze nel circuito per ottenere uscite più corrette. 1962: F. Rosenblatt "The principles of neurodynamics" Primo modello di neurone formale in grado di apprendere da esempi (percettrone). Esperimenti su computer. 1962: F. Rosenblatt "The principles of neurodynamics" Primo modello di neurone formale in grado di apprendere da esempi (percettrone). Esperimenti su computer.

9 9 09/09/ Un po' di storia GLI ANNI DELLA CRISI ('70) Il campo delle reti neurali fu abbandonato (anche per l'indisponibilità di tecnologie adeguate) salvo poche eccezioni (Stephen Grossberg, Teuvo Kohonen, James Anderson, Gail Carpenter) Il campo delle reti neurali fu abbandonato (anche per l'indisponibilità di tecnologie adeguate) salvo poche eccezioni (Stephen Grossberg, Teuvo Kohonen, James Anderson, Gail Carpenter) Sviluppo di calcolatori basati sulla architettura sequenziale di von Neuman Intelligenza artificiale Sviluppo di calcolatori basati sulla architettura sequenziale di von Neuman Intelligenza artificiale 1969: M. Minsky, S. Papert "Perceptrons: an introduction to computational geometry" Analisi approfondita dei percettroni. Dimostrazione della inadeguatezza a risolvere molti problemi. 1969: M. Minsky, S. Papert "Perceptrons: an introduction to computational geometry" Analisi approfondita dei percettroni. Dimostrazione della inadeguatezza a risolvere molti problemi.

10 10 09/09/ Un po' di storia GLI ANNI DELLA RIPRESA ('80–'90) Riesame della critica di Minsky e Papert, che risulta valida solo per reti molto semplici Introduzione dell'algoritmo di back propagation Riesame della critica di Minsky e Papert, che risulta valida solo per reti molto semplici Introduzione dell'algoritmo di back propagation D. Rumelhart, J. McClelland, G. Hinton, T. Sejnowski Descrizione dell'apprendimento delle reti in termini di meccanica statistica: Macchina di Boltzmann D. Rumelhart, J. McClelland, G. Hinton, T. Sejnowski Descrizione dell'apprendimento delle reti in termini di meccanica statistica: Macchina di Boltzmann John Hopfield Analogie stimolanti con altri sistemi fisici John Hopfield Analogie stimolanti con altri sistemi fisici Sviluppo di algoritmi ed architetture ad alto parallelismo Sviluppo di nuove tecnologie: VLSI, Circuiti ottici Sviluppo di algoritmi ed architetture ad alto parallelismo Sviluppo di nuove tecnologie: VLSI, Circuiti ottici

11 11 09/09/ Campi applicativi Elaborazione di segnali Controllo Riconoscimento di schemi grafici Elaborazione di immagini Medicina Riconoscimento e produzione del parlato Finanza

12 12 09/09/ Connessionismo e intelligenza artificiale Intelligenza artificiale Intelligenza artificiale Connessionismo Mente ≠ cervello Deduzione Simbolico Sequenziale Programmazione Istruzioni imperative Indirizzi espliciti No generalizzazione Mente  cervello Induzione Analogico / subsimbolico Parallelo Apprendimento Adattività Memoria associativa Generalizzazione

13 13 09/09/ Il neurone biologico Stati possibili: eccitazione invia segnali ai neuroni connessi attraverso le sinapsi inibizione non invia segnali Transizione di stato: dipende dall'entità complessiva dei segnali eccitatori e inibitori ricevuti

14 14 09/09/ Neuroni formali GLI ELEMENTI ESSENZIALI:  Stato  Funzione di transizione  Funzione di uscita  Modalità di transizione neurone binario a soglia UN ESEMPIO: il neurone binario a soglia (McCulloch, Pitts 1943) nome canali vettore soglia input pesi

15 15 09/09/ Neuroni formali Stati: {0,1} o {-1,1} Funzione di transizione: s(t+1) = 1 sse  w i s i (t) ≥  Funzione di uscita:coincide con lo stato Modalità di transizione:deterministica  wnwn w2w2 w1w1 cncn c2c2 c1c1

16 16 09/09/ Neuroni formali A gradino Output Input Output Input Lineare Funzioni di trasferimento

17 17 09/09/ Neuroni formali Output Input Mista Output Input Sigmoide

18 18 09/09/ Reti neurali artificiali

19 19 09/09/ Reti neurali artificiali CARATTERISTICHE STRUTTURALI: Grande numero di unità Operazioni elementari Alto livello di interconnessione CARATTERISTICHE DINAMICHE : Cambiamento di stato in funzione dello stato dei neuroni collegati (input) Funzione di uscita per ogni unità Modifica delle schema di connessione per apprendimento FORMALMENTE: matrice dei pesi vettore delle soglie input netto a i in t funzione di trasferimento

20 20 09/09/ Reti neurali artificiali ELEMENTI CARATTERIZZANTI: tipo di unità topologia (direzione delle connessioni, numero di strati …) modalità di attivazione: u seriale ciclica u seriale probabilistica u parallela u mista modalità di addestramento

21 21 09/09/ Reti neurali artificiali CLASSI PRINCIPALI: Percettrone (Rosenblatt) Adaline(Widrow e Hoff) Mappe di caratteristiche autoorganizzanti (Kohonen) Reti di Hopfield Reti basate sulla teoria della risonanza adattiva (Carpenter) Percettrone a più strati (Rumelhart e Williams) Macchina di Boltzmann (Hinton) Memoria associativa bidirezionale (Kosko) Rete a contropropagazione (Hecht–Nielsen)

22 22 09/09/ Il percettrone Compito: riconoscimento di forme I percettroni sono reti semplificate, progettate per permettere lo studio di relazioni tra l'organizzazione di una rete nervosa, l'organizzazione del suo ambiente e le prestazioni "psicologiche" di cui è capace. I percettroni potrebbero realmente corrispondere a parti di reti e sistemi biologici più estesi; in questo caso, i risultati ottenuti sarebbero direttamente applicabili. Più verosimilmente, essi rappresentano una semplificazione estrema del sistema nervoso centrale, in cui alcune proprietà sono esagerate ed altre soppresse. In questo caso, perturbazioni e raffinamenti successivi del sistema possono dare una approssimazione migliore. Rosenblatt, 1962 I percettroni sono reti semplificate, progettate per permettere lo studio di relazioni tra l'organizzazione di una rete nervosa, l'organizzazione del suo ambiente e le prestazioni "psicologiche" di cui è capace. I percettroni potrebbero realmente corrispondere a parti di reti e sistemi biologici più estesi; in questo caso, i risultati ottenuti sarebbero direttamente applicabili. Più verosimilmente, essi rappresentano una semplificazione estrema del sistema nervoso centrale, in cui alcune proprietà sono esagerate ed altre soppresse. In questo caso, perturbazioni e raffinamenti successivi del sistema possono dare una approssimazione migliore. Rosenblatt, 1962

23 23 09/09/ Il percettrone Regola di transizione: se Struttura: w 1 n x  S NODI DI INPUT NODO DI OUTPUT PESI SOGLIA w k w n k x 1 x allora S = 1 altrimenti S = 0

24 24 09/09/ Apprendimento nel percettrone I pesi vengono fissati a caso e poi modificati L'apprendimento è guidato da un insegnante La procedura Obiettivo è classificare vettori di input in due classi, A e B. Si sottomette una sequenza infinita {x k } di vettori tale che ve ne siano un numero infinito sia di A che di B Per ogni x k la rete calcola la risposta Se la risposta è errata, si modificano i pesi, incrementando i pesi delle unità di input attive se si è risposto 0 anzichè 1, decrementandole nel caso duale: w' = w ± x

25 25 09/09/ Apprendimento nel percettrone  Teorema di convergenza: Comunque si scelgano i pesi iniziali, se le classi A e B sono discriminabili, la procedura di apprendimento termina dopo un numero finito di passi.  Teorema di convergenza: Comunque si scelgano i pesi iniziali, se le classi A e B sono discriminabili, la procedura di apprendimento termina dopo un numero finito di passi.  Teorema di Minsky e Papert: La classe delle forme discriminabili da un percettrone semplice è limitata alle forme linearmente separabili.  Teorema di Minsky e Papert: La classe delle forme discriminabili da un percettrone semplice è limitata alle forme linearmente separabili.

26 26 09/09/ Il teorema di convergenza del percettrone Teorema Se l'insieme degli input estesi è partito in due classi linearmente separabili A, B allora é possibile trovare un vettore di pesi w tale che: w  y ≥ 0 se y  A w  y < 0 se y  B Input x = (x 1, …, x d ) Input esteso x = (x 1, …,x d, 1) Pesi w = (w 1, …,w d, -  )

27 27 09/09/ Il teorema di convergenza del percettrone Costruzione 1. Si parte con w arbitrario 2. Si classifica un input y: risposta corretta: w' := w risposta errata: w' := w+y se y  A w' := w–y se y  B 3. Si prova un nuovo input

28 28 09/09/ Il teorema di convergenza del percettrone Correttezza Sia y  A e w  y < 0 Poiché y  y ≥ 0 vale w'  y = (w+y)  y = w  y + y  y > w  y Quindi w' classifica y in modo "più corretto" rispetto a w. Ma altri input possono essere classificati "meno correttamente".

29 29 09/09/ Il teorema di convergenza del percettrone Convergenza Si consideri Cerchiamo v tale che v  y ≥ 0  y  A' {y i } i  N sequenza di addestramento y i  A’ y  B' occorre infinite volte {w i } i  N sequenza dei pesi w 0 = 0 scelta arbitraria w k+1 = w k se w k  y k ≥ 0 w k + y k altrimenti

30 30 09/09/ Il teorema di convergenza del percettrone {v i } i  N sequenza dei pesi modificati {t i } i  N sottosequenza di training corrispondente w 0 ≠ w 1 = w 2 = w 3 ≠ w 4 = w 5 = w 6 ≠ w 7 ≠ w 8 …….. v 0 v 1 v 2 v 3 t 0 t 1 t 2 t 3 v j t j < 0  j v j+1 = v j + t j = v j-1 + t j-1 + t j = …… = TESI: la sequenza {v i } è finita

31 31 09/09/2014 Il teorema di convergenza del percettrone DIMOSTRAZIONE u Sia w una qualsiasi soluzione(esiste per ipotesi)! y w ≥ 0  y  A' u Si ponga  = min (y w | y  A') (   ) u v j+1 w = w ≥ j  (  ) + (   ) u (v j+1 w) 2 ≤ | v j+1 | 2 |w| 2 (Cauchy-Schwarz) u | v j+1 | 2 ≥ (    )

32 32 09/09/2014 Il teorema di convergenza del percettrone u Si ponga M = max {|y| 2 | y  A'} u |v j+1 | 2 = |v j +t j | 2 = | v j | v j t j + |t j | 2 ≤ | v j | 2 + |t j | 2 (v j t j < 0) u |v j+1 | 2 ≤ | t j | 2 ≤ j M (  ) ≤ | v j+1 | 2 ≤ j M = g(j) (    ) + (  ) f(j) = quadratico in j lineare in j

33 33 09/09/2014 Il teorema di convergenza del percettrone f g j Dopo al massimo  modificazioni di peso, il percettrone classifica correttamente ogni input.

34 34 09/09/2014 Il teorema di convergenza del percettrone Ma:  dipende dalla soluzione W  non è il reale numero di stadi LIMITAZIONI DEL PRECETTRONE Minsky – Papert theory

35 35 09/09/2014 Un esempio OR ESCLUSIVO (addizione binaria): I punti a valore 1 non sono linearmente separabili da quelli a valore 0 Ipotesi: Esiste un neurone binario a soglia tale che x  y = 1 se e solo se  x +  y ≥ . Essendo  simmetrica, vale anche x  y = 1 sse  y +  x ≥ . Sommando e dividendo per 2 si ottiene: x  y = 1 sse tx + ty = t(x+y)≥  ove t = (  +  )/2. Posto ora x+y = s, abbiamo: x  y = 1 sse t  s –  ≥ 0. Dallo studio del polinomio di primo grado in s y = t  s –  si ottiene: Per s = 0, t  s –  < 0 (0  0 = 0) Per s = 1, t  s –  ≥ 0 (0  1 = 1 = 1  0) Per s = 2, t  s –  < 0 (1  1 =0) Questa é una contraddizione, poiché una retta non può salire e poi scendere

36 36 09/09/2014 Il percettrone generalizzato  Strati intermedi tra input e output  Connessioni da strati di livello basso a strati di livello alto; nessuna connessione all'interno di uno stesso strato  Stato di un neurone: x   Funzione di attivazione: con P(x) funzione sigmoidale.  Per ogni configurazione x del primo strato (ingresso), la rete calcola una configurazione y dell'ultimo strato (uscita)

37 37 09/09/2014 Il percettrone generalizzato Obiettivo è che, fissata una mappa f tra configurazioni di ingresso e di uscita, sulla base di una sequenza di stimoli (x k ), la rete cambi i pesi delle connessioni in modo che, dopo un numero finito s di passi di apprendimento, l'uscita (y k ) coincida con f(x k ) per ogni k>s, almeno approssimativamente. Criterio di modifica: minimizzare un "criterio di discrepanza" tra risposta della rete e risposta desiderata Teorema (Irie-Miyake, 1988): Un solo strato nascosto è sufficiente per permettere di calcolare qualsiasi funzione da un insieme finito a {0,1}

38 38 09/09/2014 Reti multistrato

39 39 09/09/2014 Reti multistrato REGOLA DELTA E CALO GRADIENTE ● Strategie di apprendimento: ridurre una funzione appropriata della differenza tra il reale output y sull'input x e l'output desiderato t ● Tecnica di riduzione: calo gradiente (versus pesi di connessione) E w

40 40 09/09/2014 Un esempio Una rete per l'or esclusivo con una unità nascosta –2 +1

41 41 09/09/2014 Retropropagazione dell'errore L'algoritmo (senza unità nascoste) I pesi sono modificati proporzionalmente a questa derivata (regola delta): La convergenza a un minimo globale é garantita per funzioni di attivazione lineari senza unità nascoste e per dati consistenti x w y

42 42 09/09/2014 Retropropagazione dell'errore Assunzioni  Neuroni u 1, u 2, …, u n : unità di input unità nascoste unità di output  Pesi reali w ij  Stati di attivazione s j  Input netto  Funzione di attivazione semilineare differenziabile non decrescente: s j (t+1) = f j (n j (t)) Es. : Funzione logistica

43 43 09/09/2014 Retropropagazione dell'errore  Sia x input, y output atteso, t output effettivo.  Consideriamo la norma quadratica  Cerchiamo una regola di modifica dei pesi tale che: con  tasso di apprendimento. Poiché: dobbiamo determinare

44 44 09/09/2014 Retropropagazione dell'errore  Passo 1 – Input Il neurone di input j é posto nello stato x j  Passo 3 – Confronto Per ogni neurone di output j, noto l'output atteso, si calcola:  Passo 4 – Retropropagazione dell'errore Per ogni neurone nascosto j, si calcola:  Passo 5 – Aggiornamento dei pesi  Passo 2 – Propagazione Per ogni neurone interno o di output j si calcola lo stato

45 45 09/09/2014 Retropropagazione dell'errore  mancanza di teoremi generali di convergenza  può portare in minimi locali di E  difficoltà per la scelta dei parametri  scarsa capacità di generalizzazione, anche nel caso di buona minimizzazione di E  mancanza di teoremi generali di convergenza  può portare in minimi locali di E  difficoltà per la scelta dei parametri  scarsa capacità di generalizzazione, anche nel caso di buona minimizzazione di E Limiti Possibili modifiche migliorative  Tasso di apprendimento adattivo:  = g(gradiente di E)  Termine di momento  Range degli stati da –1 a 1  Deviazioni dalla discesa più ripida  Variazioni nell'architettura (numero di strati nascosti)  Inserimento di connessioni all'indietro  Tasso di apprendimento adattivo:  = g(gradiente di E)  Termine di momento  Range degli stati da –1 a 1  Deviazioni dalla discesa più ripida  Variazioni nell'architettura (numero di strati nascosti)  Inserimento di connessioni all'indietro

46 46 09/09/2014 Retropropagazione dell'errore Il tasso di apprendimento  grande, rischio di comportamento oscillatorio  piccolo, apprendimento lento  grande, rischio di comportamento oscillatorio  piccolo, apprendimento lento Strategie di identificazione della architettura ottimale Rete grande apprende facilmente, ma generalizza male A partire da una rete grande tolgo neuroni nascosti, se valuto che può continuare ad apprendere anche con meno neuroni Rete piccola apprende con difficoltà, ma generalizza bene A partire da una rete piccola aggiungo neuroni nascosti, se la discesa della funzione E é troppo lenta o bloccata A partire da una ipotesi iniziale di rete, aumento o diminuisco i nodi nascosti, secondo criteri misti Rete grande apprende facilmente, ma generalizza male A partire da una rete grande tolgo neuroni nascosti, se valuto che può continuare ad apprendere anche con meno neuroni Rete piccola apprende con difficoltà, ma generalizza bene A partire da una rete piccola aggiungo neuroni nascosti, se la discesa della funzione E é troppo lenta o bloccata A partire da una ipotesi iniziale di rete, aumento o diminuisco i nodi nascosti, secondo criteri misti

47 47 09/09/2014 Retropropagazione dell'errore Il ruolo dell'integrazione in presenza di connessioni con ritardo q l'input netto é: la funzione E é calcolata pesando l'errore nel tempo: nel calcolo delle derivate occorre aggiungere variabili ausiliarie in presenza di connessioni con ritardo q l'input netto é: la funzione E é calcolata pesando l'errore nel tempo: nel calcolo delle derivate occorre aggiungere variabili ausiliarie Inserimento di connessioni all'indietro la rete può integrarsi con moduli tradizionali, sfruttando tutte le informazioni simboliche e le sinergie che vi possono essere

48 48 09/09/2014 Come lavorare con la retropropagazione B.P. al lavoro Come evitare i minimi locali? Quanto è lungo il tempo di apprendimento? Come scegliere  ? Nessuna risposta teoretica, solo risultati di simulazione Come evitare i minimi locali? Quanto è lungo il tempo di apprendimento? Come scegliere  ? Nessuna risposta teoretica, solo risultati di simulazione

49 49 09/09/2014 Come lavorare con la retropropagazione Esempio: Funzione Logistica unità output unità nascosta Il ruolo dell'integrazione l Troppo grande: oscillazione l Troppo piccolo: apprendimento lento l Troppo grande: oscillazione l Troppo piccolo: apprendimento lento

50 50 09/09/2014 Il problema XOR Soluzione 1 y x2x2 x1x1 x

51 51 09/09/2014 Il problema XOR Logistic function  = cicli Output ≤ 0.1 per 0 ≥ 0.9 per 1 ~ 0 ~ 1 ~ 0 ~ 1

52 52 09/09/2014 Il problema XOR Soluzione 2 Minimo locale!!!! Output 0.5 per input 11 e presentazioni,  =

53 53 09/09/2014 Il problema XOR APPRENDIMENTO NEL PRECETTRONE GEN. INPUT OUTPUT INIZ. OUTPUT DOPO 250 CICLI (1 CICLO) (  =.1)

54 54 09/09/2014 Il problema XOR Difficoltà di classificazione

55 55 09/09/2014 Il problema XOR N.B.Non c'è una soluzione corretta a cui convergere, perché la soluzione cambia al variare dell'ambiente! Necessità di feedback dall'ambiente, per un adattamento continuo.

56 56 09/09/2014 Le reti di Hopfield  n neuroni binari a soglia u i  connessione completa con pesi simmetrici T ij  evoluzione della rete verso uno stato stabile, a partireda uno stato iniziale assegnato  aggiornamento sequenziale casuale con equidistribuzione di probabilità Teorema : La rete converge a uno stato stabile, che é minimo globale o locale della funzione energia: Dimostrazione : E decresce o resta invariata ad ogni aggiornamento. Se si aggiorna u i a u' i si ha la variazione di energia: Se Dimostrazione : E decresce o resta invariata ad ogni aggiornamento. Se si aggiorna u i a u' i si ha la variazione di energia: Se

57 57 09/09/2014 Le reti di Hopfield In altre parole, si cambia stato solo se ciò comporta una diminuzione di energia. Stati stabili sono gli stati di minima energia, in cui E non é abbassata da modifiche di nessuna delle variabili u i COMPUTAZIONE: Si bloccano i valori di alcune unità (input) Si lascia evolvere la rete fino all'equilibrio Si leggono e interpretano i valori di alcune unità (output) Il meccanismo probabilistico e l'esistenza di più minimi locali possono portare a risultati diversi in diverse esecuzioni.

58 58 09/09/2014 Macchina di Boltzmann  Rete di neuroni binari che usa la tecnica dell'annealing simulato per modificare le connessioni interne  Funzione obiettivo (bilineare):  Matrice di connessione simmetrica  No auto connessioni  Aggiornamento neuroni casuale  Funzione di attivazione sigmoidale casuale governata dalla seguente probabilità di transizione da s a s' ove s é contiguo a s' sse la loro distanza di Hamming é 1

59 59 09/09/2014 Macchina di Boltzmann  processo  stocastico che, all'equilibrio, concentra la probabilità nella regione critica M per V, in base alla legge di distribuzione ove é una costante di normalizzazione Procedure: MACCHINA DI BOLTZMANN External function: stopping_rule BEGIN prendi una configurazione iniziale s  {0,1} REPEAT calcola V = V(s) prendi uniformemente un i in {1,2,...,n} (scelta di un vettore prossimo) calcola V' = V(s) IF exp(–b(V–V')) > random [0,1) THEN flip si UNTIL stopping_rule é verificata END

60 60 09/09/2014 Apprendimento nelle B.M. Si impara una buona approssimazione della distribuzione di probabilità condizionale sull'insieme di coppie (input, output) 1.Fase positiva Blocco unità di input e di output Evoluzione verso l'equilibrio termico Incremento del peso tra unità contemporaneamente attive (Hebb) 2.Fase negativa Blocco unità di input Evoluzione verso l'equilibrio termico Decremento del peso tra unità contemporaneamente attive Elimina il rischio di saturazione dei pesi sinaptici

61 61 09/09/2014 Reti neurali e apprendimento  Il "programma" di una rete neurale è rappresentato dai pesi sinaptici  E' impossibile "programmare" direttamente reti complesse per svolgere un certo compito  D.O. Hebb, 1949: Apprendimento = modifica pesi sinaptici Se due neuroni connessi sono per più volte di seguito contemporaneamente attivi, il peso della sinapsi aumenta  La regola di Hebb è una regola non formalizzata. Inoltre i pesi vengono solo aumentati  Una possibile formalizzazione (Sutton, 1981)

62 62 09/09/2014 Reti neurali e apprendimento Apprendimento: capacità della rete ad autoorganizzarsi in una topologia che esibisce le caratteristiche desiderate (cambiamento nel comportamento che deriva dall'attività, dall'addestramento o dall'osservazione) Principali metodi di apprendimento: 1. Apprendimento con supervisione noti ingresso e uscita corrispondente i pesi sono modificati per produrre l'uscita migliore 1. Apprendimento con supervisione noti ingresso e uscita corrispondente i pesi sono modificati per produrre l'uscita migliore 2. Apprendimento rinforzato non è data l'uscita corretta viene detto se l'uscita prodotta é buona o cattiva 2. Apprendimento rinforzato non è data l'uscita corretta viene detto se l'uscita prodotta é buona o cattiva 3. Apprendimento senza supervisione La rete sviluppa le proprie regole di classificazione mediante l'estrazione di informazioni dagli esempi ricevuti 3. Apprendimento senza supervisione La rete sviluppa le proprie regole di classificazione mediante l'estrazione di informazioni dagli esempi ricevuti

63 63 09/09/2014 Apprendimento da esempi Input: una sequenza di coppie (argomento, valore) da una funzione f Output: un programma (o una rete neurale) che computa la funzione Approcci  Apprendimento induttivo (Solomonov, Goodman, Blum) [Risultati asintotici]  Apprendimento computazionale (Valiant, Blumer, Natarajan) [ Risultati probabilistici]  Apprendimento con reti neurali (Hinton, Kohonen, Seinowskj) Approcci  Apprendimento induttivo (Solomonov, Goodman, Blum) [Risultati asintotici]  Apprendimento computazionale (Valiant, Blumer, Natarajan) [ Risultati probabilistici]  Apprendimento con reti neurali (Hinton, Kohonen, Seinowskj)

64 64 09/09/2014 Apprendere come ? Data una funzione (ignota) f: X  Y Estrarre un campione e sottoporlo a una rete neurale Cercare la rete neurale che simula f Data una funzione (ignota) f: X  Y Estrarre un campione e sottoporlo a una rete neurale Cercare la rete neurale che simula f Il compito La strategia di apprendimento Minimizzare una opportuna funzione della differenza E tra il comportamento effettivo della rete e quello che si accorderebbe col campione Le tecniche di minimizzazione Discesa lungo il gradiente (rispetto ai pesi) La valutazione dell'apprendimento Per generalizzazione della funzione appresa a nuovi esempi mai visti dalla rete

65 65 09/09/2014 Apprendere come ? generatore dei parametri iniziali della rete generatore di esempi RETE NEURALE + modulo di confronto modulo di calcolo del gradiente x y z W W' WW

66 66 09/09/2014 Alcune applicazioni Filtri adattivi per telecomunicazioni 1959 B. Widrow ADALINE Valutazione rischi per mutui e prestiti Nestor Mortgage Risk Evaluator Training su qualche migliaio di casi Individua pattern di dati associati a forte rischio Può essere configurato come prudente o ottimista Confronto con esperto umano promettente Individuazione di esplosivi SAIC SNOOPE Riconosce il pattern di emissioni gamma di esplosivi Reagisce a poco più di un kg di esplosivo Installato al JFK di NY – Costo: 1.1 M$ Prevista l'installazione in altri grandi aeroporti

67 67 09/09/2014 Alcune applicazioni Monitoraggio di processo GTE Produzione lampadine Confronta dati da sensori con gli standard (variaz. di temperatura, pressione, sostanze chimiche) Determina condizioni di produzione ottimali Vantaggi su tecniche statistiche (regressione lineare): raccolta dati incrementale, meno memoria Riconoscimento parlato Intel Accuratezza 99% su un centinaio di parole da un solo speaker Usato per registrare relazioni di ispettori Individuazione prodotti difettosi Siemens Impianti condizionamento per auto rumorosi Accuratezza 90%

68 68 09/09/2014 Prototipi e ricerca Classificazione segnali sonar Bendix Aerospace Distingue mine da rocce o altri oggetti sul fondo marino Accuratezza 99.8% su dati training, 90% su nuovi dati Riconoscimento sequenze DNA Riconoscimento scrittura manuale (indirizzi) Ottimizzazione prenotazioni e tariffe aeree Lettura assegni Analisi dati clinici (ECG, EEG)

69 69 09/09/2014 Prototipi e ricerca Movimento di un braccio flessibile

70 70 09/09/2014 Prototipi e ricerca Controllo degli angoli di un satellite geostazionario


Scaricare ppt "1 09/09/2014 LE RETI NEURALI: MODELLI, ALGORITMI E APPLICAZIONI Giancarlo Mauri Università di Milano - Bicocca."

Presentazioni simili


Annunci Google