La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

PROGETTO E TRAINING DI MLP. Principali aspetti da considerare: efficienza e controllo del learning criterio derrore topologia della rete TOPOLOGIA Lerrore.

Presentazioni simili


Presentazione sul tema: "PROGETTO E TRAINING DI MLP. Principali aspetti da considerare: efficienza e controllo del learning criterio derrore topologia della rete TOPOLOGIA Lerrore."— Transcript della presentazione:

1 PROGETTO E TRAINING DI MLP

2 Principali aspetti da considerare: efficienza e controllo del learning criterio derrore topologia della rete TOPOLOGIA Lerrore si attenua da uno strato allaltro Si parte dal perceptron; se questo non risolve il problema Si passa alla MLP con uno strato nascosto infine Si passa alla MLP con due strati nascosti Poiché una MLP con 2 strati nascosti è un approssimatore universale raramente si dovranno usare reti con più di due strati nascosti PT-1

3 CONTROLLO DEL LEARNING Pesi iniziali Tasso di learning Algoritmo di ricerca dellottimo Criterio darresto È inoltre cruciale la qualità e quantità dei dati di training Pesi iniziali - Non vi sono molti lavori in letteratura Regola pratica: pesi random; occorre fare più run Tasso di learning: annealing Es: - da determinare sperimentalmente Lannealing migliora la convergenza ed evita lintrappolamento nei minimi locali. Regola empirica: incrementare dallo strato duscita allingresso di un fattore da 2 a 5 da strato a strato PT-2

4 LA SCELTA DI UN LEARNING RATE UGUALE PER TUTTI I NODI È DETTATA DALLA SEMPLICITÀ IMPLEMENTATIVA Teoricamente: va scelto in accordo con il valore dellautovalore per la specifica direzione di ricerca Praticamente: difficilmente realizzabile Soluzione alternativa: adattamento dinamico per ciascun peso REGOLA DI ADATTAMENTO DELTA-BAR-DELTA altrimenti S ij : media dei gradienti precedenti D ij : gradiente corrente Se S ij e D ij hanno lo stesso segno il loro prodotto è >0 e è incrementata di una costante Se il prodotto è negativo cè unoscillazione dei pesi e deve essere decrementato TUTTI QUESTI SCHEMI AUMENTANO I PARAMETRI LIBERI TUNING PIÙ DIFFICOLTOSO PT-3

5 COMPETIZIONE DEI NEURONI NON LINEARI Le non linearità agiscono come meccanismi di competizione che permettono ai diversi neuroni di specializzarsi in differenti aree dello spazio degli ingressi Somma degli errori pesati provenienti dallo strato successivo Attività locale Derivata della non linearità Errore locale Differenti neuroni nascosti con diversi punti di funzionamento (valore di net) producono un aggiornamento dei pesi molto diverso PT-4

6 PROCEDURE DI RICERCA Ricerca locale estrema semplicità minimi locali divergenza maggior potenza minimi locali divergenza maggior costo computazionale Ricerca globale - Simulated Annealing - Algoritmi Genetici - Tabu Search - Metodi del gradiente: - Metodi del II°ordine: Costosi in termini implementativi; costosi in termini di memoria richiesta; richiedono quantità non locali; minimo globale LA TENDENZA È QUELLA DI UTILIZZARE TECNICHE CHE MIGLIORANO LE PRESTAZIONI DEL METODO DI BASE DEL GRADIENTE DISCENDENTE SIA LMS CHE EBP USANO UNA STIMA DEL GRADIENTE SI PUÒ MIGLIORARE QUESTA ESPRESSIONE PER ADEGUARSI A SUPERFICI DI PRESTAZIONE NON CONVESSE PT-5

7 SUPERFICI DI PRESTAZIONE

8 Espansione in Serie di Taylor Fx Fx xd d Fx xx = xx – += x 2 2 d d Fx xx = xx – n! x n n d d Fx xx = xx – n ++ Sia F(x) una funzione analitica tale che esistano tutte le sue derivate: Essa puo essere rappresentata dalla sua espansione in serie di Taylor nellintorno di un punto x* Possiamo approssimare la F(x) troncando la serie ad un numero finito di termini SP-1

9 Esempio Approssimazioni della serie di Taylor : Serie di Taylor di F(x) nellintorno di x* = 0 : SP-2

10 Grafico delle Approssimazioni SP-3

11 Le tre approssimazioni sono accurate se x e vicino a x* Se x si allontana da x* lapprossimazione migliora allaumentare del numero di termini. Infatti i termini sono moltiplicati per potenze crescenti di (x-x*) e man mano che x si avvicina a x* questi termini diventano geometricamente piu piccoli SP-4

12 Caso Vettoriale SP-5

13 Forma Matriciale F x F x F x T xx = xx – += xx – T F x xx = xx – 2 ++ F x x 1 F x x 2 F x x n F x = GradienteHessiano SP-6

14 Derivate Direzionali Derivata prima (pendenza) di F(x) lungo lasse x i : Derivata seconda (curvatura) di F(x) lungo lasse x i : (isimo elemento del gradiente) (elemento i,i dellHessiano) p T F x p Derivata prima (pendenza) di F(x) lungo il vettore p: Derivata seconda (curvatura) di F(x) lungo il vettore p: p T F x 2 p p Se vogliamo la derivata lungo una qualunque direzione p: SP-7

15 Esempio Si ottiene derivata nulla se la direzione p e ortogonale al gradiente Si ha pendenza massima quando la direzione p e quella del gradiente SP-8

16 Grafici x1x1 x1x1 x2x2 x2x Derivate direzionali SP-9

17 Minimi Il punto x* e un strong minimum di F(x) se esiste uno scalare > 0, tale che F(x*) < F(x* + x) per tuttti i x tali che > || x|| > 0. Strong Minimum Il punto x* e un unico global minimum di F(x) se F(x*) < F(x* + x) per tutti i x 0. Global Minimum Il punto x* e un weak minimum di F(x) se non e un strong minimum, e esiste uno scalare > 0, tale che F(x*) F(x* + x) per tutti i x tali che > || x|| > 0. Weak Minimum SP-10

18 Esempio Scalare Strong Minimum Strong Maximum Global Minimum SP-11

19 Esempio Vettoriale SP-12

20 Condizioni di Ottimalità del Primo-Ordine F x F x x + F x F x T xx = x +== x T F x xx = x 2 ++ Per piccoli x: Se x* e un minimo, questo implica: Seallora Ma questo implicherebbe che x* non e un minimo. Quindi: Poiche questo deve essere vero per ogni x, SP-13

21 Condizioni del Secondo-Ordine Un strong minimum esisterà in x* se Per ogni x 0. La matrice Hessiana deve essere definita positiva. Una matrice H e positiva definita se: z T Hz 0 Una condizione necessaria e che la matrice Hessiana sia semidefinita positiva. Una matrice H e semidefinita positiva se: z T Hz 0 Se la condizione del primo-ordine e soddisfatta (gradiente nullo), allora: Per qualunque z 0. Per qualunque z. Questa e una condizione sufficiente per lottimalità. SP-14

22 Esempio F x x 1 2 2x 1 x 2 2x 2 2 x 1 +++= (Non una funzione di x in questo caso.) Se gli autovalori della matrice Hessiana sono tutti maggiori di zero, la matrice Hessiana e positiva definita. Entrambi gli autovalori sono positivi, quindi strong minimum. SP-15

23 Funzioni Quadratiche 1 F x x T Axd T x c ++= x T Qx QxQ T x +2 Qx (per Q simmetrica)== F x Axd += F x 2 A = Utili proprietà del gradiente: Gradiente e Hessiano: Gradiente di una funzione quadratica: Hessiano di una funzione Quadratica : (A simmetrica) SP-16

24 1 F x x T Hxd T x c ++= Forma quadratica Tutte le derivate di ordine superiore al secondo della F(x) sono nulle. Quindi i primi tre termini della serie di Taylor forniscono una rappresentazione esatta della funzione quadratica Spesso la funzione costo utilizzata e quadratica. Quando non lo fosse, spesso può essere approssimata con una funzione quadratica in un intorno piccolo, specialmente vicino a un minimo. Se || x|| e piccolo, tutte le funzioni analitiche si comportano come quadratiche in un piccolo intorno. SP-17

25 Autovalori e autovettori di H F x x T Hx = Consideriamo una funzione quadratica che ha un punto di stazio- narietà nellorigine, e il cui valore sia zero. H'B T HB n === Usiamo gli autovettori di H come nuova base e operiamo un cambia- mento di base. Poiche H e simmetrica, i suoi autovettori sono ortogonali, e linversa coinciderà con la trasposta. HB B T = SP-18

26 Derivata seconda direzionale p T F x 2 p p p T Hp p = Dove c e la rappresentazione di p rispetto agli autovettori (nuova base): c T B T B B T Bc c T B T Bc c T c c T c i c i 2 i1= n c i 2 i1= n === Possiamo utilizzare il concetto di derivata direzionale per spiegare il significato fisico degli autovalori e autovettori di H e come essi de- terminano la forma della superficie di una funzione quadratica La derivata seconda di F(x) lungo la direzione p e: p p T H p SP-19

27 La derivata seconda secondo p e una media pesata degli autovalori e quindi non può essere più grande del maggior autovalore o più piccola del minor autovalore, quindi: p T Hp min p max Se scegliamo (cioe lautovettore associato al massimo autovalore) Allora il vettore c e: cB T pB T z max === Posizione corrispondente a max SP-20

28 Autovettori (Massimo Autovalore) max Il valore unitario e in corrispondenza a z max T Hz max z max i c i 2 i1= n c i 2 i1= n == max poiche gli autovettori sono ortonormali. Sostituendo a p z max Gli autovalori rappresentano la curvatura (derivate seconde) lungo gli autovettori (gli assi principali). Il massimo della derivata seconda si ha in direzione dellautovettore corrispondente allautovalore piu grande. SP-21

29 Esempio: Circular Hollow (In realtà in questo caso qualunque coppia di vettori indipendenti possono essere autovettori) Poiche gli autovalori sono uguali la curvatura deve essere la stessa in tutte le direzioni e la funzione ha linee di contorno circolari SP-22

30 Esempio: Elliptical Hollow (gli autovettori non sono univoci, essi possono essere moltiplicati per uno scalare) In questo caso il massimo della curvatura e in direzione di z 2 SP-23

31 Esempio: Autovalori di segno opposto F x x 1 2 – x 1 x 2 – x 2 2 – x T 0.5–1.5– –0.5– x == LHessiano e indefinito. Il punto di stazionarietà e una sella, e un minimo lungo il primo autovettore e un massimo lungo il secondo SP-24

32 Esempio: Valle stazionaria F x x 1 2 x 1 x 2 – x x T 11– 1–1 x == Il secondo autovalore e nullo. Ci sarà una curvatura nulla lungo il secondo autovettore. SP-25

33 OTTIMIZZAZIONE DELLE PRESTAZIONI

34 Algoritmo di ottimizzazione di base x k1+ x k k p k += x k x k1+ x k – k p k == p k - Direzione di ricerca k - Learning Rate o Step size o x k x k1+ k p k Schema iterativo Trovare il minimo di una funzione obiettivo Gli algoritmi che vedremo si distinguono per la scelta della direzione di ricerca. OP-1

35 Steepest Descent xx F k1+ F k Scegliere il passo successivo in modo che la funzione decresca: F x k1+ F x k x k + F x k g k T x k + = Per piccoli cambiamenti nella x si puo approssimare F(x): g k F x xx k = dove g k T x k k g k T p k 0 = Se vogliamo che la funzione decresca: Possiamo massimizzare il decremento scegliendo: x k1+ x k k g k –= OP-2

36 Esempio F x x x 1 x 2 2 x 2 2 x 1 +++= 0.1= x 1 x 0 g 0 – – 0.2 === x 2 x 1 g 1 – – === OP-3

37 Grafico Per valori bassi di la traiettoria e sempre perpendicolare alle linee di contorno Se incrementassimo per es. a 0.035, la traiettoria oscillerebbe. Al crescere di le oscillazioni aumentano in ampiezza e lalgoritmo diventa instabile. OP-4

38 Stabilizzazione del Learning Rate (Quadratico) 1 F x x T Hxd T x c ++= F x Hxd += x k1+ x k g k – x k Hx k d + –== 1 i – 1 2 i max x k1+ I H – x k d –= La stabilità e determinata dagli autovalori di questa matrice, che devono avere ampiezza minore dellunità I H – z i z i Hz i – z i i z i –1 i – z i === Autovalore di [I - H]. Requisiti per la stabilità dellalgoritmo steepest descent: ( i - autovalore di H) Non ce un metodo sistematico per trovare per qualunque tipo di funzione. Per funzioni quadratiche si ha un limite superiore. Poiche: OP-5

39 Esempio 2 max == 0.37= 0.39= OP-6

40 Minimizzazione lungo una linea xp + F k kk d d k F x k k p k + () F x T xx k = p k k p k T F x 2 xx k = p k += H k F x 2 xx k = dove Per funzioni quadratiche si puo trovare la soluzione analiticamente Line Search Si puo usare un metodo detto Line Search Un altro approccio per scegliere il learning rate e quello di minimizzare F rispetto a k a ciascuna iterazione cioe: Scegliere k per minimizzare: OP-7

41 Esempio – 3– 3–3– – 3– –0.2== x 1 x 0 0 g 0 – – 0.1– – === OP-8

42 Grafico I passi successivi sono ortogonali: Infatti, quando minimizziamo lungo una linea dobbiamo sempre fermarci in un punto tangente a una linea di contorno. Allora, poiche il gradiente e ortogonale alle linee di contorno, il successivo passo, che e lungo il gradiente negativo, sarà ortogonale al precedente percorso. k d d F x k k p k + k d d F x k1+ F x T xx k1+ = k d d x k k p k + == F x T xx k1+ = p k g k1+ T p k == OP-9

43 Metodo di Newton F x k1+ F x k x k + F x k g k T x k x k T H k x k ++ = g k H k x k + 0 = Per trovare il punto di stazionarietà si prenda il gradiente di questa approssimazione del secondo-ordine e si ponga uguale a zero: x k H k 1– – g k = x k1+ x k H k 1– g k –= E basato sulla serie di Taylor del secondo ordine OP-10

44 Esempio H = Trova il minimo in un passo OP-11

45 Grafico Se la funzione originaria e quadratica sarà minimizzata in un passo OP-12

46 Metodo di Newton Se la funzione originaria non e quadratica non si avrà, in generale, la convergenza in un passo. Inoltre non si ha la sicurezza neanche della convergenza poiché essa dipende sia dalla funzione sia dal punto iniziale. Esempio non-quadratico Tale funzione ha tre punti di stazionarietà: due minimi e una sella Punti di stazionarietà: OP-13

47 Esempio non-quadratico F(x)F(x)F2(x)F2(x) Se partiamo dal punto iniziale x = La prima iterazione non porta a convergenza. Il metodo di Newton si intrappola nei minimi locali OP-14

48 Condizioni iniziali differenti F(x)F(x) F2(x)F2(x) OP-15

49 Sommario Sebbene generalmente abbia una convergenza più veloce dei metodi steepest descent, il metodo di Newton presenta un comportamento più complesso Si può avere convergenza su un punto di stazionarietà che non e un minimo, o si può non avere convergenza. Si può avere un comportamento oscillatorio Il metodo di Newton richiede il calcolo e limmagazzinamento della matrice Hessiana e della sua inversa Spesso il calcolo dellHessiano e impraticabile, specie per le reti neurali dove, nei casi pratici, gli elementi, cioè i pesi sinattici, possono essere dalle centinaia alle svariate migliaia. Occorrerebbero metodi con terminazione quadratica ma che richiedessero solo derivate prime OP-16

50 Metodo del gradiente coniugato 1 F x x T Hxd T x c ++= p k T Hp j 0= kj Un insieme di vettori {p k } e mutuamente coniugato rispetto a una matrice Hessiana H definita positiva se e solo se: Un possibile insieme di vettori coniugati sono gli autovettori di H. z k T Hz j j z k T z j 0 kj == (Gli autovettori di matrici simmetriche sono ortogonali.) Funzione quadratica: Esiste un numero infinito di insiemi mutuamente coniugati in uno spazio n-dimensionale dato Si puo mostrare che se effettuiamo una sequenza di ricerche lineari lungo qualunque set di direzioni coniugate {p 1,..,p n }, il minimo esatto di qualunque funzione quadratica, con n parametri, si raggiunge in al più n ricerche. Come costruire queste direzioni coniugate? OP-17

51 Per funzioni quadratiche F x Hxd += F x 2 H = g k g k1+ g k – Hx k1+ d + Hx k d + – Hx k === x k x k1+ x k – k p k == k p k T Hp j x k T Hp j g k T p j 0=== kj La modifica nel gradiente alliterazione k e dove Le condizioni per la coniugazione possono essere riscritte: Questo non richiede la conoscenza della matrice Hessiana. 1 F x x T Hxd T x c ++= p k T Hp j 0= kj Da a OP-18

52 Costituzione delle direzioni coniugate p k g k – k p k1– += Scegliere la direzione di ricerca iniziale come il negativo del gradiente. Scegliere le successive direzioni in modo che siano coniugate. Per la scelta della scalare k vi sono differenti proposte Le direzioni di ricerca saranno coniugate se sono ortogonali alle modifiche del gradiente. La prima direzione di ricerca e arbitraria. Una scelta molto comune e di iniziare la ricerca nella direzione della discesa più ripida, cioè: OP-19

53 Hestenes-Steifel Fletcher-Reeves Polak-Ribiere Scelte possibili OP-20

54 Algoritmo del gradiente coniugato F x T p k xx k = kkkk k xx k = k p T F x 2 p – g k T p k p T Hp –== (Per funzioni quadratiche.) 1. La prima direzione di ricerca e il negativo del gradiente 2. Selezionare il learning rate per minimizzare lungo la linea. 4. Selezionare la successiva direzione di ricerca usando: 5. Se lalgoritmo non va a convergenza, ritornare al passo 2. Una funzione quadratica sarà minimizzata in n passi. 3. Fare un passo x k = k p k OP-21

55 Esempio – 3– 3–3– – 3– –0.2== x 1 x 0 0 g 0 – – 0.1– – === OP-22

56 Esempio – 0.72– – – – 0.72– –1.25=== OP-23

57 Grafici Gradiente coniugatoSteepest Descent x 2 x 1 1 p – – – – 0.5 === OP-24

58 VARIAZIONIDELBACKPROPAGATION

59 Variazioni Modifiche euristiche –Momentum –Learning Rate variabile Ottimizzazione numerica standard –Gradiente coniugato –Metodo di Newton (Levenberg-Marquardt) LEBP e troppo lento per la maggior parte delle applicazioni. VP-1

60 Esempi di superfici di prestazione Architettura di rete Diamo alla rete un problema di cui conosciamo la soluzione: approssimare una funzione che non e altro che la risposta della stessa rete per un assegnato set di valori dei pesi e dei bias VP-2

61 Esempi di superfici di prestazione Valori dei parametri Risposta desiderata Si vuole allenare la rete per approssimare la funzione in figura. Lapprossimazione sarà esatta per il valore dei parametri su riportato. Sia noto il valore della funzione in un certo numero di punti di campionamento. La funzione costo sia il MSE calcolato in tali punti. VP-3

62 Errore quadratico vs. w 1 1,1 e w 2 1,1 w 1 1,1 w 2 1,1 w 1 1,1 w 2 1,1 Gli altri parametri sono settati al loro valore ottimo. Il cerchio blu indica il minimo errore pari a zero per w 1 1,1 = 10 e w 2 1,1 =1 VP-4

63 Errore quadratico vs. w 1 1,1 e b 1 1 w 1 1,1 b11b11 b11b11 Gli altri parametri sono settati al loro valore ottimo. Il cerchio blu indica il minimo errore pari a zero per w 1 1,1 = 0 e b 1 1 = -5 VP-5

64 Errore quadratico vs. b 1 1 e b 1 2 b11b11 b21b21 b21b21 b11b11 Gli altri parametri sono settati al loro valore ottimo. Il cerchio blu indica il minimo errore in b 1 1 = -5 e b 1 2 = 5 VP-6

65 Considerazioni Vi sono delle simmetrie nelle MLP che fanno sì che lo zero sia un punto di stazionarietà della funzione obiettivo. E buona norma non settare il valore iniziale dei parametri a zero. E buona norma non settare il valore iniziale dei parametri a valori troppo grandi. Questo perché la funzione costo tende ad avere regioni molto piatte lontano dal punto ottimo. E buona norma settare il valore iniziale dei parametri a piccoli valori random. E buona norma provare differenti scelte di valori iniziali per aumentare la probabilità di convergenza al minimo globale. VP-7

66 Esempio di convergenza w 1 1,1 w 2 1,1 a b Traiettoria a: si ha convergenza al minimo globale ma la convergenza e lenta a causa del cambio di curvatura. Un valore alto del learning rate aumenterebbe la velocità di convergenza nelle regioni piatte, ma provocherebbe la instabilità dellalgoritmo quando si cada in una valle. Traiettoria b: intrappolamento in un minimo locale. VP-8

67 Learning Rate troppo alto w 1 1,1 w 2 1,1 VP-9

68 Commenti Si e notato che quando lalgoritmo comincia a divergere la traiettoria di ricerca comincia a oscillare attraverso la stretta valle. Se si potesse filtrare la traiettoria mediando gli aggiornamenti dei parametri, questo potrebbe smorzare le oscillazioni e produrre oscillazioni stabili. Questo puo essere fatto con un filtro passa-basso. VP-10

69 Usa la memoria, cioè lincremento passato del peso, per accelerare e stabilizzare la convergenza I pesi vengono modificati proporzionalmente a quanto essi sono stati cambiati nellultima iterazione Se ci si trova in un minimo locale o in una zona piatta i pesi vengono ancora modificati, non a causa del gradiente (nullo) ma perché cè una modifica dei pesi alliterazione precedente Metodo robusto - Accelera lapprendimento Se ne consiglia luso per reti con non-linearità gradiente discendente 1 2,3,... gradiente discendente con momentum VP-12 MOMENTUM LEARNING

70 Momentum :Esempio w 1 1,1 w 2 1,1 0.2= Con luso del momentum si e potuto usare un learning rate più alto mantenendo la stabilità dellalgoritmo VP-13

71 Learning Rate Variabile (VLBP) Se lerrore quadratico (sullintero training set) cresce più di una certa percentuale fissata da a dopo un aggiornamento dei pesi, allora laggiornamento non viene fatto, il learning rate viene moltiplicato per un fattore (1 > > 0), e il coefficiente momentum e settato a zero. Se lerrore quadratico decresce dopo un aggiornamento dei pesi, allora laggiornamento viene accettato e il learning rate viene moltiplicato per un fattore >1. Se era stato precedentemente posto a zero, viene resettato al suo valore originale. Se lerrore quadratico cresce meno di, allora laggiornamento dei pesi viene accettato, ma il learning rate e il coefficiente momentum non vengono modificati. VP-14

72 Esempio w 1 1,1 w 2 1,1 1.05= VP-15

73 Tecniche di ottimizzazione numerica Riformulazione con sole informazioni locali Approssimazione della funzione costo J(w) nel punto operativo w 0 Sviluppo in serie di Taylor di J intorno a w 0 : dove: gradiente Hessiano matrice delle derivate seconde i cui elementi sono: NOTA: lhessiano non può essere calcolato con sole informazioni locali Deriviamo J rispetto ai pesi: Poiché la superficie di prestazione tende ad essere quadratica intorno al minimo, normalmente possiamo fermarci solo al primo e al secondo termine dellespressione VP-16

74 Se usiamo solo il primo termine metodi del primo ordine: metodi del gradiente gradiente stimato come il suo valore in w 0 Se usiamo anche il secondo termine metodi del secondo ordine: metodi di Newton Uguagliando a zero lespressione troncata: Vantaggi: se la funzione è quadratica si ottiene la convergenza nel minimo globale in un numero finito di passi (spesso 1 passo) Svantaggi: massiccio uso di memoria e di tempo di calcolo per linversione di H 0 Complessità: O( N 3 ) N: numero dei pesi Una rete neurale può avere migliaia di pesi lhessiano milioni di termini Soluzione Metodi di approssimazione dellhessiano: Metodi LINE SEARCH Metodi PSEUDO-NEWTON VP-17

75 METODI PSEUDO NEWTON IDEA BASE: fornire approssimazioni dellhessiano ragionevoli e facili da calcolare A) Considerare i soli termini diagonali di H si usa un algoritmo di Newton separatamente per ciascun peso: B) Generalmente questa regola è sostituita dalla: Piccola costante che evita i problemi legati a curvature negative o a denominatori nulli A) e B) danno approssimazioni poco accurate APPROSSIMAZIONI PIU ACCURATE MA POCO COSTOSE: –LEVEMBERG-MARQUARD (LM) –DAVIDSON - FLETCHER - POWELL (DFP) –BROYDEN - FLETCHER - GOLDFARB - SHANNO (BFGS) VP-19

76 Metodo di Newton w k1+ w k H k 1– g k –= H k J w 2 ww k = g k J w ww k = Se la funzione costo e una somma di funzioni quadratiche: J w e i 2 w i1= N e T w ew == Allora il j-esimo elemento del gradiente e: J w j J w w j e i w e i w w j i1= N == VP-27

77 Forma Matriciale J w 2 T w ew = Il gradiente puo essere scritto in forma matriciale: dove e la matrice Jacobiana: x e 1 w 1 w e 1 w w e 1 w n w e 2 w 1 w e 2 w w e 2 w w n e N w w e N w w e N w w n = VP-28

78 Hessiano 2 J w 2 2 T w w 2 Sw += Sw e i w e i w 2 i1= N = Lelemento k,j della matrice Hessiana e: La matrice Hessiana puo allora essere scritta nella seguente forma: dove VP-29

79 Metodo Gauss-Newton J w 2 2 T w w w k1+ w k 2 T w k w k 1– 2 T w k ew k –= w k T w k w k 1– T w k ew k –= Se assumiamo S(w) piccolo si approssima la matrice Hessiana come: Il metodo di Newton diventa: Sostituendo nella formula di aggiornamento dei pesi w k1+ w k H k 1– g k –= VP-30

80 Levenberg-Marquardt T H = GH I += Gauss-Newton approssima lHessiano come: Questa matrice potrebbe essere singolare, ma puo essere resa invertibile nel seguente modo: Gz i H I + z i H z i z i + i z i z i + i + z i ==== Se gli autovalori e autovettori di H sono: allora Autovalori di G w k1+ w k T w k w k k I + 1– T w k ew k –= G puo essere resa definita positiva incrementando sino a che i + >0 Questo porta allalgoritmo di Levenberg-Marquardt: VP-31

81 Aggiustamento di k Come k 0, LM diventa Gauss-Newton. w k1+ w k J T w k Jw k 1– J T w k ew k –= Come k, LM diventa Steepest Descent con piccolo learning rate. w k1+ w k 1 k J T w k ew k – w k 1 2 k J w –= Quindi, iniziare con k piccolo per usare Gauss-Newton e accelerare la convergenza. Se un passo non porta a J(w) inferiore, ripetere lo step con k piu alto fino a che J(w) e decrementato. J(w) deve comunque diminuire, poiche si compie uno step molto piccolo nella direzione steepest descent. VP-32

82 Esempio di LMBP Step w 1 1,1 w 2 1,1 VP-35

83 Traiettoria del LMBP w 1 1,1 w 2 1,1 VP-36

84 CRITERI DI STOP Non esistono indicatori diretti che misurano se la rete ha imparato il compito che ci si prefigge 1) Stop in base allerrore su training 2) Stop in base al decremento del MSE da uniterazione allaltra OVERFITTING 3) EARLY STOPPING o CROSS VALIDATION stop in base allerrore sul test set early stopping validation set training set iterazioni errore VALIDATION SET: normalmente il 10% del totale numero di training pattern Svantaggi: si riduce il numero di esempi utili per lallenamento e questo può essere un problema nelle applicazioni reali VP-37

85 DIMENSIONI DEL TRAINING SET A) (Haykin) B) regola empirica: N 10 W accettando unaccuratezza di classificazione del 90% QUALITA DEL TRAINING SET COPERTURA DELLO SPAZIO DEGLI INGRESSI Tecniche di estrazione di feature per ridurre le dimensioni dello spazio degli ingressi Si riducono le dimensioni della rete TECNICHE DI PRUNING ALTERNATIVA: TECNICHE DI PRUNING VP-38

86 CRITERIO DI ERRORE Generalmente:p intero Se p = 2 MSE L 2 Se p = 1 metrica di Manhattan Se p = intero finito (norma p) L p L : si considerano nulli tutti gli errori eccetto il più alto p = 0 : si usa semplicemente il segno dellerrore istantaneo VP-39


Scaricare ppt "PROGETTO E TRAINING DI MLP. Principali aspetti da considerare: efficienza e controllo del learning criterio derrore topologia della rete TOPOLOGIA Lerrore."

Presentazioni simili


Annunci Google