FILTRI ANALOGICI E DIGITALI Modulo del Corso Integrato di: Progetto di Circuiti per il Trattamento dei Segnali
SISTEMI ADATTATIVI
piuttosto che costruire il sistema con specifiche stabilite a priori, i dati esterni al sistema vengono utilizzati per settare i parametri nelle reti neurali supervisionate l’addestramento è condotto utilizzando un training set spesso costituito dalle coppie di valori d’ingresso e di uscita desiderata SA-1 FUNZIONE COSTO ALGORITMO DI TRAINING SISTEMA ADATTATIVO OUTPUT DESIDERATO ERRORE OUTPUTINPUT MODIFICA DEI PARAMETRI INTRODUCONO UN MODO INNOVATIVO DI CONCEPIRE IL PROGETTO: TRA I DIVERSI SISTEMI ADATTATIVI VI SONO LE RETI NEURALI:
PROGETTO DI UN SISTEMA ADATTATIVO Scelta della topologia Scelta del training set Scelta di un criterio per misurare le prestazioni del sistema Si conoscono topologie in grado di creare mappatori universali Si sanno implementare algoritmi di training Allo stato attuale IL CORSO È MIRATO AL TRATTAMENTO DEI SEGNALI CHE STA ALLA BASE DI MOLTE APPLICAZIONI INGEGNERISTICHE Modelli lineari Modelli non-lineari Modelli alternativi (es. neurali ) SA-2 Costruzione di un modello SISTEMA FISICO REALE MODELLO FORMALE PREDIZIONE Decodifica Misure
MODELLI LINEARI Un’alternativa consiste nel “fittare” i dati con un modello lineare REGRESSIONE LINEARE Raccolta dati: devono essere sufficienti devono contenere le informazioni principali devono essere liberi da rumore (tanto più quanto è possibile) d x x : input d : output desiderato Es. SA-3 ADALINE (Adaptive Linear Element) Processore elementare (PE) Adaline. Realizzazione hardware w b +1 xixi yiyi PE
Problema: ricavare w, b affinché la linea di fittaggio passi il più vicino possibile a tutti i punti PROGETTO TRADIZIONALE Metodo dei minimi quadrati: minimizzare la somma dei quadrati degli scostamenti CRITERIO DI OTTIMALITÀ: errore quadratico medio (MSE) N : numero d’osservazioni Minimizzazione per via analitica SA-4
Dimostrazione: Si può dimostrare che la linea di regressione passa per il punto: CENTROIDE DELLE OSSERVAZIONI SA-5
SVANTAGGIO: “TIME CONSUMING” per grossi insiemi di dati CALCOLO DELLE PRESTAZIONI DEL MODELLO L’MSE ha problemi di scala: se scaliamo i dati l’MSE cambia senza che cambi il modo con cui la retta fitta i dati COEFFICIENTE DI CORRELAZIONE r Allora il numeratore di r è la covarianza delle due variabili e il denominatore è il prodotto delle corrispondenti deviazioni standard È UNA PROPRIETÀ INSITA NEI DATI SA-6
r = 1 correlazione perfetta lineare positiva (x e d covariano) r = -1 correlazione perfetta lineare negativa r = 0 x e d sono scorrelate r 2 rappresenta la quantità di varianza presente nei dati e catturata da una regressione lineare ottima NOTA 1 Il metodo dei minimi quadrati può essere generalizzato per polinomi di grado superiore (quadratiche, cubiche, etc.) e si ottiene una REGRESSIONE NON LINEARE NOTA 2 Il metodo può essere esteso al caso di variabili multiple la retta di regressione diventa un iperpiano nello spazio delle SA-7
Il progetto di un sistema adattativo supervisionato si basa su: un sistema con parametri adattativi una risposta desiderata un criterio di ottimalità da minimizzare un metodo per calcolare i parametri ottimi UN SISTEMA ADATTATIVO ALLENATO SUL TRAINING SET POSSIEDE CAPACITÀ DI GENERALIZZARE Nel caso in esame il sistema è lineare con parametri w,b; il criterio di ottimalità è il MSE. Occorre trovare una procedura sistematica per la modifica dei parametri. Tale procedura è una procedura di ricerca del minimo di una funzione PROGETTO ADATTATIVO SA-8 SISTEMA ADATTATIVO LINEARE + MODIFICA DEI PARAMETRI (b, w) didi ii yiyi _ xixi d1d1 d2d2 didi b y x x1x1 x2x2 xixi y = wx + b
STEEPEST DESCENT METHOD Punto Iniziale J J mi n w(0) w* w(1) w Hp: b = 0 (rimuoviamo le medie di x e d ) La funzione obiettivo o costo è: Nel piano J-w è una parabola e viene chiamata SUPERFICIE DI PRESTAZIONE Il gradiente di J è un vettore che punta verso la direzione di massimo cambiamento e con ampiezza pari al coefficiente angolare della tangente alla curva J nel punto considerato SA-9
METODI DEL GRADIENTE Fanno uso delle informazioni relative al gradiente.Vantaggi: Il gradiente può essere calcolato localmente Il gradiente punta nella direzione di massimo cambiamento METODO DELLA DISCESA PIÙ RIPIDA La ricerca è condotta nella direzione opposta al gradiente 1. Calcolare J in un punto iniziale w(0) 2. Modificare w(0) proporzionalmente al gradiente negativo 3. Iterare la procedura precedente ( piccola costante) Se è piccolo la procedura converge a w * Spesso il gradiente non è noto esplicitamente Metodi di stima del gradiente Widrow (1960) propone un algoritmo basato sull’uso del valore istantaneo SA-10
METODO LEAST MEAN SQUARED (LMS) poiché Cioè si assume di rimuovere la sommatoria e definire la stima del gradiente al passo k come il suo valore istantaneo. Il metodo della discesa più ripida diventa: : STEPSIZE o LEARNING RATE Questo algoritmo effettua l’aggiornamento del peso w campione dopo campione: TRAINING ON LINE (o sequenziale) EPOCA: presentazione dell’intero campione degli ingressi SA-11
TRAINING BATCH Si calcolano i valori degli aggiornamenti durante un’epoca, si sommano questi valori e si apporta la modifica Vantaggi: si segue meglio il gradiente evitando traiettorie a zig-zag. Facilità di implementazione in parallelo NOTA: è buona norma rendere random l’ordine di presentazione del trainig set da un’epoca all’altra Svantaggi: maggior immagazzinamento di dati; facilità di intrappolamento in minimi locali (se esistenti) VALIDAZIONE / TESTING VALIDATION SET Se il decadimento delle prestazioni è inaccettabile è segno che la quantità e qualità dei dati nel trainig set è inadeguata SA-12
Coefficiente di correlazione nei sistemi adattativi Approssima r anche durante la procedura di adattamento CURVA DI LEARNING : tasso di learning (scelto dal progettista) Se è troppo piccolo convergenza lenta Se è troppo grande può divergere Si può cercare un modo per calcolare il massimo valore di che garantisce la convergenza SA-13 Numero di Iterazioni J min J crescente
WEIGHT — TRACK SA-14 # iterazioni w* w(0) # iterazioni w* w(0) # iterazioni w* w(0) w(1) w(k) w*w*w(0) w(1) w(k) w*w* w(2) w(0) w(1) w(k) w*w* w(2)
Fenomeno del rattling Non si arriva a stabilizzare la soluzione ( troppo alto) Nel caso dei metodi steepest-descent, per costante, si ha la convergenza asintotica Si può dimostrare che: Nel learning batch si deve usare un valore di normalizzato: /N Nel learning on-line (N=1) si usa la stima istantanea del gradiente che è, quindi, affetta da errore. Si deve introdurre un fattore di sicurezza. Es: Costante di tempo della procedura di adattamento (pendenza dell’esponenziale decrescente nella weight-track) dopo 4 5 costanti di tempo la procedura di adattamento può considerarsi conclusa J w J min SA-15
Possono essere usati schemi alternativi (regole geometriche, logaritmiche, etc.) ( piccola costante) REGRESSIONE PER VARIABILI MULTIPLE Sia d funzione di x 1, x 2,..., x d La migliore regressione lineare sarà un iperpiano di dimensione D. Es : D=2 In generale: L’obiettivo della regressione è quello di trovare i pesi w 1, w 2,... w d cioè w = [w 1, w 2,... w d ] che minimizzi lo scarto quadratico medio (MSE) su tutti gli N punti. SA-16 Soluzione di compromesso: alto all’inizio del processo iterativo e via via decrescente. Es: x1x1 x2x2 d b
PROCESSORE ELEMENTARE Il PE che realizza la regressione lineare è: ADALINE Analiticamente con da cui Sistema di D+1 Equazioni Normali nelle D+1 incognite w k Sono equazioni facilmente risolvibili SA-17 didi ii yiyi w1w1 w2w2 wDwD b x1ix1i x2ix2i xDixDi +1+1 _
MATRICE DI AUTO CORRELAZIONE Autocorrelazione tra i campioni k e j Matrice di auocorrelazione Cross-correlazione dell’ingresso per l’indice j e la risposta desiderata Sostituendo nelle equazioni normali: Si ottiene: Soluzione ottima COEFF. DI CORRELAZIONE MULTIPLO r m con matrice dei dati di input SA-18
Si può dimostrare che la funzione costo può essere espressa come: Imponendo:già ricavata Sostituendo w * nella J : SA-19 Es: D=2 w2w2 w* 2 w* J min w* 1 w1w1 J = cost w2w2 w1w1 w* 1 w* 2 J
METODI DELLA DISCESA PIÙ RIPIDA METODO LEAST MEAN SQUARE (LMS) k) è l’errore corrente NOTA possono essere utilizzati differenti algoritmi di ricerca del minimo quali: – Newton – Quasi-Newton – etc. SA-20
SISTEMA ADATTATIVO Non conosciamo la regola per generare d noto x ma siamo in grado di misurarli sperimentalmente. Vogliamo generare un modello che approssimi bene anche in fase di generalizzazione. Per fare ciò: I dati del training devono coprire bene tutta la “casistica” Ci devono essere sufficienti dati nel training set Il coefficiente r m deve essere prossimo all’unità SA-21 Sistema Incognito Adaline + x1x1 x2x2 xNxN... y1y1 y2y2 yNyN d1d1 d2d2 dNdN