La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

FILTRI ANALOGICI E DIGITALI Modulo del Corso Integrato di: Progetto di Circuiti per il Trattamento dei Segnali.

Presentazioni simili


Presentazione sul tema: "FILTRI ANALOGICI E DIGITALI Modulo del Corso Integrato di: Progetto di Circuiti per il Trattamento dei Segnali."— Transcript della presentazione:

1 FILTRI ANALOGICI E DIGITALI Modulo del Corso Integrato di: Progetto di Circuiti per il Trattamento dei Segnali

2 SISTEMI ADATTATIVI

3 piuttosto che costruire il sistema con specifiche stabilite a priori, i dati esterni al sistema vengono utilizzati per settare i parametri nelle reti neurali supervisionate l’addestramento è condotto utilizzando un training set spesso costituito dalle coppie di valori d’ingresso e di uscita desiderata SA-1 FUNZIONE COSTO ALGORITMO DI TRAINING SISTEMA ADATTATIVO OUTPUT DESIDERATO ERRORE OUTPUTINPUT MODIFICA DEI PARAMETRI INTRODUCONO UN MODO INNOVATIVO DI CONCEPIRE IL PROGETTO: TRA I DIVERSI SISTEMI ADATTATIVI VI SONO LE RETI NEURALI:

4 PROGETTO DI UN SISTEMA ADATTATIVO Scelta della topologia Scelta del training set Scelta di un criterio per misurare le prestazioni del sistema  Si conoscono topologie in grado di creare mappatori universali  Si sanno implementare algoritmi di training Allo stato attuale IL CORSO È MIRATO AL TRATTAMENTO DEI SEGNALI CHE STA ALLA BASE DI MOLTE APPLICAZIONI INGEGNERISTICHE Modelli lineari Modelli non-lineari Modelli alternativi (es. neurali ) SA-2 Costruzione di un modello SISTEMA FISICO REALE MODELLO FORMALE PREDIZIONE Decodifica Misure

5 MODELLI LINEARI Un’alternativa consiste nel “fittare” i dati con un modello lineare  REGRESSIONE LINEARE Raccolta dati: devono essere sufficienti devono contenere le informazioni principali devono essere liberi da rumore (tanto più quanto è possibile) d x x : input d : output desiderato Es. SA-3 ADALINE (Adaptive Linear Element) Processore elementare (PE) Adaline. Realizzazione hardware w b  +1 xixi yiyi PE

6 Problema: ricavare w, b affinché la linea di fittaggio passi il più vicino possibile a tutti i punti PROGETTO TRADIZIONALE Metodo dei minimi quadrati: minimizzare la somma dei quadrati degli scostamenti CRITERIO DI OTTIMALITÀ: errore quadratico medio (MSE) N : numero d’osservazioni Minimizzazione per via analitica SA-4

7 Dimostrazione: Si può dimostrare che la linea di regressione passa per il punto: CENTROIDE DELLE OSSERVAZIONI SA-5

8 SVANTAGGIO: “TIME CONSUMING” per grossi insiemi di dati CALCOLO DELLE PRESTAZIONI DEL MODELLO L’MSE ha problemi di scala: se scaliamo i dati l’MSE cambia senza che cambi il modo con cui la retta fitta i dati COEFFICIENTE DI CORRELAZIONE r Allora il numeratore di r è la covarianza delle due variabili e il denominatore è il prodotto delle corrispondenti deviazioni standard  È UNA PROPRIETÀ INSITA NEI DATI SA-6

9 r = 1 correlazione perfetta lineare positiva (x e d covariano) r = -1 correlazione perfetta lineare negativa r = 0 x e d sono scorrelate r 2 rappresenta la quantità di varianza presente nei dati e catturata da una regressione lineare ottima NOTA 1 Il metodo dei minimi quadrati può essere generalizzato per polinomi di grado superiore (quadratiche, cubiche, etc.) e si ottiene una REGRESSIONE NON LINEARE NOTA 2 Il metodo può essere esteso al caso di variabili multiple la retta di regressione diventa un iperpiano nello spazio delle SA-7

10 Il progetto di un sistema adattativo supervisionato si basa su: un sistema con parametri adattativi una risposta desiderata un criterio di ottimalità da minimizzare un metodo per calcolare i parametri ottimi UN SISTEMA ADATTATIVO ALLENATO SUL TRAINING SET POSSIEDE CAPACITÀ DI GENERALIZZARE Nel caso in esame il sistema è lineare con parametri w,b; il criterio di ottimalità è il MSE. Occorre trovare una procedura sistematica per la modifica dei parametri. Tale procedura è una procedura di ricerca del minimo di una funzione PROGETTO ADATTATIVO SA-8 SISTEMA ADATTATIVO LINEARE + MODIFICA DEI PARAMETRI (b, w) didi ii yiyi _ xixi d1d1 d2d2 didi b y x x1x1 x2x2 xixi y = wx + b

11 STEEPEST DESCENT METHOD Punto Iniziale J J mi n w(0) w* w(1) w Hp: b = 0 (rimuoviamo le medie di x e d ) La funzione obiettivo o costo è: Nel piano J-w è una parabola e viene chiamata SUPERFICIE DI PRESTAZIONE Il gradiente di J è un vettore che punta verso la direzione di massimo cambiamento e con ampiezza pari al coefficiente angolare della tangente alla curva J nel punto considerato SA-9

12 METODI DEL GRADIENTE Fanno uso delle informazioni relative al gradiente.Vantaggi: Il gradiente può essere calcolato localmente Il gradiente punta nella direzione di massimo cambiamento METODO DELLA DISCESA PIÙ RIPIDA La ricerca è condotta nella direzione opposta al gradiente 1. Calcolare J in un punto iniziale w(0) 2. Modificare w(0) proporzionalmente al gradiente negativo 3. Iterare la procedura precedente (  piccola costante) Se  è piccolo la procedura converge a w * Spesso il gradiente non è noto esplicitamente Metodi di stima del gradiente Widrow (1960) propone un algoritmo basato sull’uso del valore istantaneo SA-10

13 METODO LEAST MEAN SQUARED (LMS) poiché Cioè si assume di rimuovere la sommatoria e definire la stima del gradiente al passo k come il suo valore istantaneo. Il metodo della discesa più ripida diventa:  : STEPSIZE o LEARNING RATE Questo algoritmo effettua l’aggiornamento del peso w campione dopo campione: TRAINING ON LINE (o sequenziale) EPOCA: presentazione dell’intero campione degli ingressi SA-11

14 TRAINING BATCH Si calcolano i valori degli aggiornamenti durante un’epoca, si sommano questi valori e si apporta la modifica Vantaggi: si segue meglio il gradiente evitando traiettorie a zig-zag. Facilità di implementazione in parallelo NOTA: è buona norma rendere random l’ordine di presentazione del trainig set da un’epoca all’altra Svantaggi: maggior immagazzinamento di dati; facilità di intrappolamento in minimi locali (se esistenti) VALIDAZIONE / TESTING VALIDATION SET Se il decadimento delle prestazioni è inaccettabile è segno che la quantità e qualità dei dati nel trainig set è inadeguata SA-12

15 Coefficiente di correlazione nei sistemi adattativi Approssima r anche durante la procedura di adattamento CURVA DI LEARNING  : tasso di learning (scelto dal progettista) Se  è troppo piccolo  convergenza lenta Se  è troppo grande  può divergere Si può cercare un modo per calcolare il massimo valore di  che garantisce la convergenza SA-13 Numero di Iterazioni J min J  crescente

16 WEIGHT — TRACK SA-14 # iterazioni w* w(0) # iterazioni w* w(0) # iterazioni w* w(0) w(1) w(k) w*w*w(0) w(1) w(k) w*w* w(2) w(0) w(1) w(k) w*w* w(2)

17 Fenomeno del rattling Non si arriva a stabilizzare la soluzione (  troppo alto) Nel caso dei metodi steepest-descent, per  costante, si ha la convergenza asintotica Si può dimostrare che: Nel learning batch si deve usare un valore di  normalizzato:  /N Nel learning on-line (N=1) si usa la stima istantanea del gradiente che è, quindi, affetta da errore. Si deve introdurre un fattore di sicurezza. Es:  Costante di tempo della procedura di adattamento (pendenza dell’esponenziale decrescente nella weight-track) dopo 4  5 costanti di tempo la procedura di adattamento può considerarsi conclusa J w J min SA-15

18 Possono essere usati schemi alternativi (regole geometriche, logaritmiche, etc.) (  piccola costante) REGRESSIONE PER VARIABILI MULTIPLE Sia d funzione di x 1, x 2,..., x d La migliore regressione lineare sarà un iperpiano di dimensione D. Es : D=2 In generale: L’obiettivo della regressione è quello di trovare i pesi w 1, w 2,... w d cioè w = [w 1, w 2,... w d ] che minimizzi lo scarto quadratico medio (MSE) su tutti gli N punti. SA-16 Soluzione di compromesso:  alto all’inizio del processo iterativo e via via decrescente. Es: x1x1 x2x2 d b

19 PROCESSORE ELEMENTARE Il PE che realizza la regressione lineare è: ADALINE Analiticamente con da cui Sistema di D+1 Equazioni Normali nelle D+1 incognite w k Sono equazioni facilmente risolvibili SA-17  didi ii yiyi w1w1 w2w2 wDwD b x1ix1i x2ix2i xDixDi +1+1 _

20 MATRICE DI AUTO CORRELAZIONE Autocorrelazione tra i campioni k e j Matrice di auocorrelazione Cross-correlazione dell’ingresso per l’indice j e la risposta desiderata Sostituendo nelle equazioni normali: Si ottiene: Soluzione ottima COEFF. DI CORRELAZIONE MULTIPLO r m con matrice dei dati di input SA-18

21 Si può dimostrare che la funzione costo può essere espressa come: Imponendo:già ricavata Sostituendo w * nella J : SA-19 Es: D=2 w2w2 w* 2 w* J min w* 1 w1w1 J = cost w2w2 w1w1 w* 1 w* 2 J

22 METODI DELLA DISCESA PIÙ RIPIDA METODO LEAST MEAN SQUARE (LMS)  k) è l’errore corrente NOTA possono essere utilizzati differenti algoritmi di ricerca del minimo quali: – Newton – Quasi-Newton – etc. SA-20

23 SISTEMA ADATTATIVO Non conosciamo la regola per generare d noto x ma siamo in grado di misurarli sperimentalmente. Vogliamo generare un modello che approssimi bene anche in fase di generalizzazione. Per fare ciò: I dati del training devono coprire bene tutta la “casistica” Ci devono essere sufficienti dati nel training set Il coefficiente r m deve essere prossimo all’unità SA-21 Sistema Incognito Adaline + x1x1 x2x2 xNxN... y1y1 y2y2 yNyN d1d1 d2d2 dNdN


Scaricare ppt "FILTRI ANALOGICI E DIGITALI Modulo del Corso Integrato di: Progetto di Circuiti per il Trattamento dei Segnali."

Presentazioni simili


Annunci Google