La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ALGORITMI DI OTTIMIZZAZIONE PER L'ADDESTRAMENTO DI RETI NEURALI Marco Sciandrone Istituto di Analisi dei Sistemi ed Informatica A. Ruberti Consiglio Nazionale.

Presentazioni simili


Presentazione sul tema: "ALGORITMI DI OTTIMIZZAZIONE PER L'ADDESTRAMENTO DI RETI NEURALI Marco Sciandrone Istituto di Analisi dei Sistemi ed Informatica A. Ruberti Consiglio Nazionale."— Transcript della presentazione:

1 ALGORITMI DI OTTIMIZZAZIONE PER L'ADDESTRAMENTO DI RETI NEURALI Marco Sciandrone Istituto di Analisi dei Sistemi ed Informatica A. Ruberti Consiglio Nazionale delle Ricerche, Roma

2 Reti Neurali Ottimizzazione Statistica Fisica Matematica Biologia Informatica Psicologia

3 OPTIMIZATION LABORATORY FOR DATA MINING Ingegneria dei Sistemi Informatica Biomatematica Ottimizzazione ISTITUTO DI ANALISI DEI SISTEMI ED INFORMATICA

4 Data mining: apprendimento automatico di informazioni, correlazioni e caratteristiche significative da basi di dati di grandi dimensioni relative a processi di varia natura Motivazione: esigenza di analizzare e comprendere fenomeni complessi descritti in modo esplicito solo parzialmente e informalmente da insiemi di dati

5 Classificazione (pattern recognition) Supervisionata Non Supervisionata Approssimazione (regressione) Problemi di Data Mining

6 Classificazione supervisionata: sono noti a priori dei pattern rappresentativi di diverse classi, si vuole determinare un modello matematico che, dato un generico pattern appartenente allo spazio delle caratteristiche, definisca la corrispondente classe di appartenenza Pattern: oggetto descritto da un insieme finito di attributi numerici (caratteristiche/features)

7 ESEMPIO DI CLASSIFICAZIONE SUPERVISIONATA Pattern: cifra manoscritta rappresentata da una matrice di pixel 10 Classi: 0,1,2,3,4,5,6,7,8, classificazione

8 Classificazione non supervisionata: non sono noti a priori pattern rappresentativi delle classi; si vuole determinare il numero di classi di similitudine e un modello matematico che, dato un generico pattern appartenente allo spazio delle caratteristiche, definisca la corrispondente classe di appartenenza Pattern: oggetto descritto da un insieme finito di attributi numerici (caratteristiche/features)

9 ESEMPIO DI CLASSIFICAZIONE NON SUPERVISIONATA Pattern: paziente afflitto da una determinata patologia e descritto da M fattori clinici (caratteristiche) Dati disponibili: insieme di N pazienti Obiettivo: raggruppare i pazienti in K gruppi i cui elementi presentino caratteristiche simili

10 Approssimazione: sono note a priori delle coppie pattern/target rappresentative di un funzione incognita a valori reali; si vuole determinare una funzione analitica che approssimi la funzione incognita Pattern: oggetto descritto da un insieme finito di attributi numerici (caratteristiche/features)

11 ESEMPIO DI APPROSSIMAZIONE Pattern: vettore di N correnti che circolano in un dispositivo Target: valore del campo magnetico in un determinato punto interno al dispositivo Obiettivo: determinare una funzione analitica che approssimi il legame funzionale tra il campo magnetico e il valore delle correnti

12 Problemi di Data Mining Classificazione (pattern recognition) Supervisionata Non Supervisionata Approssimazione (regressione) problemi difficili e/o di grandi dimensioni Metodi Clustering Reti Neurali Support Vector Machines Programmazione Logica Alberi di Decisione Necessità di metodi di Ottimizzazione efficienti

13 Cosè lOttimizzazione Cosè una rete neurale Cosè il processo di addestramento di una rete neurale Quale è la connessione tra lOttimizzazione e le reti neurali Algoritmi di Ottimizzazione per laddestramento di reti neurali

14 Formulazione di un problema di Ottimizzazione (spazio delle variabili) (insieme ammissibile) (funzione obiettivo) minimizza f sullinsieme ammissibile S

15 Spazio delle variabili Spazio X Infinito dimensionaleFinito dimensionale Calcolo variazionale Controllo Ottimo Ottimizzazione discreta Programmazione mista Programmazione a variabili intere Ottimizzazione combinatoria a variabili 0/1 Ottimizzazione continua a variabili reali

16 Cosè una rete neurale da un punto di vista fisico Una rete neurale è un processore distribuito costituito dalla interconnessione di unità computazionali elementari (i neuroni) con due caratteristiche fondamentali: la conoscenza è acquisita dallambiente attraverso un processo di apprendimento o di addestramento la conoscenza è immagazzinata nei parametri della rete e, in particolare, nei pesi associati alle connessioni

17 Data una funzione G:X Y, nota attraverso un insieme di coppie Una rete neurale è un particolare modello di approssimazione di G: dipendente (in generale in modo non lineare) da un vettore di parametri w Da un punto di vista statistico, una rete neurale è un particolare modello di classificazione o di regressione (non lineare) Cosè una rete neurale da un punto di vista matematico

18 IL NEURONE FORMALE + CLASSIFICATORE LINEARE funzione di attivazione pesi soglia

19 Una rete costituita da un singolo strato di neuroni formali è stata denominata PERCEPTRON (Rosenblatt, 1962) ed è stato proposto un algoritmo per il calcolo dei parametri (pesi e soglie) che fornisce una soluzione in un numero finito di iterazioni nellipotesi in cui i pattern di ingresso siano LINEARMENTE SEPARABILI Problema XOR 0,11,1 0,0 1,0 Non esiste un iperpiano di separazione Limitazioni del Perceptron

20 Le limitazioni del Perceptron sono state messe in luce da Minsky e Papert (1969) Leffetto del libro di Minsky e Papert è stato quello di far decadere linteresse inziale verso le reti neurali Era noto che le limitazioni del Perceptron potevano essere superate, in linea di principio, collegando fra loro in modo opportuno dei neuroni formali o effettuando delle trasformazioni non lineari degli ingressi Non erano tuttavia disponibili algoritmi di addestramento per il calcolo dei parametri

21 Una rinascita dellinteresse verso le reti neurali è stata in gran parte determinata dal lavoro di Rumelhart, Hinton e Williams (1986), che hanno proposto un algoritmo di addestramento per reti di neuroni formali, noto come metodo della backpropagation, essenzialmente basato sul metodo di ottimizzazione del gradiente Gli sviluppi futuri hanno portato allo sviluppo di unarea di ricerca interdisciplinare, in cui sono stati integrati contributi di vari settori

22 Classificazione delle architetture Reti feedforward: reti acicliche strutturate in diversi strati Perceptron Multilayer Perceptron (MLP) Reti di funzioni di base radiali (RBF) Reti ricorsive: sono presenti cicli di controreazione; possono essere viste come sistemi dinamici

23 Rete feedforward a 1 strato Rete feedforward a 2 strati

24 ADDESTRAMENTO E GENERALIZZAZIONE Laddestramento (apprendimento) è il processo mediante il quale vengono determinati i parametri liberi di una rete neurale. Due paradigmi fondamentali: addestramento supervisionato: i parametri della rete vengono determinati, sulla base di un insieme di addestramento (training set) di esempi, consistenti in coppie pattern/target, minimizzando una funzione derrore addestramento non supervisionato: la rete è dotata di capacità di auto-organizzazione

25 ADDESTRAMENTO E GENERALIZZAZIONE La capacità di generalizzazione di una rete addestrata è la capacità di fornire una risposta corretta a nuovi ingressi (non presentati nella fase di addestramento) LO SCOPO ULTIMO DELLADDESTRAMENTO È QUELLO DI COSTRUIRE UN MODELLO DEL PROCESSO CHE GENERA I DATI E NON DI INTERPOLARE I DATI DI TRAINING Addestramento supervisionato di reti feedforward

26 Reti neurali feedforward MLPRBF vettore di ingresso strato nascosto uscita Differiscono essenzialmente nella funzione di attivazione dei neuroni dello strato nascosto

27 Rete neurale feedforward 1 strato nascosto con M neuroni Rete MLP Rete RBF

28 Proprietà di approssimazione: sono approssimatori universali per le funzioni continue su insiemi compatti Reti neurali feedforward MLPRBF sistema statico I/O funzione smooth

29 FORMULAZIONE DEL PROBLEMA DI ADDESTRAMENTO Architettura rete neurale fissata: numero di strati e numero di neuroni vettore dei parametri incogniti Training set Problema di Ottimizzazione in cui è una misura dellerrore relativo al p-mo pattern. Usualmente uscita rete uscita desiderata

30 Le difficoltà computazionali dei problemi di addestramento sono tipicamente dovute a Forti nonlinearità della funzione di errore E(w) Presenza di zone piatte nella superficie della funzione di errore Possibile mal condizionamento della matrice Hessiana Elevata dimensionalità del vettore dei parametri w Elevato numero P di campioni di addestramento Presenza di minimi locali

31 Nella soluzione del problema di Ottimizzazione relativo alladdestramento di una rete neurale non è richiesta una grande precisione nella soluzione. Può invece essere preferibile interrompere il processo di minimizzazione prematuramente in base alla valutazione dellerrore ottenuto su un VALIDATION SET (EARLY STOPPING) perché: LO SCOPO ULTIMO DELLADDESTRAMENTO È QUELLO DI COSTRUIRE UN MODELLO DEL PROCESSO CHE GENERA I DATI E NON DI INTERPOLARE I DATI DI TRAINING

32 METODI DI OTTIMIZZAZIONE PER LADDESTRAMENTO METODI BATCH i parametri vengono aggiornati dopo una presentazione di tutto il training set METODI INCREMENTALI (ONLINE) i parametri vengono aggiornati in corrispondenza a ogni singolo pattern del training set

33 Uno dei primi algoritmi di addestramento è il metodo noto come metodo di backpropagation e si può identificare con il metodo del gradiente La versione batch è definita dalliterazione dove è il gradiente di E in, e è il learning rate Il termine backpropagation è legato alla tecnica utilizzata per il calcolo del gradiente che si può ricondurre attualmente a una tecnica di differenziazione automatica

34 Il metodo di backpropagation presenta proprietà di convergenza globale sotto opportune ipotesi connesse alla scelta del learning rate (passo). Tale scelta può essere effettuata, ad esempio, mediante limpiego di tecniche di ricerca unidimensionale Il metodo è di facile implementazione ma risulta poco efficiente in termini di rapidità di convergenza Per laddestramento sono utilizzabili i metodi di Ottimizzazione non vincolata per problemi a grande dimensione

35 DIREZIONE DI RICERCA metodo del gradiente metodo di Newton PASSO

36 Metodi di Ottimizzazione per laddestramento (alcuni dei quali sono presenti in vari pacchetti software per reti neurali) Metodo del gradiente di Barzilai-Borwein Metodi delle direzioni coniugate Metodi Quasi-Newton a memoria limitata Metodi tipo Gauss-Newton (troncati) Metodi di Newton (troncati)

37 OTTIMIZZAZIONE RETI NEURALI riscoperta di vari metodi di Ottimizzazione nellambito delle reti neurali motivazioni per la definizione di nuovi metodi di Ottimizzazione (algoritmi incrementali, algoritmi di decomposizione)

38 APPLICAZIONI DI RETI NEURALI SVILUPPATE PRESSO LISTITUTO DI ANALISI DEI SISTEMI ED INFORMATICA Approssimazione del campo magnetico per la progettazione di apparati di risonanza magnetica Classificazione di segnali di elettrocardiogramma per lindividuazione di eventi ischemici Classificazione di immagini per il riconoscimento di lettere postali Approssimazione del flusso stradale per la previsione del traffico Classificazione di connessioni telematiche per lindividuazione di attacchi al sistema informatico del nostro istituto


Scaricare ppt "ALGORITMI DI OTTIMIZZAZIONE PER L'ADDESTRAMENTO DI RETI NEURALI Marco Sciandrone Istituto di Analisi dei Sistemi ed Informatica A. Ruberti Consiglio Nazionale."

Presentazioni simili


Annunci Google