Modelli simulativi per le Scienze Cognitive Paolo Bouquet (Università di Trento) Marco Casarotti (Università di Padova)
Classi di reti etero- vs. auto-associative singolo strato vs. multistrato feed-forward vs. ricorrenti Caratteristiche 1. Topologia 2. Connettività
Reti etero- vs. auto-associative Etero-associative Le unità di input sono DISTINTE dalle unità di output Compito: associare coppie di vettori DIVERSI (input ed output) Auto-associative Possiedono un unico strato di unità interamente connesse tra loro: ciascuna unità riceve input dallambiente esterno e dalle altre unità Dinamica temporale: lattivazione della rete varia nel tempo (rilassamento) e la risposta viene misurata quando la differenza dattivazione tra il tempo t ed il tempo t-1 è sufficientemente piccola (equilibrio) Vengono utilizzate per la memorizzazione e ricostruzione di pattern
Reti a singolo strato vs. multistrato A singolo strato di sinapsi Percettroni: reti etero-associative senza unità nascoste, pertanto con un solo strato di pesi. Un singolo strato di pesi NON consente di apprendere lassociazione tra pattern di ingresso e pattern duscita quando il mapping sottostante è troppo complesso. Reti multistrato MLP (Multi-Layer Perceptron): reti etero-associative con unità nascoste, pertanto con più di uno strato di pesi. La risposta delle rete viene ottenuta calcolando lattivazione di uno strato di unità alla volta
Reti feed-forward vs. ricorrenti Reti feed-forward Architetture in cui ciascun nodo riceve connessioni SOLO dai nodi degli strati inferiori Lelaborazione dellinformazione procede in ununica direzione Non possiedono una dinamica temporale e non possono essere utilizzate per compiti che richiedono lestrazione della struttura temporale presente nellinformazione dingresso Reti ricorrenti Architetture con connessioni ricorrenti: una connessione ricorrente permette la ricezione del segnale da neuroni dello stesso strato o di strati superiori Se un nodo riceve connessioni da tutti nodi della rete si dice completamente connesso
Reti feed-forward vs. ricorrenti [2] dove sono le attivazioni dello stesso strato o di uno strato superiore al tempo t-1, r il sono le connessioni ricorrenti e c è una costante. Le reti auto-associative sono, per definizione, reti ricorrenti Attivazione di un nodo che possiede connessioni ricorrenti:
Codifica e rappresentazioni I valori di attivazione dei nodi della rete dipendono dalla funzione dattivazione utilizzata: Codifica binaria: {0, 1} Codifica bipolare: {-1, 1} Valori continui: per esempio nellintervallo [0, 1] o [-1, 1] La scelta della funzione dattivazione influenza le prestazioni e lapplicabilità del modello. Alcuni algoritmi dapprendimento vincolano la scelta della funzione dattivazione. Codifica dellinformazione dingresso Codifica locale: ciascuna unità dingresso corrisponde ad un determinato oggetto Codifica distribuita: molte unità dingresso contribuiscono a rappresentare ogni singolo oggetto
Codifica locale Ciascuna unità dingresso corrisponde ad un determinato oggetto. Svantaggi: richiede un alto numero di unità, uguale al numero di oggetti da rappresentare non consente generalizzazioni, in quanto richiede la conoscenza anticipata del numero di oggetti è fragile, in quanto la perdita di ununità dingresso determina la perdita delloggetto corrispondente non è biologicamente plausibile
Codifica distribuita Molte unità dingresso contribuiscono a rappresentare ogni singolo oggetto. Può essere utilizzata per codificare oggetti o caratteristiche di oggetti. In questo caso, le unità dingresso codificano la presenza o il grado di una certa caratteristica. Di conseguenza, ciascun oggetto è codificato attraverso lattivazione di una o più unità e ciascuna unità può essere utilizzata per rappresentare oggetti diversi (codifica grezza). Vantaggi: Robustezza al rumore e resistenza alle lesioni Possibilità di rappresentare nuovi oggetti senza aumentare il numero di unità dingresso Facilita la classificazione e la generalizzazione
Campi recettivi Un esempio di codifica grezza è dato dai campi recettivi sovrapposti, come quelli presenti nella corteccia visiva primaria. Supponiamo di voler utilizzare una rete neurale per distinguere forme semplici presentate su una retina artificiale bidimensionale. Si divida la retina in gruppi di pixel di dimensioni uguali e parzialmente sovrapposti. Ciascuna di queste zone definisce il campo recettivo di ununità dingresso la cui attivazione è una funzione dellattivazione dei pixel presenti nel campo recettivo. È possibile dimostrare che laccuratezza a con cui la rete è in grado di distinguere gli oggetti presentati sulla retina, dipende dal raggio r di ciascun campo recettivo e dal numero n di campi recettivi che coprono lo spazio visivo (Rumelhart, Hinton & Williams, 1986): a rn
Spazio della rappresentazione Dato uno strato di input con n unità che codificano attraverso valori continui una certa caratteristica, possiamo rappresentare un certo oggetto (pattern) come un punto nello spazio multi-dimensionale con tante dimensioni quante sono le unità di input: ciascuna dimensione corrisponde al campo di variazione dellunità (caratteristica). Oggetti simili tenderanno ad occupare posizioni vicine nello spazio della rappresentazione. Normalizzazione Quando i dati in ingresso non sono omogenei, situazione tipica con dati reali prelevati con dispositivi di registrazione, è necessario ricorrere alla normalizzazione, che consiste nel far si che la lunghezza di ciascun vettore (pattern di ingresso) sia uguale a 1, dividendo ciascun componente del vettore per la sua norma:
La soglia ed il bias La soglia di attivazione λ di ununità può essere considerata come un peso sinaptico di valore λ in arrivo da un unità aggiuntiva con attivazione costante -1. Il peso viene definito BIAS e lunità aggiuntiva UNITA DI BIAS ed indicati rispettivamente con w 0 e x 0 Input esterno Output Unità di bias w0
Valutazione e analisi di una rete neurale Le prestazioni di una rete neurale vengono generalmente esaminate calcolando un indice dellerrore compiuto. Tale indice varia a seconda del paradigma dapprendimento e, in generale, degli scopi della simulazione. Vediamo alcuni degli strumenti di valutazione utilizzati nella modellistica neuro-computazionale e cognitiva: Confronto tra la curva dapprendimento della rete artificiale e la quella dei soggetti umani Percentuale e tipo di errori compiuti Differenza tra risposta desiderata e risposta della rete (rms) Confronto tra il numero di cicli (reti ricorrenti) richiesti per raggiungere il criterio di risposta e i tempi di reazione dei soggetti umani Analisi delle proprietà di risposta delle unità nascoste (reti multistrato)
Proprietà delle unità nascoste Le proprietà di risposta delle unità nascoste forniscono un indice molto utile sul tipo di soluzione impiegato dalla rete per risolvere il compito. In generale, vengono presentati vari tipi di stimoli (per esempio forme diverse) alle unità di input e vengono registrate le attivazioni corrispondenti delle unità nascoste; vengono poi ricostruite le curve di risposta (profili) che possono evidenziare specifiche selettività per determinate caratteristiche dello stimolo. Neuroscienza computazionale: i profili di risposta delle unità nascoste vengono confrontati con quelli dei neuroni reali coinvolti nei processi che vengono indagati nelle simulazioni. Zipser & Andersen (1988): hanno dimostrato che una rete addestrata a eseguire trasformazioni sensorimotorie sviluppa proprietà di risposta nelle unità nascoste simili a quelle descritte nei neuroni della corteccia parietale inferiore.
Analisi dei pesi sinaptici In modelli con un limitato numero di connessioni sinaptiche, può essere utile analizzare la configurazione dei pesi sinaptici al termine dellapprendimento e/o durante lapprendimento, per valutarne levoluzione. Lesioni Nelle simulazioni di deficit neuropsicologici, vengono provocate lesioni alla rete neurale artificiale eliminando dei pesi sinaptici o aggiungendo del rumore allattivazione di alcune unità. Vengono successivamente analizzate le prestazioni delle rete lesionata e confrontate con quelle dei pazienti neuropsicologici.