La visione (David Marr e successori) “ ... Il cuore vero della percezione visiva è l’inferenza derivata dalla struttura di un’immagine sulla struttura del mondo reale esterno. La teoria della visione è esattamente la teoria di come è possibile fare ciò, e il suo interesse principale è nei confronti dei limiti fisici e delle assunzioni che rendono possibile tale inferenza. ”
Obiettivi della visione Produce una ricca comprensione di ciò che è nel mondo dove gli oggetti sono localizzati come cambiano nel tempo Permette a un sistema biologico o automatico di riconoscere e manipolare gli oggetti di interagire fisicamente con l’ambiente
Visione come intelligenza la visione è qualcosa di più di una capacità sensoriale i processi mentali che occorrono dal pattern di luce sulla retina fino a una immagine interna del mondo sono “intelligenti” quanto elaborare una diagnosi sviluppo della visione negli umani: 50% della neocorteccia nei primati è dedicato alla visione di solito si ammirano di più le capacità deduttive scarsa capacità di analisi conscia del fenomeno
Visione e IA l’IA ha un po’ trascurato la visione a favore delle capacità “avanzate” problem solving, ragionamento, linguaggio la visione è più complicata del più sofisticato ragionamento matematico problemi con la concezione simbolica dell’IA intelligenza spiegata da sistemi di simboli problemi con compiti che non si rispecchiano in procedure di ricerca seriale problemi nel trattamento della visione (Minsky) … ma l’hardware è comunque sempre il cervello
Due “viste” estreme sulla visione la visione è banale: occhio come telecamera homunculus e non validità computazionale la visione è impossibile: più scene producono la stessa immagine. Come si discrimina? visione stereoscopica e orientamento Lente Immagine Tre barre
La visione computazionale assunzioni visione facile per il cervello (meccanismi rapidi e inconsci) difficile per noi da capire (scarsa capacità introspettiva sulla visione) vantaggio evolutivo scappare di fronte al predatore riconoscere la preda applicazione alla visione in un robot
L’approccio computazionale Lo studio della visione avviene considerando i meccanismi di elaborazione delle informazioni che sono necessari per realizzare gli obiettivi La prospettiva computazionale viene integrata con gli studi sperimentali sui sistemi biologici dalla psicologia e dalla neuroscienza La comprensione funzionale completa dei meccanismi neurali che sottostanno all’elaborazione visiva
I tre livelli di spiegazione (Marr, Nishihara, Poggio, Ullman) teoria di ciò che è computato input, output, vincoli al processo teoria di come il sistema esegue le computazioni (le procedure) teoria sulla neurofisiologia sottostante (l’hardware delle cellule nervose)
Input al processo visivo: l’occhio Obiettivo: raccogliere la luce dagli oggetti nella scena e creare un’immagine a 2-D. l’occhio umano e del robot un foro (o una lente) che focalizza la luce da più punti della scena su un singolo punto della retina un sistema di elementi fotosensibili che converte la configurazione di luce in impulsi elettrici (codice simbolico)
Output del processo visivo Rappresentazione simbolica del mondo tridimensionale che guidi il comportamento la posizione del sistema rispetto agli altri oggetti della scena e la posizione relativa degli oggetti i colori, le forme, la composizione la rappresentazione cinematica della scena per il sistema(robot che si muove), o dinamica per tutta la scena si identificano gli oggetti noti e meno noti La visione costruisce un modello del mondo a partire dalle configurazioni di luce sulla retina
Vincoli al processo visivo empirismo o razionalismo? In x+y=5 quant’è x? E’ possibile porre dei vincoli. l’ipotesi di Gibson e la geometria proiettiva Longuet-Higgins: 5 punti sulla superficie di uno stesso oggetto su due immagini differenti sono sufficienti a stabilirne l’orientamento Horn: se si conosce l’orientamento di alcuni punti (superficie liscia e opaca), si può stabilire la forma meccanismi mentali e conoscenza del mondo necessari per identificare gli elementi della scena acquisizione della conoscenza del mondo: risultato dell’evoluzione (innati) o apprendimento individuale
Stadi multipli dell’analisi Origine: misurazioni della luce riflessa dalle superfici degli oggetti verso l’occhio Tre stadi rappresentazionali Rappresentazioni primarie (di basso livello) Rappresentazioni intermedie Rappresentazioni di alto livello Uso riconoscimento di oggetti manipolazione di oggetti navigazione
Rappresentazioni primarie Informazione sui cambi significativi di intensità luminosa e sui contorni (di oggetti) localizzazione contrasto precisione Corrispondono a caratteristiche fisiche estremità degli oggetti e contorni delle tessiture particolari sulle superfici e limiti delle ombre Per scene che cambiano dinamicamente … direzione e velocità di movimento dei cambi di intensità
Rappresentazioni intermedie Informazioni sulla forma 3-D degli oggetti dal punto di vista dell’osservatore orientamento di piccole superfici distanza dai punti delle superfici dall’osservatore Per scene dinamiche … movimento delle superfici in 3 direzioni
Rappresentazioni di alto livello Forme 3-D e orientamento in relazione a un sistema di coordinate indipendente dall’osservatore (punto di vista) sistema basato sull’oggetto stesso sistema basato su una locazione fissata nel mondo
Calcolo della rappresentazione primaria
L’occhio
Diagramma dell’occhio
Geometria di formazione dell’immagine Y X P (X, Y, Z) P’ (x, y) f Proiezione prospettiva (triangoli simili) -x : X = f : Z x = -f X / Z -y : Y = f : Z y = -f Y / Z
Le lenti Sia i vertebrati che le telecamere usano le lenti (non un foro), che fanno entrare molta più luce. Non tutta la scena è a fuoco nello stesso istante. L’oggetto è a distanza Z nella scena L’immagine è prodotta a distanza Z’ (piano immagine) La relazione è 1/Z + 1/Z’ = 1/f (f fuoco della lente) Gli oggetti a fuoco sono quelli a distanza Z, tale per cui 1/Z + 1/Z’ = 1/f Per focalizzare gli oggetti a più distanze Z cambia forma la lente nell’occhio si muove lungo l’asse Z la lente della telecamera
Il piano dell’immagine coperto di materiale fotosensibile alogenuro d’argento nelle pellicole rodopsina e varianti nella retina circuiti di silicio nella telecamera CCD (charge-coupled device) l’immagine è suddivisa in pixel CCD: 512 x 512 = 0.25 x 106, in una griglia rettangolare retina: 120 x 106 bastoncelli e 6 x 106 coni, in un mosaico esagonale
Prima fase: la matrice a livelli di grigio interazione fisica tra la luce focalizzata sulla retina e il pigmento visivo delle cellule retiniche fotosensibili (120 milioni) risposta delle cellule retiniche e di una telecamera: matrice bidimensionale dei valori di intensità in ogni punto della superficie fotosensibile valori come numerali se si ignorano i colori, si ha un’immagine a livelli di grigio
Immagine a livelli di grigio
Nel caso della retina umana il numero di pixel è molto maggiore. 225 221 216 219 219 214 207 218 219 220 207 155 136 135 130 131 125 213 206 213 223 208 217 223 221 223 216 195 156 141 130 128 138 123 206 217 210 216 224 223 228 230 234 216 207 157 136 132 137 130 128 211 213 221 223 220 222 237 216 219 220 176 149 137 132 125 136 121 216 210 231 227 224 228 231 210 195 227 181 141 131 133 131 124 122 223 229 218 230 228 214 213 209 198 224 161 140 133 127 133 122 133 220 219 224 220 219 215 215 206 206 221 159 143 133 131 129 127 127 221 215 211 214 220 218 221 212 218 204 148 141 131 130 128 129 118 214 211 211 218 214 220 226 216 223 209 143 141 141 124 121 132 125 211 208 223 213 216 226 231 230 241 199 153 141 136 125 131 125 136 200 224 219 215 217 224 232 241 240 211 150 139 128 132 129 124 132 204 206 208 205 233 241 241 252 242 192 151 141 133 130 127 129 129 200 205 201 216 232 248 255 246 231 210 149 141 132 126 134 128 139 191 194 209 238 245 255 249 235 238 197 146 139 130 132 129 132 123 189 199 200 227 239 237 235 236 247 192 145 142 124 133 125 138 128 198 196 209 211 210 215 236 240 232 177 142 137 135 124 129 132 128 198 203 205 208 211 224 226 240 210 160 139 132 129 130 122 124 131 216 209 214 220 210 231 245 219 169 143 148 129 128 136 124 128 123 211 210 217 218 214 227 244 221 162 140 139 129 133 131 122 126 128 215 210 216 216 209 220 248 200 156 139 131 129 139 128 123 130 128 219 220 211 208 205 209 240 217 154 141 127 130 124 142 134 128 129 229 224 212 214 220 229 234 208 151 145 128 128 142 122 126 132 124 252 224 222 224 233 244 228 213 143 141 135 128 131 129 128 124 131 255 235 230 249 253 240 228 193 147 139 132 128 136 125 125 128 119 250 245 238 245 246 235 235 190 139 136 134 135 126 130 126 137 132 240 238 233 232 235 255 246 168 156 141 129 127 136 134 135 130 126 241 242 225 219 225 255 255 183 139 141 126 139 128 137 128 128 130 234 218 221 217 211 252 242 166 144 139 132 130 128 129 127 121 132 231 221 219 214 218 225 238 171 145 141 124 134 131 134 131 126 131 228 212 214 214 213 208 209 159 134 136 139 134 126 127 127 124 122 219 213 215 215 205 215 222 161 135 141 128 129 131 128 125 128 127 Matrice di pixel (livelli di grigio) NB. Nel caso della retina umana il numero di pixel è molto maggiore.
Risultato della prima fase l’immagine a livelli di grigio è distante dalla rappresentazione della scena mette in evidenza solo l’intensità della luce in ciascun pixel, in relazione a qualche scala arbitraria
Seconda fase: localizzazione variazioni di intensità esperimento: guardare la scena di fronte a voi con gli occhi socchiusi regioni con diverse intensità luminose chiazze brillanti e opache (direzione della luce) l’intensità tende a cambiare in prossimità degli spigoli potenza dei disegni senza sfumature obiettivo di questa fase: localizzare i contorni tra regioni di diversa intensità problema del “rumore”: fluttuazioni casuali nella luce e nell’occhio
Come si localizzano i contorni Si filtra l’immagine in modo da … attenuare le piccole differenze esaltare le differenze significative il filtraggio avviene mediante più scale di valori rappresentazione della struttura grossolana dei contorni mantenimento dei dettagli sulle superfici Si identificano i contorni mediante computazione di picchi (massimi - derivata prima) o passaggi per zero (zero-crossing - derivata seconda) La fase successiva lavora sui contorni
Grafico di intensità 4 5 4 3 6 9 8 7 9 1 10 2 3 4 5 6 7 8 9 Valori di 2 3 4 5 6 7 8 9 4 5 4 3 6 9 8 7 9 Posizione spaziale
Tecnica per ridurre il rumore Sostituire ciascun valore della matrice con il suo valore medio locale. Calcolo grossolano: calcolo della media tra un valore e quelli adiacenti (convoluzione). Valori medi di intensità 4 4 4 4 6 8 8 8 8 10 9 8 7 6 5 4 3 2 1 Posizione spaziale 1 2 3 4 5 6 7 8 9
La convoluzione con filtri lineari Convoluzione di due funzioni f e g (f g): h(x) = f(u) g(x-u) du (caso continuo) h(x) = f(u) g(x-u) (caso discreto) Caso generale: funzioni in due dimensioni (immagini) h(x) = f(u,v) g(x-u, y-v) du dv (continuo) h(x) = f(u) g(x-u) (discreto) + - u=- + + - + - - +
Una funzione più adeguata: la gaussiana tiene conto di una più ampia gamma di valori vicini attribuisce un peso in funzione della distanza Date due funzioni f e g, f * g’ = (f * g)’ G(x) = e -x2/22 2 1 G’(x) = e -x2/22 23 -x
Individuare i contorni di intensità un contorno corrisponde a un passaggio brusco nella grandezza dei valori occorre misurare il gradiente di intensità
Misurare la ripidità del gradiente Moltiplicare a sinistra per -1 e a destra per +1 e sommare i risultati. -1 +1 Valori medi di intensità 10 0 0 0 2 2 0 0 0 9 gradiente = 0 8 7 gradiente = 2 6 5 gradiente = 0 4 3 2 1 Posizione spaziale 1 2 3 4 5 6 7 8 9
Gradiente e variazioni del gradiente 0 0 0 2 2 0 0 0 Gradiente di intensità Massimo locale : corrisponde a un contorno 2 1 Posizione spaziale 1 2 3 4 5 6 7 8 9 Variazioni di gradiente di intensità Passaggio per zero, picco, gola : esistenza di un contorno Picco 2 1 Passaggio per zero -1 Posizione spaziale -2 1 2 3 4 5 6 Gola 7 8 9
Intensità e contorni Profilo di intensità Derivata del profilo Convoluzione con la G’
Combinazione delle operazioni due operazioni di calcolo: calcolo della media locale identificazione delle variazioni di gradiente operazione combinata: sombrero messicano pesi positivi (punti vicini), negativi (distanti), nulli (molto distanti) risultato: matrice con valori positivi e negativi contorni tra le aree = passaggi per zero
Livelli di grigio e passaggi per zero
Il filtraggio della matrice dimensione ottimale del sombrero messicano tutte le dimensioni identificano variazioni di intensità chiaramente e nettamente separate sombrero largo: variazioni graduali su area vasta sombrero stretto: molte piccole variazioni in dettaglio esseri umani sensibili a un’ampia gamma di variazioni: sombrero flessibile?
Filtri e filtri: quant’è ampio il sombrero Passaggi per zero Immagine a livelli di grigio (320x320) filtro piccolo 9 pixel
Filtri e filtri: quant’è ampio il sombrero (2) Passaggi per zero Immagine a livelli di grigio (320x320) filtro grande 18 pixel
Confronto tra i filtri Immagine a livelli di grigio (320x320) Passaggi per zero (a) filtro piccolo 9 pixel (b) filtro grande 18 pixel
Neurofisiologia della visione L’elaborazione visiva avviene in più parti del cervello, tra cui la retina il talamo (ottico) la corteccia striata le aree visive corticali superiori il collicolo superiore il sistema ottico accessorio
La retina (in corrispondenza della macchia cieca)
Le classi principali di elementi Fotorecettori: coni e bastoncelli polarizzano alla luce producono solo potenziali elettrici graduati Cellule bipolari di tipo ON (invertono il segno, depolarizzano) e OFF (conservano il segno) Cellule gangliari (cellule di output verso il cervello) sono sensibili a un’intera area del campo visivo, detta campo ricettivo della cellula Cellule amacrine Cellule orizzontali B G A H
Strati retinici spessa meno di 0,5 mm
Diagramma della retina Tutte le classi e sottoclassi 100M di bastoncelli 6M di coni (vicino alla fovea) Tutte le classi e sottoclassi di cellule sono distribuite su tutta la retina Coni e molti neuroni sono ammassati nella e vicino alla fovea (max acuità visiva) Bastoncelli assenti nella fovea; concentrati nella periferia 1.2 M di fibre nervose
Coni e bastoncelli bastoncello Tre tipi di coni luce notturna segnalano anche un singolo fotone luce diurna registrano intensità su una gamma di 8 ordini di grandezza
La trasduzione da segnale luminoso a segnale elettrico
Le connessioni principali B G A H Luce Assoni Le cellule gangliari (G) inviano l’info al cervello Ma i segnali sono risultato di integrazione spaziale e elaborazione parallela Dai fotorecettori (R e C) a orizzontali (H) e bipolari (B); le B e le amacrine (A) inviano a G
Il funzionamento Forma del campo ricettivo: due cerchi concentrici una regione centrale una regione periferica antagonista Cellule centrali all’aumento di intensità della luce ON: aumentano frequenza dei potenziali inviati OFF: diminuiscono la frequenza ... Cellule periferiche alla diminuzione di intensità ... ON: diminuiscono frequenza dei potenziali inviati OFF: aumentano la frequenza ... La polarità è data dalle cellule bipolari
Come sono distribuite le ON e OFF I percorsi ON e OFF sono esempi di sottocircuiti retinici che trasportano differenti info visive Es.: i segnali provenienti da C e R sono elaborati da sottotipi distinti di B e A prima di passare a G Alcuni sono poco compresi risposta ai segnali transienti VS ai segnali a regime sensibilità spettrale insieme con l’intensità La retina funziona come un sistema di sottocircuiti paralleli i segnali vengono istradati verso specifici moduli funzionali nel cervello
Campo ricettivo e sombrero messicano La regione centrale calcola i valori positivi al centro del sombrero cellule ON: quando la luce aumenta di intensità cellule OFF: quando la luce diminuisce di intensità La regione periferica calcola i valori negativi (falda) passaggi per zero: localizzazione di aree in cui i due tipi di cellule hanno approssimativamente la stessa attività
Nel cervello: la corteccia La corteccia (2mm) è suddivisa in 6 livelli: neuroni con “interessi” simili tendono a raggrupparsi nella corteccia visiva esistono le “colonne oculari” raggruppano neuroni specializzati in un singolo occhio mini-colonne di orientamento nella corteccia visiva (Hubel, Wiesel) vengono eccitate da linee e contorni che presentano lo stesso angolo con la verticale (orientamento) ve ne sono molte specializzate in vari angoli identificano spigoli, bordi e altre caratteristiche degli oggetti (in termini di Marr, passaggi per zero)
come funziona l’eccitazione delle linee una variazione nel gradiente di intensità in linea eccita una linea di gangli retinici una linea di gangli eccita una colonna di neuroni con il corretto orientamento
Terza fase: lo schema primario dalla seconda fase: la matrice di livelli di grigio viene filtrata attraverso una serie di sombreri messicani di diversa grandezza input al terzo: una serie di immagini filtrate in modo diverso come vengono interpretate?
Confronto delle immagini filtrate Marr estrae passaggi attraverso zero problema: alle curve e agli angoli i passaggi per zero derivati da filtri diversi non si trovano nella stessa posizione della matrice Watt e Morgan estraggono picchi e gole programma di calcolo che calcola separatamente le medie dei valori positivi e negativi ottenuti mediante i filtraggi localizza i centri dei picchi nelle medie positive e i centri delle gole nelle medie negative costruisce una rappresentazione simbolica di barre, spigoli, regione di uguale intensità (macchie)
Vincolo di unicità sull’interpretazione un elemento (spigolo di un oggetto, variazione di illuminazione, ...) non può essere in due posti diversi nello stesso tempo alta probabilità che un passaggio per zero prodotto da uno dei filtri si ripeta (non troppo distante) su immagini risultanti da altri filtri problemi confusione con piccoli dettagli (es. barre piccole = 2 passaggi per zero) due fenomeni distinti possono produrre variazioni di intensità nella stessa zona (in generale, no)
Barre, spigoli e macchie elementi fondamentali dell’immagine visiva a ogni elemento si associano delle informazioni, usando descrizioni simboliche con valori numerici Es. Macchia posizione = 146, 21 orientamento = 105 contrasto = 76 lunghezza = 16 larghezza = 6 questa descrizione simbolica delle caratteristiche locali dell’immagine visiva è detta da Marr schema primario
Schema primario è un’organizzazione completa dell’immagine all’incirca ciò di cui si è consapevoli guardando leggermente fuori fuoco con gli occhi socchiusi si costruisce raggruppando elementi simili in modo da formare linee, macchie più grandi e gruppi strutturati non esiste ancora un programma che simuli la costruzione i principi di raggruppamento non si riescono a isolare sperimentalmente (non si evidenziano sforzi coscienti)
Figura con più organizzazioni potenziali
Apparati visivi e stadio iniziale la tecnologia odierna (apparato visivo di un robot): telecamera con al più 1 milione (1000x1000) di elementi fotosensibili (NB. area molto più grande della retina) cablaggio bidimensionale in un micro-chip interconnessioni di gran lunga inferiori alle cellule nervose parallelismo limitato la natura (occhio umano): retina: 6 milioni di coni e 120 milioni di bastoncelli cablaggio tridimensionale su piccola scala esegue in parallelo moltissime computazioni (connessioni tra cellule nervose) parallelismo massiccio
Costo computazionale Esempio una computazione di 2 secondi velocità di 25 kmh ci si rende conto che la macchia nera sulla strada era in realtà un buco quando ci si sta cadendo dentro Costo computazionale fondamentale: filtraggio della matrice di livelli di grigio esiste hardware specializzato per eseguire le convoluzioni, ma niente di paragonabile in efficienza al sistema nervoso
Conclusioni sullo schema primario (visione simile a quella della mosca) probabilmente non costruisce un modello 3D schema di volo: controllo con meccanismi rapidi e automatici routine di atterraggio scatta appena il campo visivo si espande a grande velocità orienta le zampe, e al tatto, toglie energia alle ali seguire le tracce di un compagno chiazza nera che si muove contro lo sfondo posizione e velocità angolare per ala dx e sx della mosca Visione impossibile: no dimensioni reali (compagno o uccello lontano non fa differenza)
Schema primario e visione umana schema primario è sufficiente per le attività della mosca per l’uomo (o un robot), il mondo deve essere percepito in modo più ricco (3D) per manipolare gli oggetti e fare inferenze complesse occorre recuperare le informazioni relative alle superfici fisiche degli oggetti che hanno prodotto tale schema primario