La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La visione (David Marr e successori) “... Il cuore vero della percezione visiva è l’inferenza derivata dalla struttura di un’immagine sulla struttura del.

Presentazioni simili


Presentazione sul tema: "La visione (David Marr e successori) “... Il cuore vero della percezione visiva è l’inferenza derivata dalla struttura di un’immagine sulla struttura del."— Transcript della presentazione:

1 La visione (David Marr e successori) “... Il cuore vero della percezione visiva è l’inferenza derivata dalla struttura di un’immagine sulla struttura del mondo reale esterno. La teoria della visione è esattamente la teoria di come è possibile fare ciò, e il suo interesse principale è nei confronti dei limiti fisici e delle assunzioni che rendono possibile tale inferenza. ”

2 Obiettivi della visione Produce –una ricca comprensione di ciò che è nel mondo –dove gli oggetti sono localizzati –come cambiano nel tempo Permette a un sistema biologico o automatico –di riconoscere e manipolare gli oggetti –di interagire fisicamente con l’ambiente

3 Visione come intelligenza la visione è qualcosa di più di una capacità sensoriale i processi mentali che occorrono dal pattern di luce sulla retina fino a una immagine interna del mondo sono “intelligenti” quanto elaborare una diagnosi sviluppo della visione negli umani: 50% della neocorteccia nei primati è dedicato alla visione di solito si ammirano di più le capacità deduttive scarsa capacità di analisi conscia del fenomeno

4 Visione e IA l’IA ha un po’ trascurato la visione a favore delle capacità “avanzate” –problem solving, ragionamento, linguaggio –la visione è più complicata del più sofisticato ragionamento matematico problemi con la concezione simbolica dell’IA –intelligenza spiegata da sistemi di simboli –problemi con compiti che non si rispecchiano in procedure di ricerca seriale problemi nel trattamento della visione (Minsky) … ma l’hardware è comunque sempre il cervello

5 Tre barre Lente Immagine Due “viste” estreme sulla visione la visione è banale: occhio come telecamera –homunculus e non validità computazionale la visione è impossibile: più scene producono la stessa immagine. Come si discrimina? –visione stereoscopica e orientamento

6 La visione computazionale assunzioni –visione facile per il cervello (meccanismi rapidi e inconsci) –difficile per noi da capire (scarsa capacità introspettiva sulla visione) vantaggio evolutivo –scappare di fronte al predatore –riconoscere la preda applicazione alla visione in un robot

7 L’approccio computazionale Lo studio della visione avviene considerando i meccanismi di elaborazione delle informazioni che sono necessari per realizzare gli obiettivi La prospettiva computazionale viene integrata con gli studi sperimentali sui sistemi biologici dalla psicologia e dalla neuroscienza La comprensione funzionale completa dei meccanismi neurali che sottostanno all’elaborazione visiva

8 I tre livelli di spiegazione (Marr, Nishihara, Poggio, Ullman) teoria di ciò che è computato –input, output, vincoli al processo teoria di come il sistema esegue le computazioni (le procedure) teoria sulla neurofisiologia sottostante (l’hardware delle cellule nervose)

9 Input al processo visivo: l’occhio Obiettivo: raccogliere la luce dagli oggetti nella scena e creare un’immagine a 2-D. l’occhio umano e del robot –un foro (o una lente) che focalizza la luce da più punti della scena su un singolo punto della retina –un sistema di elementi fotosensibili che converte la configurazione di luce in impulsi elettrici (codice simbolico)

10 Output del processo visivo Rappresentazione simbolica del mondo tridimensionale che guidi il comportamento la posizione del sistema rispetto agli altri oggetti della scena e la posizione relativa degli oggetti i colori, le forme, la composizione la rappresentazione cinematica della scena per il sistema(robot che si muove), o dinamica per tutta la scena si identificano gli oggetti noti e meno noti La visione costruisce un modello del mondo a partire dalle configurazioni di luce sulla retina

11 Vincoli al processo visivo empirismo o razionalismo? In x+y=5 quant’è x? –E’ possibile porre dei vincoli. l’ipotesi di Gibson e la geometria proiettiva –Longuet-Higgins: 5 punti sulla superficie di uno stesso oggetto su due immagini differenti sono sufficienti a stabilirne l’orientamento –Horn: se si conosce l’orientamento di alcuni punti (superficie liscia e opaca), si può stabilire la forma meccanismi mentali e conoscenza del mondo –necessari per identificare gli elementi della scena –acquisizione della conoscenza del mondo: risultato dell’evoluzione (innati) o apprendimento individuale

12 Stadi multipli dell’analisi Origine: misurazioni della luce riflessa dalle superfici degli oggetti verso l’occhio Tre stadi rappresentazionali –Rappresentazioni primarie (di basso livello) –Rappresentazioni intermedie –Rappresentazioni di alto livello Uso –riconoscimento di oggetti –manipolazione di oggetti –navigazione

13 Rappresentazioni primarie Informazione sui cambi significativi di intensità luminosa e sui contorni (di oggetti) –localizzazione –contrasto –precisione Corrispondono a caratteristiche fisiche –estremità degli oggetti e contorni delle tessiture –particolari sulle superfici e limiti delle ombre Per scene che cambiano dinamicamente … –direzione e velocità di movimento dei cambi di intensità

14 Rappresentazioni intermedie Informazioni sulla forma 3-D degli oggetti dal punto di vista dell’osservatore –orientamento di piccole superfici –distanza dai punti delle superfici dall’osservatore Per scene dinamiche … –movimento delle superfici in 3 direzioni

15 Rappresentazioni di alto livello Forme 3-D e orientamento in relazione a un sistema di coordinate indipendente dall’osservatore (punto di vista) –sistema basato sull’oggetto stesso –sistema basato su una locazione fissata nel mondo

16 Calcolo della rappresentazione primaria

17 L’occhio

18 Diagramma dell’occhio

19 Geometria di formazione dell’immagine Z Y X P (X, Y, Z) P’ (x, y) f Proiezione prospettiva (triangoli simili) -x : X = f : Z  x = -f X / Z -y : Y = f : Z  y = -f Y / Z

20 Le lenti Sia i vertebrati che le telecamere usano le lenti (non un foro), che fanno entrare molta più luce. Non tutta la scena è a fuoco nello stesso istante. –L’oggetto è a distanza Z nella scena –L’immagine è prodotta a distanza Z’ (piano immagine) –La relazione è 1/Z + 1/Z’ = 1/f (f fuoco della lente) –Gli oggetti a fuoco sono quelli a distanza Z, tale per cui 1/Z + 1/Z’ = 1/f Per focalizzare gli oggetti a più distanze Z –cambia forma la lente nell’occhio –si muove lungo l’asse Z la lente della telecamera

21 Il piano dell’immagine coperto di materiale fotosensibile –alogenuro d’argento nelle pellicole –rodopsina e varianti nella retina –circuiti di silicio nella telecamera CCD (charge-coupled device) l’immagine è suddivisa in pixel –CCD: 512 x 512 = 0.25 x 10 6, in una griglia rettangolare –retina: 120 x 10 6 bastoncelli e 6 x 10 6 coni, in un mosaico esagonale

22 Prima fase: la matrice a livelli di grigio interazione fisica tra la luce focalizzata sulla retina e il pigmento visivo delle cellule retiniche fotosensibili (120 milioni) risposta delle cellule retiniche e di una telecamera: matrice bidimensionale dei valori di intensità in ogni punto della superficie fotosensibile –valori come numerali –se si ignorano i colori, si ha un’immagine a livelli di grigio

23 Immagine a livelli di grigio

24 Matrice di pixel (livelli di grigio) NB. Nel caso della retina umana il numero di pixel è molto maggiore. 225 221 216 219 219 214 207 218 219 220 207 155 136 135 130 131 125 213 206 213 223 208 217 223 221 223 216 195 156 141 130 128 138 123 206 217 210 216 224 223 228 230 234 216 207 157 136 132 137 130 128 211 213 221 223 220 222 237 216 219 220 176 149 137 132 125 136 121 216 210 231 227 224 228 231 210 195 227 181 141 131 133 131 124 122 223 229 218 230 228 214 213 209 198 224 161 140 133 127 133 122 133 220 219 224 220 219 215 215 206 206 221 159 143 133 131 129 127 127 221 215 211 214 220 218 221 212 218 204 148 141 131 130 128 129 118 214 211 211 218 214 220 226 216 223 209 143 141 141 124 121 132 125 211 208 223 213 216 226 231 230 241 199 153 141 136 125 131 125 136 200 224 219 215 217 224 232 241 240 211 150 139 128 132 129 124 132 204 206 208 205 233 241 241 252 242 192 151 141 133 130 127 129 129 200 205 201 216 232 248 255 246 231 210 149 141 132 126 134 128 139 191 194 209 238 245 255 249 235 238 197 146 139 130 132 129 132 123 189 199 200 227 239 237 235 236 247 192 145 142 124 133 125 138 128 198 196 209 211 210 215 236 240 232 177 142 137 135 124 129 132 128 198 203 205 208 211 224 226 240 210 160 139 132 129 130 122 124 131 216 209 214 220 210 231 245 219 169 143 148 129 128 136 124 128 123 211 210 217 218 214 227 244 221 162 140 139 129 133 131 122 126 128 215 210 216 216 209 220 248 200 156 139 131 129 139 128 123 130 128 219 220 211 208 205 209 240 217 154 141 127 130 124 142 134 128 129 229 224 212 214 220 229 234 208 151 145 128 128 142 122 126 132 124 252 224 222 224 233 244 228 213 143 141 135 128 131 129 128 124 131 255 235 230 249 253 240 228 193 147 139 132 128 136 125 125 128 119 250 245 238 245 246 235 235 190 139 136 134 135 126 130 126 137 132 240 238 233 232 235 255 246 168 156 141 129 127 136 134 135 130 126 241 242 225 219 225 255 255 183 139 141 126 139 128 137 128 128 130 234 218 221 217 211 252 242 166 144 139 132 130 128 129 127 121 132 231 221 219 214 218 225 238 171 145 141 124 134 131 134 131 126 131 228 212 214 214 213 208 209 159 134 136 139 134 126 127 127 124 122 219 213 215 215 205 215 222 161 135 141 128 129 131 128 125 128 127

25 Risultato della prima fase l’immagine a livelli di grigio è distante dalla rappresentazione della scena mette in evidenza solo l’intensità della luce in ciascun pixel, in relazione a qualche scala arbitraria

26 Seconda fase: localizzazione variazioni di intensità esperimento: guardare la scena di fronte a voi con gli occhi socchiusi regioni con diverse intensità luminose –chiazze brillanti e opache (direzione della luce) –l’intensità tende a cambiare in prossimità degli spigoli –potenza dei disegni senza sfumature obiettivo di questa fase: localizzare i contorni tra regioni di diversa intensità problema del “rumore”: fluttuazioni casuali nella luce e nell’occhio

27 Come si localizzano i contorni Si filtra l’immagine in modo da … –attenuare le piccole differenze –esaltare le differenze significative il filtraggio avviene mediante più scale di valori –rappresentazione della struttura grossolana dei contorni –mantenimento dei dettagli sulle superfici Si identificano i contorni mediante computazione –di picchi (massimi - derivata prima) o –passaggi per zero (zero-crossing - derivata seconda) La fase successiva lavora sui contorni

28 1 10 0 23456789 1 2 3 4 5 6 7 8 9 Grafico di intensità 454369879454369879 Valori di intensità Posizione spaziale

29 Tecnica per ridurre il rumore 1 10 0 23456789 1 2 3 4 5 6 7 8 9 Sostituire ciascun valore della matrice con il suo valore medio locale. Calcolo grossolano: calcolo della media tra un valore e quelli adiacenti (convoluzione). 444468888444468888 Valori medi di intensità Posizione spaziale

30 La convoluzione con filtri lineari Convoluzione di due funzioni f e g (f  g): h(x) =  f(u) g(x-u) du (caso continuo) h(x) = f(u) g(x-u) (caso discreto) Caso generale: funzioni in due dimensioni (immagini) h(x) =  f(u,v) g(x-u, y-v) du dv (continuo) h(x) = f(u) g(x-u) (discreto)  + + -   u=-  ++  + + -   + + -   -- ++  -- ++

31 Una funzione più adeguata: la gaussiana G  (x) = e -x 2 /2  2 2  1 tiene conto di una più ampia gamma di valori vicini attribuisce un peso in funzione della distanza G’  (x) = e -x 2 /2  2 2  3 -x Date due funzioni f e g, f * g’ = (f * g)’

32 Individuare i contorni di intensità un contorno corrisponde a un passaggio brusco nella grandezza dei valori occorre misurare il gradiente di intensità

33 Misurare la ripidità del gradiente 1 10 0 23456789 1 2 3 4 5 6 7 8 9 Valori medi di intensità Posizione spaziale gradiente = 0 gradiente = 2 Moltiplicare a sinistra per -1 e a destra per +1 e sommare i risultati. +1 0002200000022000

34 Gradiente e variazioni del gradiente 0002200000022000 1 0 23456789 1 2 Gradiente di intensità 1 0 23456789 1 2 Variazioni di gradiente di intensità Posizione spaziale -2 Picco Gola Passaggio per zero Massimo locale : corrisponde a un contorno Passaggio per zero, picco, gola : esistenza di un contorno Posizione spaziale

35 Intensità e contorni Profilo di intensità Derivata del profilo Convoluzione con la G’

36 Combinazione delle operazioni due operazioni di calcolo: –calcolo della media locale –identificazione delle variazioni di gradiente operazione combinata: sombrero messicano –pesi positivi (punti vicini), negativi (distanti), nulli (molto distanti) risultato: matrice con valori positivi e negativi –contorni tra le aree = passaggi per zero

37 Livelli di grigio e passaggi per zero

38 Il filtraggio della matrice dimensione ottimale del sombrero messicano –tutte le dimensioni identificano variazioni di intensità chiaramente e nettamente separate –sombrero largo: variazioni graduali su area vasta –sombrero stretto: molte piccole variazioni in dettaglio esseri umani sensibili a un’ampia gamma di variazioni: sombrero flessibile?

39 Filtri e filtri: quant’è ampio il sombrero Immagine a livelli di grigio (320x320) Passaggi per zero filtro piccolo 9 pixel

40 Filtri e filtri: quant’è ampio il sombrero (2) Immagine a livelli di grigio (320x320) Passaggi per zero filtro grande 18 pixel

41 Confronto tra i filtri Immagine a livelli di grigio (320x320) Passaggi per zero (a) filtro piccolo 9 pixel (b) filtro grande 18 pixel

42 Neurofisiologia della visione L’elaborazione visiva avviene in più parti del cervello, tra cui la retina il talamo (ottico) la corteccia striata le aree visive corticali superiori il collicolo superiore il sistema ottico accessorio

43 La retina (in corrispondenza della macchia cieca)

44 Le classi principali di elementi Fotorecettori: coni e bastoncelli –polarizzano alla luce –producono solo potenziali elettrici graduati Cellule bipolari di tipo ON (invertono il segno, depolarizzano) e OFF (conservano il segno) Cellule gangliari (cellule di output verso il cervello) –sono sensibili a un’intera area del campo visivo, detta campo ricettivo della cellula Cellule amacrine Cellule orizzontali C R B G A H

45 Strati retinici spessa meno di 0,5 mm

46 Diagramma della retina 1.2 M di fibre nervose 100M di bastoncelli 6M di coni (vicino alla fovea) Tutte le classi e sottoclassi di cellule sono distribuite su tutta la retina Coni e molti neuroni sono ammassati nella e vicino alla fovea (max acuità visiva) Bastoncelli assenti nella fovea; concentrati nella periferia

47 Coni e bastoncelli Tre tipi di conibastoncello luce notturna segnalano anche un singolo fotone luce diurna registrano intensità su una gamma di 8 ordini di grandezza

48 La trasduzione da segnale luminoso a segnale elettrico

49 Le connessioni principali C R B G A H BBB GGG AA HH C R Luce Assoni Le cellule gangliari (G) inviano l’info al cervello Ma i segnali sono risultato di integrazione spaziale e elaborazione parallela Dai fotorecettori (R e C) a orizzontali (H) e bipolari (B); le B e le amacrine (A) inviano a G

50 Il funzionamento Forma del campo ricettivo: due cerchi concentrici –una regione centrale –una regione periferica antagonista Cellule centrali all’aumento di intensità della luce –ON: aumentano frequenza dei potenziali inviati –OFF: diminuiscono la frequenza... Cellule periferiche alla diminuzione di intensità... –ON: diminuiscono frequenza dei potenziali inviati –OFF: aumentano la frequenza... La polarità è data dalle cellule bipolari

51 Come sono distribuite le ON e OFF I percorsi ON e OFF sono esempi di sottocircuiti retinici che trasportano differenti info visive –Es.: i segnali provenienti da C e R sono elaborati da sottotipi distinti di B e A prima di passare a G Alcuni sono poco compresi –risposta ai segnali transienti VS ai segnali a regime –sensibilità spettrale insieme con l’intensità La retina funziona come un sistema di sottocircuiti paralleli –i segnali vengono istradati verso specifici moduli funzionali nel cervello

52 Campo ricettivo e sombrero messicano La regione centrale calcola i valori positivi al centro del sombrero –cellule ON: quando la luce aumenta di intensità –cellule OFF: quando la luce diminuisce di intensità La regione periferica calcola i valori negativi (falda) –cellule ON: quando la luce aumenta di intensità –cellule OFF: quando la luce diminuisce di intensità passaggi per zero: localizzazione di aree in cui i due tipi di cellule hanno approssimativamente la stessa attività

53 Nel cervello: la corteccia La corteccia (2mm) è suddivisa in 6 livelli: neuroni con “interessi” simili tendono a raggrupparsi –nella corteccia visiva esistono le “colonne oculari” –raggruppano neuroni specializzati in un singolo occhio mini-colonne di orientamento nella corteccia visiva (Hubel, Wiesel) –vengono eccitate da linee e contorni che presentano lo stesso angolo con la verticale (orientamento) –ve ne sono molte specializzate in vari angoli –identificano spigoli, bordi e altre caratteristiche degli oggetti (in termini di Marr, passaggi per zero)

54 come funziona l’eccitazione delle linee –una variazione nel gradiente di intensità in linea eccita una linea di gangli retinici –una linea di gangli eccita una colonna di neuroni con il corretto orientamento

55 Terza fase: lo schema primario dalla seconda fase: –la matrice di livelli di grigio viene filtrata attraverso una serie di sombreri messicani di diversa grandezza input al terzo: una serie di immagini filtrate in modo diverso come vengono interpretate?

56 Confronto delle immagini filtrate Marr estrae passaggi attraverso zero –problema: alle curve e agli angoli i passaggi per zero derivati da filtri diversi non si trovano nella stessa posizione della matrice Watt e Morgan estraggono picchi e gole –programma di calcolo che calcola separatamente le medie dei valori positivi e negativi ottenuti mediante i filtraggi localizza i centri dei picchi nelle medie positive e i centri delle gole nelle medie negative costruisce una rappresentazione simbolica di barre, spigoli, regione di uguale intensità (macchie)

57 Vincolo di unicità sull’interpretazione un elemento (spigolo di un oggetto, variazione di illuminazione,...) non può essere in due posti diversi nello stesso tempo –alta probabilità che un passaggio per zero prodotto da uno dei filtri si ripeta (non troppo distante) su immagini risultanti da altri filtri problemi –confusione con piccoli dettagli (es. barre piccole = 2 passaggi per zero) –due fenomeni distinti possono produrre variazioni di intensità nella stessa zona (in generale, no)

58 Barre, spigoli e macchie elementi fondamentali dell’immagine visiva a ogni elemento si associano delle informazioni, usando descrizioni simboliche con valori numerici Es. Macchia –posizione = 146, 21orientamento = 105 –contrasto = 76lunghezza = 16 –larghezza = 6 questa descrizione simbolica delle caratteristiche locali dell’immagine visiva è detta da Marr schema primario

59 Schema primario è un’organizzazione completa dell’immagine all’incirca ciò di cui si è consapevoli guardando leggermente fuori fuoco con gli occhi socchiusi si costruisce raggruppando elementi simili in modo da formare linee, macchie più grandi e gruppi strutturati –non esiste ancora un programma che simuli la costruzione –i principi di raggruppamento non si riescono a isolare sperimentalmente (non si evidenziano sforzi coscienti)

60 Figura con più organizzazioni potenziali

61 Apparati visivi e stadio iniziale la tecnologia odierna (apparato visivo di un robot): 1telecamera con al più 1 milione (1000x1000) di elementi fotosensibili (NB. area molto più grande della retina) 2cablaggio bidimensionale in un micro-chip 3interconnessioni di gran lunga inferiori alle cellule nervose 4parallelismo limitato la natura (occhio umano): 1retina: 6 milioni di coni e 120 milioni di bastoncelli 2cablaggio tridimensionale su piccola scala 3esegue in parallelo moltissime computazioni (connessioni tra cellule nervose) 4parallelismo massiccio

62 Costo computazionale Esempio –una computazione di 2 secondi –velocità di 25 kmh –ci si rende conto che la macchia nera sulla strada era in realtà un buco quando ci si sta cadendo dentro Costo computazionale fondamentale: filtraggio della matrice di livelli di grigio –esiste hardware specializzato per eseguire le convoluzioni, ma niente di paragonabile in efficienza al sistema nervoso

63 Conclusioni sullo schema primario (visione simile a quella della mosca) probabilmente non costruisce un modello 3D schema di volo: controllo con meccanismi rapidi e automatici –routine di atterraggio scatta appena il campo visivo si espande a grande velocità orienta le zampe, e al tatto, toglie energia alle ali –seguire le tracce di un compagno chiazza nera che si muove contro lo sfondo posizione e velocità angolare per ala dx e sx della mosca Visione impossibile: no dimensioni reali (compagno o uccello lontano non fa differenza)

64 Schema primario e visione umana schema primario è sufficiente per le attività della mosca per l’uomo (o un robot), il mondo deve essere percepito in modo più ricco (3D) per manipolare gli oggetti e fare inferenze complesse occorre recuperare le informazioni relative alle superfici fisiche degli oggetti che hanno prodotto tale schema primario


Scaricare ppt "La visione (David Marr e successori) “... Il cuore vero della percezione visiva è l’inferenza derivata dalla struttura di un’immagine sulla struttura del."

Presentazioni simili


Annunci Google