Scaricare la presentazione
1
La visione (David Marr e successori)
“ ... Il cuore vero della percezione visiva è l’inferenza derivata dalla struttura di un’immagine sulla struttura del mondo reale esterno. La teoria della visione è esattamente la teoria di come è possibile fare ciò, e il suo interesse principale è nei confronti dei limiti fisici e delle assunzioni che rendono possibile tale inferenza. ”
2
Obiettivi della visione
Produce una ricca comprensione di ciò che è nel mondo dove gli oggetti sono localizzati come cambiano nel tempo Permette a un sistema biologico o automatico di riconoscere e manipolare gli oggetti di interagire fisicamente con l’ambiente
3
Visione come intelligenza
la visione è qualcosa di più di una capacità sensoriale i processi mentali che occorrono dal pattern di luce sulla retina fino a una immagine interna del mondo sono “intelligenti” quanto elaborare una diagnosi sviluppo della visione negli umani: 50% della neocorteccia nei primati è dedicato alla visione di solito si ammirano di più le capacità deduttive scarsa capacità di analisi conscia del fenomeno
4
Visione e IA l’IA ha un po’ trascurato la visione a favore delle capacità “avanzate” problem solving, ragionamento, linguaggio la visione è più complicata del più sofisticato ragionamento matematico problemi con la concezione simbolica dell’IA intelligenza spiegata da sistemi di simboli problemi con compiti che non si rispecchiano in procedure di ricerca seriale problemi nel trattamento della visione (Minsky) … ma l’hardware è comunque sempre il cervello
5
Due “viste” estreme sulla visione
la visione è banale: occhio come telecamera homunculus e non validità computazionale la visione è impossibile: più scene producono la stessa immagine. Come si discrimina? visione stereoscopica e orientamento Lente Immagine Tre barre
6
La visione computazionale
assunzioni visione facile per il cervello (meccanismi rapidi e inconsci) difficile per noi da capire (scarsa capacità introspettiva sulla visione) vantaggio evolutivo scappare di fronte al predatore riconoscere la preda applicazione alla visione in un robot
7
L’approccio computazionale
Lo studio della visione avviene considerando i meccanismi di elaborazione delle informazioni che sono necessari per realizzare gli obiettivi La prospettiva computazionale viene integrata con gli studi sperimentali sui sistemi biologici dalla psicologia e dalla neuroscienza La comprensione funzionale completa dei meccanismi neurali che sottostanno all’elaborazione visiva
8
I tre livelli di spiegazione (Marr, Nishihara, Poggio, Ullman)
teoria di ciò che è computato input, output, vincoli al processo teoria di come il sistema esegue le computazioni (le procedure) teoria sulla neurofisiologia sottostante (l’hardware delle cellule nervose)
9
Input al processo visivo: l’occhio
Obiettivo: raccogliere la luce dagli oggetti nella scena e creare un’immagine a 2-D. l’occhio umano e del robot un foro (o una lente) che focalizza la luce da più punti della scena su un singolo punto della retina un sistema di elementi fotosensibili che converte la configurazione di luce in impulsi elettrici (codice simbolico)
10
Output del processo visivo
Rappresentazione simbolica del mondo tridimensionale che guidi il comportamento la posizione del sistema rispetto agli altri oggetti della scena e la posizione relativa degli oggetti i colori, le forme, la composizione la rappresentazione cinematica della scena per il sistema(robot che si muove), o dinamica per tutta la scena si identificano gli oggetti noti e meno noti La visione costruisce un modello del mondo a partire dalle configurazioni di luce sulla retina
11
Vincoli al processo visivo
empirismo o razionalismo? In x+y=5 quant’è x? E’ possibile porre dei vincoli. l’ipotesi di Gibson e la geometria proiettiva Longuet-Higgins: 5 punti sulla superficie di uno stesso oggetto su due immagini differenti sono sufficienti a stabilirne l’orientamento Horn: se si conosce l’orientamento di alcuni punti (superficie liscia e opaca), si può stabilire la forma meccanismi mentali e conoscenza del mondo necessari per identificare gli elementi della scena acquisizione della conoscenza del mondo: risultato dell’evoluzione (innati) o apprendimento individuale
12
Stadi multipli dell’analisi
Origine: misurazioni della luce riflessa dalle superfici degli oggetti verso l’occhio Tre stadi rappresentazionali Rappresentazioni primarie (di basso livello) Rappresentazioni intermedie Rappresentazioni di alto livello Uso riconoscimento di oggetti manipolazione di oggetti navigazione
13
Rappresentazioni primarie
Informazione sui cambi significativi di intensità luminosa e sui contorni (di oggetti) localizzazione contrasto precisione Corrispondono a caratteristiche fisiche estremità degli oggetti e contorni delle tessiture particolari sulle superfici e limiti delle ombre Per scene che cambiano dinamicamente … direzione e velocità di movimento dei cambi di intensità
14
Rappresentazioni intermedie
Informazioni sulla forma 3-D degli oggetti dal punto di vista dell’osservatore orientamento di piccole superfici distanza dai punti delle superfici dall’osservatore Per scene dinamiche … movimento delle superfici in 3 direzioni
15
Rappresentazioni di alto livello
Forme 3-D e orientamento in relazione a un sistema di coordinate indipendente dall’osservatore (punto di vista) sistema basato sull’oggetto stesso sistema basato su una locazione fissata nel mondo
16
Calcolo della rappresentazione primaria
17
L’occhio
18
Diagramma dell’occhio
19
Geometria di formazione dell’immagine
Y X P (X, Y, Z) P’ (x, y) f Proiezione prospettiva (triangoli simili) -x : X = f : Z x = -f X / Z -y : Y = f : Z y = -f Y / Z
20
Le lenti Sia i vertebrati che le telecamere usano le lenti (non un foro), che fanno entrare molta più luce. Non tutta la scena è a fuoco nello stesso istante. L’oggetto è a distanza Z nella scena L’immagine è prodotta a distanza Z’ (piano immagine) La relazione è 1/Z + 1/Z’ = 1/f (f fuoco della lente) Gli oggetti a fuoco sono quelli a distanza Z, tale per cui 1/Z + 1/Z’ = 1/f Per focalizzare gli oggetti a più distanze Z cambia forma la lente nell’occhio si muove lungo l’asse Z la lente della telecamera
21
Il piano dell’immagine
coperto di materiale fotosensibile alogenuro d’argento nelle pellicole rodopsina e varianti nella retina circuiti di silicio nella telecamera CCD (charge-coupled device) l’immagine è suddivisa in pixel CCD: 512 x 512 = 0.25 x 106, in una griglia rettangolare retina: 120 x 106 bastoncelli e 6 x 106 coni, in un mosaico esagonale
22
Prima fase: la matrice a livelli di grigio
interazione fisica tra la luce focalizzata sulla retina e il pigmento visivo delle cellule retiniche fotosensibili (120 milioni) risposta delle cellule retiniche e di una telecamera: matrice bidimensionale dei valori di intensità in ogni punto della superficie fotosensibile valori come numerali se si ignorano i colori, si ha un’immagine a livelli di grigio
23
Immagine a livelli di grigio
24
Nel caso della retina umana il numero di pixel è molto maggiore.
Matrice di pixel (livelli di grigio) NB. Nel caso della retina umana il numero di pixel è molto maggiore.
25
Risultato della prima fase
l’immagine a livelli di grigio è distante dalla rappresentazione della scena mette in evidenza solo l’intensità della luce in ciascun pixel, in relazione a qualche scala arbitraria
26
Seconda fase: localizzazione variazioni di intensità
esperimento: guardare la scena di fronte a voi con gli occhi socchiusi regioni con diverse intensità luminose chiazze brillanti e opache (direzione della luce) l’intensità tende a cambiare in prossimità degli spigoli potenza dei disegni senza sfumature obiettivo di questa fase: localizzare i contorni tra regioni di diversa intensità problema del “rumore”: fluttuazioni casuali nella luce e nell’occhio
27
Come si localizzano i contorni
Si filtra l’immagine in modo da … attenuare le piccole differenze esaltare le differenze significative il filtraggio avviene mediante più scale di valori rappresentazione della struttura grossolana dei contorni mantenimento dei dettagli sulle superfici Si identificano i contorni mediante computazione di picchi (massimi - derivata prima) o passaggi per zero (zero-crossing - derivata seconda) La fase successiva lavora sui contorni
28
Grafico di intensità 4 5 4 3 6 9 8 7 9 1 10 2 3 4 5 6 7 8 9 Valori di
2 3 4 5 6 7 8 9 Posizione spaziale
29
Tecnica per ridurre il rumore
Sostituire ciascun valore della matrice con il suo valore medio locale. Calcolo grossolano: calcolo della media tra un valore e quelli adiacenti (convoluzione). Valori medi di intensità 10 9 8 7 6 5 4 3 2 1 Posizione spaziale 1 2 3 4 5 6 7 8 9
30
La convoluzione con filtri lineari
Convoluzione di due funzioni f e g (f g): h(x) = f(u) g(x-u) du (caso continuo) h(x) = f(u) g(x-u) (caso discreto) Caso generale: funzioni in due dimensioni (immagini) h(x) = f(u,v) g(x-u, y-v) du dv (continuo) h(x) = f(u) g(x-u) (discreto) + - u=- + + - + - - +
31
Una funzione più adeguata: la gaussiana
tiene conto di una più ampia gamma di valori vicini attribuisce un peso in funzione della distanza Date due funzioni f e g, f * g’ = (f * g)’ G(x) = e -x2/22 2 1 G’(x) = e -x2/22 23 -x
32
Individuare i contorni di intensità
un contorno corrisponde a un passaggio brusco nella grandezza dei valori occorre misurare il gradiente di intensità
33
Misurare la ripidità del gradiente
Moltiplicare a sinistra per -1 e a destra per +1 e sommare i risultati. -1 +1 Valori medi di intensità 10 9 gradiente = 0 8 7 gradiente = 2 6 5 gradiente = 0 4 3 2 1 Posizione spaziale 1 2 3 4 5 6 7 8 9
34
Gradiente e variazioni del gradiente
Gradiente di intensità Massimo locale : corrisponde a un contorno 2 1 Posizione spaziale 1 2 3 4 5 6 7 8 9 Variazioni di gradiente di intensità Passaggio per zero, picco, gola : esistenza di un contorno Picco 2 1 Passaggio per zero -1 Posizione spaziale -2 1 2 3 4 5 6 Gola 7 8 9
35
Intensità e contorni Profilo di intensità Derivata del profilo
Convoluzione con la G’
36
Combinazione delle operazioni
due operazioni di calcolo: calcolo della media locale identificazione delle variazioni di gradiente operazione combinata: sombrero messicano pesi positivi (punti vicini), negativi (distanti), nulli (molto distanti) risultato: matrice con valori positivi e negativi contorni tra le aree = passaggi per zero
37
Livelli di grigio e passaggi per zero
38
Il filtraggio della matrice
dimensione ottimale del sombrero messicano tutte le dimensioni identificano variazioni di intensità chiaramente e nettamente separate sombrero largo: variazioni graduali su area vasta sombrero stretto: molte piccole variazioni in dettaglio esseri umani sensibili a un’ampia gamma di variazioni: sombrero flessibile?
39
Filtri e filtri: quant’è ampio il sombrero
Passaggi per zero Immagine a livelli di grigio (320x320) filtro piccolo 9 pixel
40
Filtri e filtri: quant’è ampio il sombrero (2)
Passaggi per zero Immagine a livelli di grigio (320x320) filtro grande 18 pixel
41
Confronto tra i filtri Immagine a livelli di grigio (320x320)
Passaggi per zero (a) filtro piccolo 9 pixel (b) filtro grande 18 pixel
42
Neurofisiologia della visione
L’elaborazione visiva avviene in più parti del cervello, tra cui la retina il talamo (ottico) la corteccia striata le aree visive corticali superiori il collicolo superiore il sistema ottico accessorio
43
La retina (in corrispondenza della macchia cieca)
44
Le classi principali di elementi
Fotorecettori: coni e bastoncelli polarizzano alla luce producono solo potenziali elettrici graduati Cellule bipolari di tipo ON (invertono il segno, depolarizzano) e OFF (conservano il segno) Cellule gangliari (cellule di output verso il cervello) sono sensibili a un’intera area del campo visivo, detta campo ricettivo della cellula Cellule amacrine Cellule orizzontali B G A H
45
Strati retinici spessa meno di 0,5 mm
46
Diagramma della retina Tutte le classi e sottoclassi
100M di bastoncelli 6M di coni (vicino alla fovea) Tutte le classi e sottoclassi di cellule sono distribuite su tutta la retina Coni e molti neuroni sono ammassati nella e vicino alla fovea (max acuità visiva) Bastoncelli assenti nella fovea; concentrati nella periferia 1.2 M di fibre nervose
47
Coni e bastoncelli bastoncello Tre tipi di coni
luce notturna segnalano anche un singolo fotone luce diurna registrano intensità su una gamma di 8 ordini di grandezza
48
La trasduzione da segnale luminoso a segnale elettrico
49
Le connessioni principali
B G A H Luce Assoni Le cellule gangliari (G) inviano l’info al cervello Ma i segnali sono risultato di integrazione spaziale e elaborazione parallela Dai fotorecettori (R e C) a orizzontali (H) e bipolari (B); le B e le amacrine (A) inviano a G
50
Il funzionamento Forma del campo ricettivo: due cerchi concentrici
una regione centrale una regione periferica antagonista Cellule centrali all’aumento di intensità della luce ON: aumentano frequenza dei potenziali inviati OFF: diminuiscono la frequenza ... Cellule periferiche alla diminuzione di intensità ... ON: diminuiscono frequenza dei potenziali inviati OFF: aumentano la frequenza ... La polarità è data dalle cellule bipolari
51
Come sono distribuite le ON e OFF
I percorsi ON e OFF sono esempi di sottocircuiti retinici che trasportano differenti info visive Es.: i segnali provenienti da C e R sono elaborati da sottotipi distinti di B e A prima di passare a G Alcuni sono poco compresi risposta ai segnali transienti VS ai segnali a regime sensibilità spettrale insieme con l’intensità La retina funziona come un sistema di sottocircuiti paralleli i segnali vengono istradati verso specifici moduli funzionali nel cervello
52
Campo ricettivo e sombrero messicano
La regione centrale calcola i valori positivi al centro del sombrero cellule ON: quando la luce aumenta di intensità cellule OFF: quando la luce diminuisce di intensità La regione periferica calcola i valori negativi (falda) passaggi per zero: localizzazione di aree in cui i due tipi di cellule hanno approssimativamente la stessa attività
53
Nel cervello: la corteccia
La corteccia (2mm) è suddivisa in 6 livelli: neuroni con “interessi” simili tendono a raggrupparsi nella corteccia visiva esistono le “colonne oculari” raggruppano neuroni specializzati in un singolo occhio mini-colonne di orientamento nella corteccia visiva (Hubel, Wiesel) vengono eccitate da linee e contorni che presentano lo stesso angolo con la verticale (orientamento) ve ne sono molte specializzate in vari angoli identificano spigoli, bordi e altre caratteristiche degli oggetti (in termini di Marr, passaggi per zero)
54
come funziona l’eccitazione delle linee
una variazione nel gradiente di intensità in linea eccita una linea di gangli retinici una linea di gangli eccita una colonna di neuroni con il corretto orientamento
55
Terza fase: lo schema primario
dalla seconda fase: la matrice di livelli di grigio viene filtrata attraverso una serie di sombreri messicani di diversa grandezza input al terzo: una serie di immagini filtrate in modo diverso come vengono interpretate?
56
Confronto delle immagini filtrate
Marr estrae passaggi attraverso zero problema: alle curve e agli angoli i passaggi per zero derivati da filtri diversi non si trovano nella stessa posizione della matrice Watt e Morgan estraggono picchi e gole programma di calcolo che calcola separatamente le medie dei valori positivi e negativi ottenuti mediante i filtraggi localizza i centri dei picchi nelle medie positive e i centri delle gole nelle medie negative costruisce una rappresentazione simbolica di barre, spigoli, regione di uguale intensità (macchie)
57
Vincolo di unicità sull’interpretazione
un elemento (spigolo di un oggetto, variazione di illuminazione, ...) non può essere in due posti diversi nello stesso tempo alta probabilità che un passaggio per zero prodotto da uno dei filtri si ripeta (non troppo distante) su immagini risultanti da altri filtri problemi confusione con piccoli dettagli (es. barre piccole = 2 passaggi per zero) due fenomeni distinti possono produrre variazioni di intensità nella stessa zona (in generale, no)
58
Barre, spigoli e macchie
elementi fondamentali dell’immagine visiva a ogni elemento si associano delle informazioni, usando descrizioni simboliche con valori numerici Es. Macchia posizione = 146, 21 orientamento = 105 contrasto = 76 lunghezza = 16 larghezza = 6 questa descrizione simbolica delle caratteristiche locali dell’immagine visiva è detta da Marr schema primario
59
Schema primario è un’organizzazione completa dell’immagine
all’incirca ciò di cui si è consapevoli guardando leggermente fuori fuoco con gli occhi socchiusi si costruisce raggruppando elementi simili in modo da formare linee, macchie più grandi e gruppi strutturati non esiste ancora un programma che simuli la costruzione i principi di raggruppamento non si riescono a isolare sperimentalmente (non si evidenziano sforzi coscienti)
60
Figura con più organizzazioni potenziali
61
Apparati visivi e stadio iniziale
la tecnologia odierna (apparato visivo di un robot): telecamera con al più 1 milione (1000x1000) di elementi fotosensibili (NB. area molto più grande della retina) cablaggio bidimensionale in un micro-chip interconnessioni di gran lunga inferiori alle cellule nervose parallelismo limitato la natura (occhio umano): retina: 6 milioni di coni e 120 milioni di bastoncelli cablaggio tridimensionale su piccola scala esegue in parallelo moltissime computazioni (connessioni tra cellule nervose) parallelismo massiccio
62
Costo computazionale Esempio
una computazione di 2 secondi velocità di 25 kmh ci si rende conto che la macchia nera sulla strada era in realtà un buco quando ci si sta cadendo dentro Costo computazionale fondamentale: filtraggio della matrice di livelli di grigio esiste hardware specializzato per eseguire le convoluzioni, ma niente di paragonabile in efficienza al sistema nervoso
63
Conclusioni sullo schema primario (visione simile a quella della mosca)
probabilmente non costruisce un modello 3D schema di volo: controllo con meccanismi rapidi e automatici routine di atterraggio scatta appena il campo visivo si espande a grande velocità orienta le zampe, e al tatto, toglie energia alle ali seguire le tracce di un compagno chiazza nera che si muove contro lo sfondo posizione e velocità angolare per ala dx e sx della mosca Visione impossibile: no dimensioni reali (compagno o uccello lontano non fa differenza)
64
Schema primario e visione umana
schema primario è sufficiente per le attività della mosca per l’uomo (o un robot), il mondo deve essere percepito in modo più ricco (3D) per manipolare gli oggetti e fare inferenze complesse occorre recuperare le informazioni relative alle superfici fisiche degli oggetti che hanno prodotto tale schema primario
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.