Rappresentazione intermedia

Rappresentazione intermedia
Da 2-D a 3-D

Rappresentazione intermedia
E’ un livello ipotizzato dell’elaborazione visiva E’ calcolata da processi basati sull’osservatore Rappresenta il mondo in modo generale: identificazione di superfici e oggetti (no riconoscimento) loro orientamento e distanza dall’osservatore Sembra essere richiesta per alcuni processi percezione del movimento forme di stereopsi Il primo livello dell’elaborazione i cui risultati sono accessibili a livello della coscienza (attenzione)

Kanizsa (1979)

Il cubo di Kanizsa (da Necker)

Intermedia VS Alto livello
Rotazione degli oggetti

Estrazione dell’informazione a 3-D
Tre fasi dell’estrazione: segmentazione della scena in oggetti distinti determinare la posizione e l’orientamento di ogni oggetto in relazione all’osservatore determinare la forma di ogni oggetto

1. Segmentazione organizzazione della matrice di pixel in regioni che corrispondono a entità nella scena semanticamente significative output dello stadio iniziale della visione è lo schema primario: individuazione (tramite i contorni) delle aree principali di diversa intensità contorni non rilevati a causa del basso contrasto contorni dovuti a “rumore” o ombre occorre mettere assieme gli elementi di un singolo oggetto in modo da poterlo confrontare con i modelli in memoria (riconoscimento) o da conoscerne la forma (presa)

2. Posizione e orientamento
è la posa dell’oggetto rispetto all’osservatore (utile per manipolazione e navigazione) Y Z Y X P (X, Y, Z) P’ (x, y) n Z   P O X

3. Forma La forma di un oggetto si mantiene anche quando la distanza e l’orientamento di un oggetto cambiano a causa del movimento relativo osservatore/oggetto Definizione di forma: ciò che rimane invariato rispetto a un qualche gruppo di trasformazioni (es. rotazioni, traslazioni) Forma di un oggetto e forma di una superficie rispetto al movimento Forma fondamentale per la presa di un oggetto e per il riconoscimento

Questione fondamentale
Dato che nella proiezione prospettiva tutti i punti lungo una stessa direzione nel mondo a 3-D sono stati appiattiti in un unico punto dell’immagine, come si fa a recuperare l’informazione sulle 3-D? Si possono consultare degli indizi: profondità (stereopsi binoculare) tessitura movimento ombre contorni

La profondità Stereopsi binoculare

La stereopsi (visione stereoscopica)
Immagine sinistra destra Oggetto percepito Differenti posizioni di osservazione risultano in viste 2D differenti della stessa scena a 3D. Esperimento dei pollici

La disparità binoculare
Punto lontano Il punto di fissazione cade sempre al centro di ciascuna retina, dove è la massima densità di recettori. Gli altri punti proiettano su entrambe le retine: distanza e direzione dal centro sono determinate dai punti stessi. La profondità relativa di un punto si ricava con la trigonometria. P0 Punto di fissazione Punto vicino Immagine del punto lontano Immagine del punto di fissazione Immagine del punto vicino

La trigonometria Punto di fissazione P0: Calcolo della disparità:
Punto lontano La trigonometria Z Punto di fissazione P0: punto in cui gli assi ottici dei due occhi si intersecano Calcolo della disparità: disparità angolare in radianti - a P0 è 0 - a P è la disparità tra PL e PR,  = /2 + /2 tan(/2) = b / 2 Z per angoli piccoli tan()=  /2 = b / 2 Z e, derivando rispetto a Z, /2Z = -b/Z2 P0 Punto di fissazione  /2 /2 Punto vicino Z b /2 b /2 b PL PR Immagine del punto lontano Immagine del punto di fissazione Immagine del punto vicino

Dati numerici i possono fare delle assunzioni plausibili sul funzionamento della geometria (della visione) si conosce l’orientamento relativo degli occhi (presenza dei muscoli oculari comandati dal cervello) anche per le telecamere questo è possibile negli umani, b=6 cm Per Z=100cm il più piccolo  rilevabile è 2.42 x 10-5 radianti ciò corrisponde a Z di circa 0.4 mm Per Z=30 cm si arriva a un Z di circa mm

Il problema della corrispondenza
Come si fa a mettere in corrispondenza (matching ) le proiezioni che nelle due immagini visive corrispondono a uno stesso punto della scena? si matchano le stesse posizioni sulle due retine (o immagini della telecamera): non è utile a causa della disparità tra le due immagini processi top-down e bottom up

Top-down e bottom -up top-down bottom-up
si identificano gli oggetti nella scena e si matchano le medesime parti degli oggetti nelle due immagini circolo vizioso: la visione stereoscopica serve a identificare la profondità e l’orientamento delle superfici per poi identificare gli oggetti bottom-up si matchano i valori di intensità delle due matrici problema: le intensità dei punti corrispondenti possono essere diverse per i due occhi (esperimento lente affumicata davanti a un solo occhio)

Come si fa? il problema “top-down o bottom-up o entrambi” nasce quando si desidera assegnare una struttura a dei dati secondo qualche principio top-down: si usano i principi per predire i dettagli dei dati (struttura degli oggetti per predire le disparità retiniche) bottom-up: si usano i dati per predire le strutture a livello più alto (disparità retiniche per struttura oggetti) differenti modalità di predizione: qual è la migliore? le sole considerazioni computazionali non permettono di decidere quale modalità adotta un sistema cognitivo necessità di prove empiriche bottom-up: il sistema funziona senza conoscenze di alto livello top-down: il sistema funziona quando i dati sono degradati

Stereogrammi: evidenza per bottom-up
stereoscopio: strumento che presenta agli occhi separatamente due immagini di una stessa scena stereogrammi su pagine opposte specchi uniti insieme

Stereogrammi con figure geometriche (‘800)
il sistema visivo fonde le due immagini: l’osservatore vede una scena unica con una forte impressione di profondità

Stereogrammi a punti casuali di Julesz (anni ‘60)

Autostereogrammi (1979)

Implicazioni di Julesz
la visione stereoscopica può funzionare bottom-up non si possono vedere le immagini senza la stereopsi le conoscenze di alto livello non aiutano la stereopsi Frisby, Clatworthy: dire alle persone che cosa si dovrebbe vedere non rende più veloce la percezione La visione stereoscopica potrebbe essere ampiamente indipendente da altri processi visivi essere un modulo separato del sistema visivo stesso

Vincoli al matching stereoscopico
due fatti relativi al mondo e cablati nel cervello che guidano il processo di matching vincolo di unicità: una cosa non può essere allo stesso tempo in due posti diversi un punto di una immagine può essere matchato con uno e un solo punto dell’altra immagine vincolo di continuità: poiché le superfici degli oggetti sono di solito opache e lisce, la loro profondità varia lungo un continuum (non a balzi) punti adiacenti di un’immagine tenderanno a rappresentare punti della scena con profondità simile

Vincoli di unicità e continuità
un osservatore guarda un oggetto si considerano 3 punti adiacenti le linee ottiche si incrociano in 9 punti i 9 punti sono potenzialmente effettivi ma quali sono i 3 genuini?

vincolo di unicità: non più di un punto si trova su una linea ottica
Profondità Profondità Profondità Possibile Non possibile Possibile

vincolo di continuità: le superfici degli oggetti variano gradualmente
Profondità Non possibile Profondità Possibile Profondità Possibile

Implementazione dei vincoli
punti di fusione rappresentati da una matrice mentale di processori (un processore per fusione) con grado di attività = probabilità di fusione rappresentazione dei vincoli = collegamento adeguato dei processori vincolo di unicità: legami inibitori tra processori sulla stessa linea di vista ogni volta che un processore indica una possibile fusione, gli altri processori sulla stessa linea vengono inibiti vincolo di continuità: legami eccitatori tra processori alla stessa profondità rispetto all’osservatore ogni volta che un processore indica una possibile fusione, gli altri processori alla stessa profondità vengono eccitati

Implementazione dei vincoli
legami eccitatori legami inibitori

Stereogrammi a punti casuali: un programma
programma per la visione stereoscopica basato su i vincoli di unicità e continuità (Marr e Poggio) funziona direttamente su elementi che rappresentano i punti casuali come si mettono in relazione i punti quando le profondità sono diverse (a causa della disparità) frammento di una riga della matrice sinistra frammento di una riga della matrice destra

Il programma vasta matrice di processori che operano in parallelo (operazioni locali tra processori vicini) comportamento simile alle reti connessioniste cicli di attività fino a valori stabili (“rilassamento”) operazione di “rilassamento” input iniziale: righe dalla coppia di stereogrammi la matrice elabora le fusioni possibili output: processori attivi (punto di fusione) o inerti la configurazione stabile rappresenta le corrispondenze appropriate nei due stereogrammi

Matrice di fusione vincolo di unicità: i processori ricevono
Profondità vincolo di unicità: i processori ricevono inibizione dai processori sulla stessa linea di vista legame eccitatorio legame inibitorio punto di fusione vincolo di continuità: i processori ricevono eccitazione dai vicini sullo stesso piano di profondità

Esempio di rilassamento bidimensionale
3 - 3 3 3 - 3 - 3 3 3 3 - 3 - 3 - 3

Conclusioni sul programma
il programma rende possibile lo svolgimento in parallelo di una grande quantità di operazioni ogni processore ha bisogno dell’informazione proveniente dai suoi vicini tuttavia, il processo richiede un gran numero di cicli le cellule nervose sono molto lente (1/100 di secondo) per ciclo questo programma non è realistico per la visione “veloce” di un mammifero

Come avviene in realtà la visione stereoscopica
qual è l’input della visione stereoscopica umana? dati di basso livello (matrici di pixel organizzate) solo qualche elemento deve essere matchato ma quali elementi vengono matchati? occorre lavorare sulle superfici (a cui si applica il vincolo di continuità) candidati più ovvii i passaggi per zero si assegna un segno + se, da sx a dx, si passa da regione scura a regione chiara si assegna un segno - se, da sx a dx, si passa da regione chiara a regione scura

Programma per la visione stereoscopica reale
si parte con pochi passaggi per zero (sombrero di grandi dimensioni): minore probabilità di errori si matchano passaggi per zero dello stesso segno si procede punto per punto lungo i passaggi per zero (con tolleranza sulle posizioni) se un passaggio per zero ha due match possibili nell’altra immagine, questi ultimi corrisponderanno a elementi a profondità diversa si risolve l’ambiguità con corrispondenze sicure vicine si ripete il tutto con immagini filtrate da sombreri di dimensioni inferiori

Conclusioni sulla profondità
programma usato per analisi di fotografie aeree (profondità utile per scoprire le mimetizzazioni) sebbene psicologicamente plausibile, non è detto che il sistema umano usi la stessa procedura sensibilità alla disparità dimostrata nella corteccia visiva i passaggi per zero forse non sono i candidati corretti in alcuni casi è dimostrato che vengono matchati i picchi non sempre si matchano gli spigoli (tipici passaggi per zero) passaggi per zero solo rumore tra picchi e gole unici elementi certi della visione stereoscopica utilizza elementi di basso livello dello schema primario è guidata da vincoli innati propri del mondo fisico

La tessitura (texture)

La tessitura proprietà delle superfici associate con le qualità tattili che essi suggeriscono in visione, pattern ripetuto spazialmente su una superficie pattern periodici reali, o in senso statistico un gradiente di tessitura è creato dalla presenza di oggetti o segni più o meno della stessa forma o dimensione a intervalli regolari su una superficie Esempi: pattern di aperture (finestre e balconi) su un edificio macchie sulla pelle di un leopardo fili d’erba su un prato gente allo stadio

Esempio Un pattern periodico

Tessitura e superfici Quando i pattern sono regolari è possibile scoprire l’orientamento e la forma delle superfici da una singola immagine Come è possibile? Gli elementi fondamentali della tessitura sono i tasselli La loro dimensione, forma e spaziatura sono “abbastanza” uniformi nella scena 3-D Invece la dimensione, la forma e la spaziatura variano nell’immagine (una volta proiettati)

Esempi di tessitura

Due cause per la variazione nell’immagine
distanza dei singoli tasselli dall’occhio (telecamera) in prospettiva, gli oggetti più distanti appaiono più piccoli il fattore di scala è 1/Z rimpicciolimento della superficie esposta dei tasselli relativo all’orientamento del tassello / linea di vista se il tassello è perpendicolare, non vi è rimpicciolimento il fattore di rimpicciolimento è proporzionale al cos , dove  è l’angolo tra la normale alla superficie e la linea di vista Y n s Z O X

Gradiente di tessitura e orientamento
gradienti di tessitura funzione della forma e dell’orientamento di una superficie connessione tra profondità e orientamento data la profondità di ciascuna parte di una superficie rispetto all’osservatore  orientamento come il sistema visivo calcola l’inclinazione di una superficie fissa gli assi dell’inclinazione in modo che siano perpendicolari alla direzione in cui la densità degli elementi varia di più esistono dei programmi che utilizzano tale metodo, ma non si sa come il sistema umano interpreti i gradienti di tessitura

Processo a due passi misurare i gradienti di tessitura
stimare la forma della superficie, slant e tilt, che darebbero origine ai gradienti misurati

Il movimento

movimento e forma: la dimostrazione di Ullman
Il movimento movimento e forma: la dimostrazione di Ullman si proiettano dei punti su uno schermo punti stazionari: l’osservatore vede soltanto una schermata di punti distribuiti in modo casuale punti in movimento: l’osservatore vede due cilindri che ruotano in direzioni opposte ma i cilindri non esistono: è il movimento a crearli

Stereopsi e movimento il sistema visivo tratta il movimento come la stereopsi occorre mettere in corrispondenza i punti in due immagini separate da una frazione di tempo (risp. spazio) misura dello spostamento di ciascun punto per determinare la profondità delle parti e la direzione del movimento vincolo di unicità: una cosa va in un solo posto cose che appaiono e scompaiono (risp. visibili da un solo occhio)

differenza tra stereopsi e movimento
stereopsi: due occhi vedono la stessa forma in un momento determinato movimento: la forma di un oggetto può mutare nel tempo (aprire e chiudere un pugno)

Teoria computazionale della visione in relazione al movimento
molti problemi irrisolti: qual è l’input al sistema? non può essere la matrice di livelli di grigio passaggi per zero (Marr) ? interpretazione dei punti corrispondenti vincolo di rigidità delle parti degli oggetti: esperimento di Johansson (importanza delle giunture) teoria computazionale di Ullman rigidità: inferire la struttura di oggetti in movimento da immagini separate nel tempo 4 punti in corrispondenza in 3 immagini successive  ricostruzione della loro configurazione statica su 3-D restrizione: i 4 punti non devono essere sullo stesso piano

Il caso del “flusso ottico”
osservatore in movimento rispetto a una superficie ampia (non si può applicare la teoria di Ullman) proprietà matematiche (Longuet-Higgins) orientamento di una superficie rigida in base alla velocità istantanea di cambiamento di una immagine si basa sull’assunzione di rigidità tale computazione si verifica nella visione umana ?

Il flusso ottico movimento apparente risultante nella immagine dal movimento relativo osservatore/scena descrive la direzione e la velocità di elementi dell’immagine contiene informazioni utili sulla struttura della scena Es. oggetti distanti hanno un movimento apparente più lento (movimento  distanza degli oggetti) (a) un cubo di Rubik rotante (b) 1/2 secondo più tardi

Rappresentazione del flusso ottico mediante vettori
vx(x, y) nella direzione x, vy(x, y) nella direzione y per misurare il flusso ottico occorre trovare i punti corrispondenti nelle due immagini successive si considera un blocco di pixel intorno a p(x0, y0) a tempo t0 si confronta tale blocco di pixel con i blocchi intorno ad alcuni pixel candidati q (x0+Dx, y0+Dy) a tempo t0+Dt. due possibili misure di similitudine: somma delle differenze quadrate: (x,y) ((I(x,y,t)-I(x+Dx, y+Dy ,t+Dt))2 correlazione incrociata: (x,y) I(x,y,t) I(x+Dx, y+Dy ,t+Dt) il flusso ottico a (x0, y0) è (vx,vy)=(Dx/Dt, Dy/Dt) Dx/Dt t Dy/Dt t+Dt

Equazioni velocità dell’osservatore, flusso ottico, posizione degli oggetti nella scena Si può recuperare la profondità data la dimensione dei vettori del flusso ottico vx(x,y)= -Tx+xTz Z(x,y) vy(x,y)= -Ty+yTz Z(x,y)

La prospettiva e i contorni
Indizi dati dalle distorsioni della forma dovute alla proiezione

Contorno e forma E’ utile il contorno per ricavare la forma di una superficie o oggetto? La mano può proiettare un coniglio sul muro visione impossibile? infinite forme 3-D proiettano la stessa immagine 2-D top-down (conoscenza sui conigli) o bottom-up ?

Ancora i vincoli innati (Marr)
assunzione: ciascun punto nell’immagine di un contorno ha una e una sola corrispondenza sul contorno reale dell’oggetto tutti i punti del contorno giacciono su un unico piano guardando una silhouette, ciascuna linea di vista passa per un punto soltanto eccezioni: particolari punti di vista producono punti su piani diversi

Casi standard la percezione della forma reale di un oggetto avviene più facilmente per i casi standard casi standard oggetti appartenenti a classi parametrizzate di forme Es.: poliedri o solidi derivati da rivoluzioni di superfici l’ambiguità data dalla proiezione prospettiva si può risolvere imponendo i vincoli appropriati per la classe di oggetti in questione

Disegni senza sfumature e con ombre
La ricerca in IA

Interpretazione di una scena 3-D costituita da disegni senza sfumature
idea di base: uso della conoscenza del mondo impone vincoli all’interpretazione dei simboli primitivi in un disegno (linee e punti di incontro di linee) rende possibile un’interpretazione 3-D sensata programma di Clowes (o Huffman) input: disegni senza sfumature dal mondo dei blocchi assunzioni: i blocchi hanno superfici piane soltanto 3 superfici piane si incontrano in un angolo output: ciascun simbolo primitivo del disegno riceve un’etichetta che ne rappresenta l’interpretazione 3-D

Il programma di interpretazione
base del programma: dizionario dei significati possibili di ciascun tipo di simbolo primitivo che può comparire in un disegno Es. linea retta (4 significati) spigolo esterno di un oggetto spigolo interno di un oggetto concavo convesso superficie oggetto superficie oggetto superficie oggetto superficie oggetto superficie oggetto superficie oggetto sfondo sfondo

Mondo dei blocchi (seicentesco)
4 tipi di giunzione: L, T, Y, 

Interpretazioni delle giunzioni
4 interpretazioni possibili per una linea 16 per una giunzione a L, 16 per T, 64 per Y, 64 per  molte combinazioni non sono possibili (superfici in comune tra gli spigoli) vincoli di alto livello sull’interpretazione di un disegno l’interpretazione dei simboli primitivi (linee e giunzioni) deve essere coerente possibilità di oggetti impossibili

Oggetti impossibili Linea tra A e B. - nei pressi di A:
sx: superficie occlusa dx: superficie (orizzontale) - nei pressi di B: sx: superficie (verticale) A B C D Linea tra C e D. nei pressi di C: sx: superficie occlusa dx: superficie (orizzontale) nei pressi di B: sx: superficie (orizzontale) dx: superficie (verticale)

Procedura di Clowes e Huffman
ripeti assegna a ciascun primitivo tutte le interpretazioni ammissibili controlla la coerenza di ogni assegnazione con le assegnazioni di un vicino si eliminano le interpretazioni incoerenti si passa a un altro primitivo fino a esaurimento dei primitivi se l’oggetto è possibile si danno in output tutte le interpretazioni del disegno altrimenti: non si dà alcuna interpretazione

Le ombre di Waltz Complicazioni come introdurre ombre, blocchi più complessi, configurazioni più complesse, portano a delle semplificazioni Una linea può denotare - una discontinuità di un blocco - il margine di un’ombra Informazioni dalle ombre: un oggetto poggia su una superficie o è vicino a essa

Etichettatura di Waltz
+ + + _ _ + : spigolo convesso °: ombre  : spigolo oscurante -: spigolo concavo C : discontinuità - : spigolo concavo separabile

Risultati dell’approccio IA
distinzione tra forma e funzione (risultati di Sutherland sugli animali) dominio dell’immagine (linee, regioni, giunzioni) dominio della scena (superfici, spigoli, forme) dominio degli oggetti funzionali (seggiole, tavoli, persone) stimolo per la ricerca sperimentale: scene semplici generano domande complesse

Limiti dell’approccio
difficoltà nel riconoscere l’impossibilità di alcuni oggetti critica di Marr: l’approccio non è in grado di trattare la questione di cosa deve essere computato il risultato umano è un’interpretazione 3-D della scena qui solo orientamento di superfici connesse

Dove arriva la percezione pura
Lo schema a 2-D e 1/2 Dove arriva la percezione pura

La percezione pura la mente deve possedere informazioni indipendenti supplementari sul mondo (vincoli innati) unicità, continuità di superfici, rigidità, vincoli sui contorni risultati: profondità e orientamento delle superfici altri indici: brillantezza e colore, ombreggiatura, contorni anch’essi basati su vincoli innati (risultati: forma) percezione pura: insieme dei moduli visivi che operano indipendentemente dalla conoscenza partono dalla matrice di livelli di grigio producono lo schema primario (bottom-up) percezione delle superfici (visione stereoscopica, movimento, contorni) tramite vincoli innati

Lo schema a 2-D e 1/2 ultimo stadio della percezione pura: rappresentazione esplicita di profondità relativa e orientamento di ciascuna superficie visibile rappresentazione che non rende completamente esplicite le relazioni 3-D degli oggetti (la profondità è relativa all’osservatore) fonti dello schema: visione stereoscopica, movimento, contorno, ... indici di profondità integra le info fornite dalle fonti, stabilisce la coerenza e riempie le parti mancanti delle superfici Non è noto se il sistema visivo umano costruisca una tale rappresentazione

Sketch a 2-D e 1/2 puntaspilli: ciascuno spillo rappresenta
profondità e orientamento di una regione

Conclusioni sulla percezione pura
Molti programmi simulano gli indici illustrati non si riesce ancora a simulare tutti i processi connessi alla percezione della profondità lo schema a 2-D e 1/2 non è sufficiente a far muovere il robot nel mondo (superfici visibili dal punto di vista del robot) Rappresentazione di una scena: deve rendere possibile l’identificazione degli oggetti deve essere indipendente dal punto di vista particolare Non risulta esclusivamente dalla percezione pura: dipende anche dalle esperienze personali

Rappresentazione ad alto livello
La struttura 3-D indipendente dal punto di vista dell’osservatore

Processi tipici di alto livello
Riconoscimento di oggetti e volti Percezione di scene e effetti contestuali Effetti delle intenzioni e delle conoscenze sugli oggetti sulla percezione Strutture mentali in grado di integrare viste successive di oggetti e scene

Oggetti e scene obiettivo di un sistema visivo: rappresentazione simbolica del mondo a 3-D (che cosa è dove ) tre problemi per il sistema visivo: percepire le forme 3-D degli oggetti identificare gli oggetti sulla base della forma (che cosa): riconoscimento di oggetti percepire la collocazione relativa nello spazio (dove): localizzazione degli oggetti

percezione della forma e delle relazioni spaziali
un solo compito su scale diverse scena come oggetto complesso con più oggetti componenti, oggetti che si muovono in relazione agli altri oggetto costituito da più parti componenti, parti in movimento rispetto alle altre parti differenze gli oggetti hanno nomi e funzioni, le scene no (di solito)

Costruire il modello 3-D: input (schema a 2-D e 1/2)
rappresentazione simbolica della profondità e dell’orientamento delle superfici nel campo visivo tale rappresentazione cambia quando il sistema si muove rappresentazione più utile e stabile se rende esplicite sia la forma a 3-D intrinseca degli oggetti che le relazioni spaziali tra di essi

Costruire il modello 3-D: output (modello 3-D della scena)
rende esplicita la forma di tutto ciò che si trova nella scena (aree piene e spazi vuoti) cosa si intende esattamente NO: il programma che manipola il modello funziona come se la realizzazione fisica dell’hw fosse 3-D SI: gli elementi riconosciuti devono essere raggiungibili e manipolabili specificando le posizioni in 3 coordinate

Costruire il modello 3-D: operazioni
dipendono dallo schema a 2-D e 1/2 sono costituite da trasformazioni geometriche esistono programmi che fanno queste operazioni e presentano scene da più punti di vista non è noto come il sistema umano operi tali trasformazioni

L’identificazione degli oggetti
confronto tra la descrizione dell’oggetto percepito e un catalogo mentale delle forme 3-D descrizione dell’oggetto a partire dallo schema 2-D e 1/2 lo schema non sempre contiene dati sufficienti Es.: recuperare oggetto completo da elementi parziali si fa appello a conoscenza derivata dall’esperienza del mondo meccanismo inconscio

Cosa deve spiegare una teoria adeguata
Accuratezza nel riconoscimento di oggetti nonostante cambiamenti di dimensione, localizzazione, orientamento Come si rappresentano le relazioni spaziali tra le componenti di un oggetto (riconoscimento degli oggetti avviene in aree cerebrali diverse da quella spaziale) Attributi del riconoscimento a livello base e a livello subordinato (riconoscimento di una vipera sia rettile che come serpente)

Due approcci principali 1. Biederman
oggetti analizzati in parti primitive determinate nelle estremità concave dei contorni (geoni) parti memorizzate come componenti astratte processo di riconoscimento si estraggono tali componenti dalla descrizione, inclusa la loro relazione spaziale si confronta tale struttura con il catalogo facilità di riconoscimento se l’orientamento permette una buona estrazione delle componenti si memorizzano solo poche viste dell’oggetto

Due approcci fondamentali 2. Tarr, Rock, ...
Sono viste specifiche degli oggetti a essere rappresentate da proprietà fondamentali (es. proprietà geometriche) Il riconoscimento diventa dipendente dall’orientamento Si memorizzano diverse viste di un oggetto (una vista non in catalogo richiede più elaborazione) Processo di riconoscimento Si computano le proprietà Si seleziona il modello con il maggior fit dei valori

Evidenza empirica Si sta accumulando evidenza a favore di Tarr (orientation-dependent) cronologicamente successiva a Biederman riconoscimento di oggetti a partire da viste multiple dell’oggetto in memoria Tuttavia, le estremità concave sono più importanti per il riconoscimento di altri segmenti del contorno la struttura influenza in modo critico il riconoscimento forse occorrerà un’integrazione delle due teorie

Scomposizione in parti primitive (Roberts 1963, MIT)
obiettivo: interpretazione di fotografie di oggetti in un mondo dei blocchi identificando dei prototipi immagazzinati in memoria idea: tutte le forme possono essere decomposte in un vocabolario primitivo di forme solide elementari (3 prototipi solidi)

Il programma parte bottom-up parte top-down
converte una fotografia in un disegno senza sfumature (tramite un grossolano identificatore di linee) identificando particolari giunzioni di linee, indica un prototipo (Es. giunzione a Y può attivare il cubo) parte top-down utilizza il prototipo indicato per interpretare la parte restante dell’oggetto nel disegno operazioni sul prototipo per farlo corrispondere all’oggetto della scena proiezioni del prototipo interno a 3-D su immagini a 2-D dimensionamento, rotazione, traslazione del prototipo congiunzione di più prototipi per oggetti complessi

Uso avanzato dei prototipi (Marr, Nishihara 1978)
considerazione di base: l’identificazione di un oggetto può avvenire da molti punti differenti idea: la forma dell’oggetto deve essere specificata con coordinate relative all’oggetto stesso lo schema a 2-D e 1/2 è relativo all’osservatore supporto sperimentale delle immagini mentali: gli esseri umani sono in grado di ... ... immaginare un oggetto da più punti di vista ... ruotare l’oggetto (come cambiare il punto di vista)

La forma degli oggetti idea: muovere una sezione trasversale bidimensionale lungo un asse Es. cerchio  cilindro Es. cerchio con restringimento  cono In generale: sezione trasversale di qualsiasi forma + asse che può cambiare direzione  coni generalizzati Catalogo di Marr e Nishihara tutti le forme di oggetti si possono rappresentare mediante un numero di coni generalizzati idea di base: figure a bastoncino nel disegno infantile lunghezza e struttura degli assi sono misure esplicite: utile nell’identificazione di oggetti complessi

Catalogo di Marr e Nishihara In realtà si usano i coni
generalizzati: geoni Esistono forme che non si possono rappresentare come coni generalizzati Es.: giornali spiegazzati origami

Organizzazione gerarchica degli oggetti complessi

Estensione al movimento (Hogg)
programma che interpreta sequenze cinematografiche di un uomo che cammina prototipo interno, proiettato sull’immagine in movimento vincoli su variabili che controllano gli angoli delle giunture parte bottom-up rilevamento della differenza tra fotogrammi successivi (matrice a livelli di grigio) si traccia un rettangolo intorno all’area di variazione e si assume un asse coincidente con l’asse del prototipo parte top-down far corrispondere i dettagli delle braccia e delle gambe a quelli dell’immagine (dato il punto di osservazione)

Conclusioni su approcci top-down
caratteristica fondamentale: uso di informazioni di alto livello acquisite tramite esperienza relative alla forma degli oggetti assunzione sperimentale: se un processo si verifica anche se i dati di basso livello sono degradati, si può sostenere che tale processo è guidato da conoscenze di alto livello

Conclusioni su approcci top-down
caratteristica fondamentale: uso di informazioni di alto livello acquisite tramite esperienza relative alla forma degli oggetti assunzione sperimentale: se un processo si verifica anche se i dati di basso livello sono degradati, si può sostenere che tale processo è guidato da conoscenze di alto livello Es. questa immagine degradata rappresenta un cane che annusa il terreno vicino a un albero

Attenzione! Non tutte le forme di conoscenza o memoria possono influenzare la percezione Non tutti gli aspetti della percezione possono essere influenzati da conoscenza o memoria Esempio: l’illusione della luna vicino all’orizzonte luna molto più grande che allo zenit ma non cambia dimensione, né occupa più spazio sulla retina E’ una illusione e tale rimane nonostante la conoscenza

Percezione e conoscenza: forma, funzione, identificazione
concetto di tavolo (Miller, Johnson-Laird) i tavoli non hanno una forma canonica (come gli umani) è possibile riconoscere tavoli di forme mai viste prima un manufatto è identificato come membro di una categoria perché le sue proprietà visibili sono appropriate per una funzione particolare capacità di “vedere” le potenzialità inerenti al manufatto Es. tavolo: superficie su cui appoggiare utensili riconoscimento avanzato (nessun programma) dalla forma alla funzione, e dalla funzione alla forma eccezioni: forma funzione (regalo misterioso)

Riconoscimento visivo e neuropsicologia
distinzione tra i meccanismi preposti alla percezione della forma e della funzione (Warrington) danno al lobo parietale sinistro: compromessa capacità di riconoscere la funzione di un oggetto intatta la capacità di percepirne la forma a 3-D danno al lobo parietale destro (effetti opposti) doppia dissociazione tra due capacità capacità controllate da moduli differenti: possono essere compromesse in maniera indipendente i risultati sperimentali confermano la distinzione tra i meccanismi percettivi sottostanti a forma e funzione conclusione: il riconoscimento visivo esiste!

Conclusioni generali sulla visione
problema della visione: quali oggetti hanno provocato le configurazioni luminose sulla retina? più scene possono causare la stessa configurazione la mente sembra lavorare con due tipi di conoscenza bottom-up (modulo di basso livello) nasce dall’evoluzione, è incapsulata nel sistema nervoso questo livello non è molto influenzato dal controllo conscio top-down (modulo di alto livello) acquisita dall’individuo, conoscenza esplicita, accessibile consapevolezza (e non) dell’uso di tale conoscenza (inferenza)

Percezione pura e cognizione
approccio computazionale adeguato data l’immediatezza della percezione? dov’è il confine tra percezione pura e cognizione? Marr: tra lo schema a 2-D e 1/2 e il modello a 3-D dati neuro: tra il modello a 3-D e l’identificazione degli oggetti e delle loro funzioni soltanto due certezze le informazioni sulla profondità relativa non si possono recuperare senza vincoli innati l’identificazione non può avvenire senza utilizzare conoscenze personali

Rappresentazione intermedia

Presentazioni simili

Presentazione sul tema: "Rappresentazione intermedia"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Rappresentazione intermedia

Presentazioni simili

Presentazione sul tema: "Rappresentazione intermedia"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back