Rappresentazione intermedia

Slides:

Advertisements

Presentazioni simili

ILLUSIONI OTTICHE SCIENZE III Ducati Carloni Valentina.

Advertisements

Fenomeni Ondulatori una perturbazione e’ la variazione rispetto alla configurazione di equilibrio di una o piu’ grandezze caratteristiche di un sistema.

Cinematica diretta Un manipolatore è costituito da un insieme di corpi rigidi (bracci) connessi in cascata tramite coppie cinematiche (giunti). Si assume.

Elettrostatica 3 23 maggio 2011

Percezione perché dovremmo chiederci come avviene la percezione?

Orbitali atomici e numeri quantici

Creatività Colori & elementi grafici

il tutto è più della somma delle singole parti

I processi cognitivi Attenzione/Percezione

ELEMENTI DI PSICOLOGIA DELLA PERCEZIONE 1

DIFFICOLTA’ DEL LINGUAGGIO

Elementi di Matematica

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)

Comunicazione e significato

Un manipolatore è costituito da un insieme di corpi rigidi (bracci) connessi in cascata tramite coppie cinematiche (giunti) a formare una catena cinematica.

Illusioni ottiche geometriche

COMPRESENZA LINGUAGGI NON VERBALI - PSICOLOGIA

COMPRESENZA LINGUAGGI NON VERBALI - PSICOLOGIA

DISTANZA E PROFONDITA’

CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.

Alternative al Paradigma Rappresentazionale

Funzioni, Rappresentazioni e Coscienza

Il prodotto vettoriale

Il nostro progetto: la valutazione

Lezione 13 Equazione di Klein-Gordon Equazione di Dirac (prima parte)

Trasmissione neurale: vie tra la retina e il cervello

corso DI GEOMETRIA DESCRITTIVA

Strutture periodiche discrete: introduzione del vincolo di periodicità e studio della ricostruzione da due proiezioni. A. Del Lungo, A. Frosini, M.Nivat,

La percezione dello spazio

Percepire vuol dire assegnare un significato agli stimoli provenienti dagli organi di senso e attribuire loro proprietà fisiche: nitidezza ad un’immagine,

Il Movimento Cinematica.

La “percezione” come fase attiva della conoscenza visiva

LEGGE DELLA VICINANZA Nella figura le rette non vengono percepite singolarmente ma in serie di due. Si vedono quindi tre colonne strette e non due larghe.

Presentazione Attività di Ricerca Secondo periodo – Aprile-Settembre Ottobre 2008.

Matematica della visione

Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,

CORTECCIA CELEBRALE EMISFERI E LOBI ....

Percezione visiva illusione e realtà

Aprofondimenti e Applicazioni

il moto rotatorio di un corpo rigido

Iniziamo a lavorare sui concetti Concetto Regolarità percepita in eventi o oggetti, o in testimonianze/simboli/rappresentazioni di eventi o di oggetti,

Lezione rielaborata da Baldeschi M. Appunti di Pedagogia Speciale, Boso Editore, 2001 e da Baldeschi M. Elementi di Tiflopedagogia, in corso di stampa.

Lente convergente e legge dei punti coniugati in laboratorio

STRATEGIE DI APPRENDIMENTO

PERCEZIONE Processo psicologico di creazione di un’immagine interna del mondo esterno.

Il moto armonico Palermo Filomena.

LABORATORIO DI DISEGNO – CORSO A

LA PERCEZIONE VISIVA QUANDO GUARDIAMO UN OGGETTO ENTRANO IN GIOCO:

PERCORSO DI RICERCA - AZIONE SUL CURRICOLO DI MATEMATICA

OTTICA Ottica geometrica Ottica fisica Progetto Lauree Scientifiche

Psicologia come scienza:

(descrizione quantitativa del moto dei corpi)

Esercizi (attrito trascurabile)

A proposito di spazio scala e di altre features locali... Elisabetta Delponte

PERCEZIONE DELLE FORME

I principi Gestaltici di raggruppamento

Ragionare per paradigmi

MODULO Q OPERAZIONI CON I VOLUMI

L’occhio e la vista (da pagina 172 volume D)

F U N Z I O N I Definizioni Tipi Esponenziale Logaritmica

Trasformazioni geometriche

6. LIMITI Definizione - Funzioni continue - Calcolo dei limiti

L’ambiente e il sistema cognitivo

CHE FARE PER PRIMA ? Troppo sovente ci si precipita a fare qualcosa purché lasci traccia di sé , invece…….

Proprietà macromolecolari Il calcolo delle proprietà macromolecolari implica l’utilizzo della statistica della catena polimerica in termini di distanze.

QUANDO I SENSI CI INGANNANO

SCUOLA MEDIA STATALE “C.COLOMBO”. Percezione di lunghezze Percezione di forme Percezione di colori Completamento di immagini Movimento mimetismo Uccelli.

Modello di Marr (1982) Il sistema visivo analizzerebbe in maniera sequenziale 3 tipi di rappresentazione prima di identificare l’oggetto –Immagine –Primal.

Transcript della presentazione:

Rappresentazione intermedia Da 2-D a 3-D

Rappresentazione intermedia E’ un livello ipotizzato dell’elaborazione visiva E’ calcolata da processi basati sull’osservatore Rappresenta il mondo in modo generale: identificazione di superfici e oggetti (no riconoscimento) loro orientamento e distanza dall’osservatore Sembra essere richiesta per alcuni processi percezione del movimento forme di stereopsi Il primo livello dell’elaborazione i cui risultati sono accessibili a livello della coscienza (attenzione)

Kanizsa (1979)

Il cubo di Kanizsa (da Necker)

Intermedia VS Alto livello Rotazione degli oggetti

Estrazione dell’informazione a 3-D Tre fasi dell’estrazione: segmentazione della scena in oggetti distinti determinare la posizione e l’orientamento di ogni oggetto in relazione all’osservatore determinare la forma di ogni oggetto

1. Segmentazione organizzazione della matrice di pixel in regioni che corrispondono a entità nella scena semanticamente significative output dello stadio iniziale della visione è lo schema primario: individuazione (tramite i contorni) delle aree principali di diversa intensità contorni non rilevati a causa del basso contrasto contorni dovuti a “rumore” o ombre occorre mettere assieme gli elementi di un singolo oggetto in modo da poterlo confrontare con i modelli in memoria (riconoscimento) o da conoscerne la forma (presa)

2. Posizione e orientamento è la posa dell’oggetto rispetto all’osservatore (utile per manipolazione e navigazione) Y Z Y X P (X, Y, Z) P’ (x, y) n Z   P O X

3. Forma La forma di un oggetto si mantiene anche quando la distanza e l’orientamento di un oggetto cambiano a causa del movimento relativo osservatore/oggetto Definizione di forma: ciò che rimane invariato rispetto a un qualche gruppo di trasformazioni (es. rotazioni, traslazioni) Forma di un oggetto e forma di una superficie rispetto al movimento Forma fondamentale per la presa di un oggetto e per il riconoscimento

Questione fondamentale Dato che nella proiezione prospettiva tutti i punti lungo una stessa direzione nel mondo a 3-D sono stati appiattiti in un unico punto dell’immagine, come si fa a recuperare l’informazione sulle 3-D? Si possono consultare degli indizi: profondità (stereopsi binoculare) tessitura movimento ombre contorni

La profondità Stereopsi binoculare

La stereopsi (visione stereoscopica) Immagine sinistra destra Oggetto percepito Differenti posizioni di osservazione risultano in viste 2D differenti della stessa scena a 3D. Esperimento dei pollici

La disparità binoculare Punto lontano Il punto di fissazione cade sempre al centro di ciascuna retina, dove è la massima densità di recettori. Gli altri punti proiettano su entrambe le retine: distanza e direzione dal centro sono determinate dai punti stessi. La profondità relativa di un punto si ricava con la trigonometria. P0 Punto di fissazione Punto vicino Immagine del punto lontano Immagine del punto di fissazione Immagine del punto vicino

La trigonometria Punto di fissazione P0: Calcolo della disparità: Punto lontano La trigonometria Z Punto di fissazione P0: punto in cui gli assi ottici dei due occhi si intersecano Calcolo della disparità: disparità angolare in radianti - a P0 è 0 - a P è la disparità tra PL e PR,  = /2 + /2 tan(/2) = b / 2 Z per angoli piccoli tan()=  /2 = b / 2 Z e, derivando rispetto a Z, /2Z = -b/Z2 P0 Punto di fissazione  /2 /2 Punto vicino Z b /2 b /2 b PL PR Immagine del punto lontano Immagine del punto di fissazione Immagine del punto vicino

Dati numerici i possono fare delle assunzioni plausibili sul funzionamento della geometria (della visione) si conosce l’orientamento relativo degli occhi (presenza dei muscoli oculari comandati dal cervello) anche per le telecamere questo è possibile negli umani, b=6 cm Per Z=100cm il più piccolo  rilevabile è 2.42 x 10-5 radianti ciò corrisponde a Z di circa 0.4 mm Per Z=30 cm si arriva a un Z di circa 0.036 mm

Il problema della corrispondenza Come si fa a mettere in corrispondenza (matching ) le proiezioni che nelle due immagini visive corrispondono a uno stesso punto della scena? si matchano le stesse posizioni sulle due retine (o immagini della telecamera): non è utile a causa della disparità tra le due immagini processi top-down e bottom up

Top-down e bottom -up top-down bottom-up si identificano gli oggetti nella scena e si matchano le medesime parti degli oggetti nelle due immagini circolo vizioso: la visione stereoscopica serve a identificare la profondità e l’orientamento delle superfici per poi identificare gli oggetti bottom-up si matchano i valori di intensità delle due matrici problema: le intensità dei punti corrispondenti possono essere diverse per i due occhi (esperimento lente affumicata davanti a un solo occhio)

Come si fa? il problema “top-down o bottom-up o entrambi” nasce quando si desidera assegnare una struttura a dei dati secondo qualche principio top-down: si usano i principi per predire i dettagli dei dati (struttura degli oggetti per predire le disparità retiniche) bottom-up: si usano i dati per predire le strutture a livello più alto (disparità retiniche per struttura oggetti) differenti modalità di predizione: qual è la migliore? le sole considerazioni computazionali non permettono di decidere quale modalità adotta un sistema cognitivo necessità di prove empiriche bottom-up: il sistema funziona senza conoscenze di alto livello top-down: il sistema funziona quando i dati sono degradati

Stereogrammi: evidenza per bottom-up stereoscopio: strumento che presenta agli occhi separatamente due immagini di una stessa scena stereogrammi su pagine opposte specchi uniti insieme

Stereogrammi con figure geometriche (‘800) il sistema visivo fonde le due immagini: l’osservatore vede una scena unica con una forte impressione di profondità

Stereogrammi a punti casuali di Julesz (anni ‘60)

Autostereogrammi (1979)

Implicazioni di Julesz la visione stereoscopica può funzionare bottom-up non si possono vedere le immagini senza la stereopsi le conoscenze di alto livello non aiutano la stereopsi Frisby, Clatworthy: dire alle persone che cosa si dovrebbe vedere non rende più veloce la percezione La visione stereoscopica potrebbe essere ampiamente indipendente da altri processi visivi essere un modulo separato del sistema visivo stesso

Vincoli al matching stereoscopico due fatti relativi al mondo e cablati nel cervello che guidano il processo di matching vincolo di unicità: una cosa non può essere allo stesso tempo in due posti diversi un punto di una immagine può essere matchato con uno e un solo punto dell’altra immagine vincolo di continuità: poiché le superfici degli oggetti sono di solito opache e lisce, la loro profondità varia lungo un continuum (non a balzi) punti adiacenti di un’immagine tenderanno a rappresentare punti della scena con profondità simile

Vincoli di unicità e continuità un osservatore guarda un oggetto si considerano 3 punti adiacenti le linee ottiche si incrociano in 9 punti i 9 punti sono potenzialmente effettivi ma quali sono i 3 genuini?

vincolo di unicità: non più di un punto si trova su una linea ottica Profondità Profondità Profondità Possibile Non possibile Possibile

vincolo di continuità: le superfici degli oggetti variano gradualmente Profondità Non possibile Profondità Possibile Profondità Possibile

Implementazione dei vincoli punti di fusione rappresentati da una matrice mentale di processori (un processore per fusione) con grado di attività = probabilità di fusione rappresentazione dei vincoli = collegamento adeguato dei processori vincolo di unicità: legami inibitori tra processori sulla stessa linea di vista ogni volta che un processore indica una possibile fusione, gli altri processori sulla stessa linea vengono inibiti vincolo di continuità: legami eccitatori tra processori alla stessa profondità rispetto all’osservatore ogni volta che un processore indica una possibile fusione, gli altri processori alla stessa profondità vengono eccitati

Implementazione dei vincoli legami eccitatori legami inibitori

Stereogrammi a punti casuali: un programma programma per la visione stereoscopica basato su i vincoli di unicità e continuità (Marr e Poggio) funziona direttamente su elementi che rappresentano i punti casuali come si mettono in relazione i punti quando le profondità sono diverse (a causa della disparità) frammento di una riga della matrice sinistra frammento di una riga della matrice destra

Il programma vasta matrice di processori che operano in parallelo (operazioni locali tra processori vicini) comportamento simile alle reti connessioniste cicli di attività fino a valori stabili (“rilassamento”) operazione di “rilassamento” input iniziale: righe dalla coppia di stereogrammi la matrice elabora le fusioni possibili output: processori attivi (punto di fusione) o inerti la configurazione stabile rappresenta le corrispondenze appropriate nei due stereogrammi

Matrice di fusione vincolo di unicità: i processori ricevono Profondità vincolo di unicità: i processori ricevono inibizione dai processori sulla stessa linea di vista legame eccitatorio legame inibitorio punto di fusione vincolo di continuità: i processori ricevono eccitazione dai vicini sullo stesso piano di profondità

Esempio di rilassamento bidimensionale 3 - 3 3 3 - 3 - 3 3 3 3 - 3 - 3 - 3

Conclusioni sul programma il programma rende possibile lo svolgimento in parallelo di una grande quantità di operazioni ogni processore ha bisogno dell’informazione proveniente dai suoi vicini tuttavia, il processo richiede un gran numero di cicli le cellule nervose sono molto lente (1/100 di secondo) per ciclo questo programma non è realistico per la visione “veloce” di un mammifero

Come avviene in realtà la visione stereoscopica qual è l’input della visione stereoscopica umana? dati di basso livello (matrici di pixel organizzate) solo qualche elemento deve essere matchato ma quali elementi vengono matchati? occorre lavorare sulle superfici (a cui si applica il vincolo di continuità) candidati più ovvii i passaggi per zero si assegna un segno + se, da sx a dx, si passa da regione scura a regione chiara si assegna un segno - se, da sx a dx, si passa da regione chiara a regione scura

Programma per la visione stereoscopica reale si parte con pochi passaggi per zero (sombrero di grandi dimensioni): minore probabilità di errori si matchano passaggi per zero dello stesso segno si procede punto per punto lungo i passaggi per zero (con tolleranza sulle posizioni) se un passaggio per zero ha due match possibili nell’altra immagine, questi ultimi corrisponderanno a elementi a profondità diversa si risolve l’ambiguità con corrispondenze sicure vicine si ripete il tutto con immagini filtrate da sombreri di dimensioni inferiori

Conclusioni sulla profondità programma usato per analisi di fotografie aeree (profondità utile per scoprire le mimetizzazioni) sebbene psicologicamente plausibile, non è detto che il sistema umano usi la stessa procedura sensibilità alla disparità dimostrata nella corteccia visiva i passaggi per zero forse non sono i candidati corretti in alcuni casi è dimostrato che vengono matchati i picchi non sempre si matchano gli spigoli (tipici passaggi per zero) passaggi per zero solo rumore tra picchi e gole unici elementi certi della visione stereoscopica utilizza elementi di basso livello dello schema primario è guidata da vincoli innati propri del mondo fisico

La tessitura (texture)

La tessitura proprietà delle superfici associate con le qualità tattili che essi suggeriscono in visione, pattern ripetuto spazialmente su una superficie pattern periodici reali, o in senso statistico un gradiente di tessitura è creato dalla presenza di oggetti o segni più o meno della stessa forma o dimensione a intervalli regolari su una superficie Esempi: pattern di aperture (finestre e balconi) su un edificio macchie sulla pelle di un leopardo fili d’erba su un prato gente allo stadio

Esempio Un pattern periodico

Tessitura e superfici Quando i pattern sono regolari è possibile scoprire l’orientamento e la forma delle superfici da una singola immagine Come è possibile? Gli elementi fondamentali della tessitura sono i tasselli La loro dimensione, forma e spaziatura sono “abbastanza” uniformi nella scena 3-D Invece la dimensione, la forma e la spaziatura variano nell’immagine (una volta proiettati)

Esempi di tessitura

Due cause per la variazione nell’immagine distanza dei singoli tasselli dall’occhio (telecamera) in prospettiva, gli oggetti più distanti appaiono più piccoli il fattore di scala è 1/Z rimpicciolimento della superficie esposta dei tasselli relativo all’orientamento del tassello / linea di vista se il tassello è perpendicolare, non vi è rimpicciolimento il fattore di rimpicciolimento è proporzionale al cos , dove  è l’angolo tra la normale alla superficie e la linea di vista Y n s Z O X

Gradiente di tessitura e orientamento gradienti di tessitura funzione della forma e dell’orientamento di una superficie connessione tra profondità e orientamento data la profondità di ciascuna parte di una superficie rispetto all’osservatore  orientamento come il sistema visivo calcola l’inclinazione di una superficie fissa gli assi dell’inclinazione in modo che siano perpendicolari alla direzione in cui la densità degli elementi varia di più esistono dei programmi che utilizzano tale metodo, ma non si sa come il sistema umano interpreti i gradienti di tessitura

Processo a due passi misurare i gradienti di tessitura stimare la forma della superficie, slant e tilt, che darebbero origine ai gradienti misurati

Il movimento

movimento e forma: la dimostrazione di Ullman Il movimento movimento e forma: la dimostrazione di Ullman si proiettano dei punti su uno schermo punti stazionari: l’osservatore vede soltanto una schermata di punti distribuiti in modo casuale punti in movimento: l’osservatore vede due cilindri che ruotano in direzioni opposte ma i cilindri non esistono: è il movimento a crearli

Stereopsi e movimento il sistema visivo tratta il movimento come la stereopsi occorre mettere in corrispondenza i punti in due immagini separate da una frazione di tempo (risp. spazio) misura dello spostamento di ciascun punto per determinare la profondità delle parti e la direzione del movimento vincolo di unicità: una cosa va in un solo posto cose che appaiono e scompaiono (risp. visibili da un solo occhio)

differenza tra stereopsi e movimento stereopsi: due occhi vedono la stessa forma in un momento determinato movimento: la forma di un oggetto può mutare nel tempo (aprire e chiudere un pugno)

Teoria computazionale della visione in relazione al movimento molti problemi irrisolti: qual è l’input al sistema? non può essere la matrice di livelli di grigio passaggi per zero (Marr) ? interpretazione dei punti corrispondenti vincolo di rigidità delle parti degli oggetti: esperimento di Johansson (importanza delle giunture) teoria computazionale di Ullman rigidità: inferire la struttura di oggetti in movimento da immagini separate nel tempo 4 punti in corrispondenza in 3 immagini successive  ricostruzione della loro configurazione statica su 3-D restrizione: i 4 punti non devono essere sullo stesso piano

Il caso del “flusso ottico” osservatore in movimento rispetto a una superficie ampia (non si può applicare la teoria di Ullman) proprietà matematiche (Longuet-Higgins) orientamento di una superficie rigida in base alla velocità istantanea di cambiamento di una immagine si basa sull’assunzione di rigidità tale computazione si verifica nella visione umana ?

Il flusso ottico movimento apparente risultante nella immagine dal movimento relativo osservatore/scena descrive la direzione e la velocità di elementi dell’immagine contiene informazioni utili sulla struttura della scena Es. oggetti distanti hanno un movimento apparente più lento (movimento  distanza degli oggetti) (a) un cubo di Rubik rotante (b) 1/2 secondo più tardi

Rappresentazione del flusso ottico mediante vettori vx(x, y) nella direzione x, vy(x, y) nella direzione y per misurare il flusso ottico occorre trovare i punti corrispondenti nelle due immagini successive si considera un blocco di pixel intorno a p(x0, y0) a tempo t0 si confronta tale blocco di pixel con i blocchi intorno ad alcuni pixel candidati q (x0+Dx, y0+Dy) a tempo t0+Dt. due possibili misure di similitudine: somma delle differenze quadrate: (x,y) ((I(x,y,t)-I(x+Dx, y+Dy ,t+Dt))2 correlazione incrociata: (x,y) I(x,y,t) I(x+Dx, y+Dy ,t+Dt) il flusso ottico a (x0, y0) è (vx,vy)=(Dx/Dt, Dy/Dt) Dx/Dt t Dy/Dt t+Dt

Equazioni velocità dell’osservatore, flusso ottico, posizione degli oggetti nella scena Si può recuperare la profondità data la dimensione dei vettori del flusso ottico vx(x,y)= -Tx+xTz Z(x,y) vy(x,y)= -Ty+yTz Z(x,y)

La prospettiva e i contorni Indizi dati dalle distorsioni della forma dovute alla proiezione

Contorno e forma E’ utile il contorno per ricavare la forma di una superficie o oggetto? La mano può proiettare un coniglio sul muro visione impossibile? infinite forme 3-D proiettano la stessa immagine 2-D top-down (conoscenza sui conigli) o bottom-up ?

Ancora i vincoli innati (Marr) assunzione: ciascun punto nell’immagine di un contorno ha una e una sola corrispondenza sul contorno reale dell’oggetto tutti i punti del contorno giacciono su un unico piano guardando una silhouette, ciascuna linea di vista passa per un punto soltanto eccezioni: particolari punti di vista producono punti su piani diversi

Casi standard la percezione della forma reale di un oggetto avviene più facilmente per i casi standard casi standard oggetti appartenenti a classi parametrizzate di forme Es.: poliedri o solidi derivati da rivoluzioni di superfici l’ambiguità data dalla proiezione prospettiva si può risolvere imponendo i vincoli appropriati per la classe di oggetti in questione

Disegni senza sfumature e con ombre La ricerca in IA

Interpretazione di una scena 3-D costituita da disegni senza sfumature idea di base: uso della conoscenza del mondo impone vincoli all’interpretazione dei simboli primitivi in un disegno (linee e punti di incontro di linee) rende possibile un’interpretazione 3-D sensata programma di Clowes (o Huffman) input: disegni senza sfumature dal mondo dei blocchi assunzioni: i blocchi hanno superfici piane soltanto 3 superfici piane si incontrano in un angolo output: ciascun simbolo primitivo del disegno riceve un’etichetta che ne rappresenta l’interpretazione 3-D

Il programma di interpretazione base del programma: dizionario dei significati possibili di ciascun tipo di simbolo primitivo che può comparire in un disegno Es. linea retta (4 significati) spigolo esterno di un oggetto spigolo interno di un oggetto concavo convesso superficie oggetto superficie oggetto superficie oggetto superficie oggetto superficie oggetto superficie oggetto sfondo sfondo

Mondo dei blocchi (seicentesco) 4 tipi di giunzione: L, T, Y, 

Interpretazioni delle giunzioni 4 interpretazioni possibili per una linea 16 per una giunzione a L, 16 per T, 64 per Y, 64 per  molte combinazioni non sono possibili (superfici in comune tra gli spigoli) vincoli di alto livello sull’interpretazione di un disegno l’interpretazione dei simboli primitivi (linee e giunzioni) deve essere coerente possibilità di oggetti impossibili

Oggetti impossibili Linea tra A e B. - nei pressi di A: sx: superficie occlusa dx: superficie (orizzontale) - nei pressi di B: sx: superficie (verticale) A B C D Linea tra C e D. nei pressi di C: sx: superficie occlusa dx: superficie (orizzontale) nei pressi di B: sx: superficie (orizzontale) dx: superficie (verticale)

Procedura di Clowes e Huffman ripeti assegna a ciascun primitivo tutte le interpretazioni ammissibili controlla la coerenza di ogni assegnazione con le assegnazioni di un vicino si eliminano le interpretazioni incoerenti si passa a un altro primitivo fino a esaurimento dei primitivi se l’oggetto è possibile si danno in output tutte le interpretazioni del disegno altrimenti: non si dà alcuna interpretazione

Le ombre di Waltz Complicazioni come introdurre ombre, blocchi più complessi, configurazioni più complesse, portano a delle semplificazioni Una linea può denotare - una discontinuità di un blocco - il margine di un’ombra Informazioni dalle ombre: un oggetto poggia su una superficie o è vicino a essa

Etichettatura di Waltz + + + _ _ + : spigolo convesso °: ombre  : spigolo oscurante -: spigolo concavo C : discontinuità - : spigolo concavo separabile

Risultati dell’approccio IA distinzione tra forma e funzione (risultati di Sutherland sugli animali) dominio dell’immagine (linee, regioni, giunzioni) dominio della scena (superfici, spigoli, forme) dominio degli oggetti funzionali (seggiole, tavoli, persone) stimolo per la ricerca sperimentale: scene semplici generano domande complesse

Limiti dell’approccio difficoltà nel riconoscere l’impossibilità di alcuni oggetti critica di Marr: l’approccio non è in grado di trattare la questione di cosa deve essere computato il risultato umano è un’interpretazione 3-D della scena qui solo orientamento di superfici connesse

Dove arriva la percezione pura Lo schema a 2-D e 1/2 Dove arriva la percezione pura

La percezione pura la mente deve possedere informazioni indipendenti supplementari sul mondo (vincoli innati) unicità, continuità di superfici, rigidità, vincoli sui contorni risultati: profondità e orientamento delle superfici altri indici: brillantezza e colore, ombreggiatura, contorni anch’essi basati su vincoli innati (risultati: forma) percezione pura: insieme dei moduli visivi che operano indipendentemente dalla conoscenza partono dalla matrice di livelli di grigio producono lo schema primario (bottom-up) percezione delle superfici (visione stereoscopica, movimento, contorni) tramite vincoli innati

Lo schema a 2-D e 1/2 ultimo stadio della percezione pura: rappresentazione esplicita di profondità relativa e orientamento di ciascuna superficie visibile rappresentazione che non rende completamente esplicite le relazioni 3-D degli oggetti (la profondità è relativa all’osservatore) fonti dello schema: visione stereoscopica, movimento, contorno, ... indici di profondità integra le info fornite dalle fonti, stabilisce la coerenza e riempie le parti mancanti delle superfici Non è noto se il sistema visivo umano costruisca una tale rappresentazione

Sketch a 2-D e 1/2 puntaspilli: ciascuno spillo rappresenta profondità e orientamento di una regione

Conclusioni sulla percezione pura Molti programmi simulano gli indici illustrati non si riesce ancora a simulare tutti i processi connessi alla percezione della profondità lo schema a 2-D e 1/2 non è sufficiente a far muovere il robot nel mondo (superfici visibili dal punto di vista del robot) Rappresentazione di una scena: deve rendere possibile l’identificazione degli oggetti deve essere indipendente dal punto di vista particolare Non risulta esclusivamente dalla percezione pura: dipende anche dalle esperienze personali

Rappresentazione ad alto livello La struttura 3-D indipendente dal punto di vista dell’osservatore

Processi tipici di alto livello Riconoscimento di oggetti e volti Percezione di scene e effetti contestuali Effetti delle intenzioni e delle conoscenze sugli oggetti sulla percezione Strutture mentali in grado di integrare viste successive di oggetti e scene

Oggetti e scene obiettivo di un sistema visivo: rappresentazione simbolica del mondo a 3-D (che cosa è dove ) tre problemi per il sistema visivo: percepire le forme 3-D degli oggetti identificare gli oggetti sulla base della forma (che cosa): riconoscimento di oggetti percepire la collocazione relativa nello spazio (dove): localizzazione degli oggetti

percezione della forma e delle relazioni spaziali un solo compito su scale diverse scena come oggetto complesso con più oggetti componenti, oggetti che si muovono in relazione agli altri oggetto costituito da più parti componenti, parti in movimento rispetto alle altre parti differenze gli oggetti hanno nomi e funzioni, le scene no (di solito)

Costruire il modello 3-D: input (schema a 2-D e 1/2) rappresentazione simbolica della profondità e dell’orientamento delle superfici nel campo visivo tale rappresentazione cambia quando il sistema si muove rappresentazione più utile e stabile se rende esplicite sia la forma a 3-D intrinseca degli oggetti che le relazioni spaziali tra di essi

Costruire il modello 3-D: output (modello 3-D della scena) rende esplicita la forma di tutto ciò che si trova nella scena (aree piene e spazi vuoti) cosa si intende esattamente NO: il programma che manipola il modello funziona come se la realizzazione fisica dell’hw fosse 3-D SI: gli elementi riconosciuti devono essere raggiungibili e manipolabili specificando le posizioni in 3 coordinate

Costruire il modello 3-D: operazioni dipendono dallo schema a 2-D e 1/2 sono costituite da trasformazioni geometriche esistono programmi che fanno queste operazioni e presentano scene da più punti di vista non è noto come il sistema umano operi tali trasformazioni

L’identificazione degli oggetti confronto tra la descrizione dell’oggetto percepito e un catalogo mentale delle forme 3-D descrizione dell’oggetto a partire dallo schema 2-D e 1/2 lo schema non sempre contiene dati sufficienti Es.: recuperare oggetto completo da elementi parziali si fa appello a conoscenza derivata dall’esperienza del mondo meccanismo inconscio

Cosa deve spiegare una teoria adeguata Accuratezza nel riconoscimento di oggetti nonostante cambiamenti di dimensione, localizzazione, orientamento Come si rappresentano le relazioni spaziali tra le componenti di un oggetto (riconoscimento degli oggetti avviene in aree cerebrali diverse da quella spaziale) Attributi del riconoscimento a livello base e a livello subordinato (riconoscimento di una vipera sia rettile che come serpente)

Due approcci principali 1. Biederman oggetti analizzati in parti primitive determinate nelle estremità concave dei contorni (geoni) parti memorizzate come componenti astratte processo di riconoscimento si estraggono tali componenti dalla descrizione, inclusa la loro relazione spaziale si confronta tale struttura con il catalogo facilità di riconoscimento se l’orientamento permette una buona estrazione delle componenti si memorizzano solo poche viste dell’oggetto

Due approcci fondamentali 2. Tarr, Rock, ... Sono viste specifiche degli oggetti a essere rappresentate da proprietà fondamentali (es. proprietà geometriche) Il riconoscimento diventa dipendente dall’orientamento Si memorizzano diverse viste di un oggetto (una vista non in catalogo richiede più elaborazione) Processo di riconoscimento Si computano le proprietà Si seleziona il modello con il maggior fit dei valori

Evidenza empirica Si sta accumulando evidenza a favore di Tarr (orientation-dependent) cronologicamente successiva a Biederman riconoscimento di oggetti a partire da viste multiple dell’oggetto in memoria Tuttavia, le estremità concave sono più importanti per il riconoscimento di altri segmenti del contorno la struttura influenza in modo critico il riconoscimento forse occorrerà un’integrazione delle due teorie

Scomposizione in parti primitive (Roberts 1963, MIT) obiettivo: interpretazione di fotografie di oggetti in un mondo dei blocchi identificando dei prototipi immagazzinati in memoria idea: tutte le forme possono essere decomposte in un vocabolario primitivo di forme solide elementari (3 prototipi solidi)

Il programma parte bottom-up parte top-down converte una fotografia in un disegno senza sfumature (tramite un grossolano identificatore di linee) identificando particolari giunzioni di linee, indica un prototipo (Es. giunzione a Y può attivare il cubo) parte top-down utilizza il prototipo indicato per interpretare la parte restante dell’oggetto nel disegno operazioni sul prototipo per farlo corrispondere all’oggetto della scena proiezioni del prototipo interno a 3-D su immagini a 2-D dimensionamento, rotazione, traslazione del prototipo congiunzione di più prototipi per oggetti complessi

Uso avanzato dei prototipi (Marr, Nishihara 1978) considerazione di base: l’identificazione di un oggetto può avvenire da molti punti differenti idea: la forma dell’oggetto deve essere specificata con coordinate relative all’oggetto stesso lo schema a 2-D e 1/2 è relativo all’osservatore supporto sperimentale delle immagini mentali: gli esseri umani sono in grado di ... ... immaginare un oggetto da più punti di vista ... ruotare l’oggetto (come cambiare il punto di vista)

La forma degli oggetti idea: muovere una sezione trasversale bidimensionale lungo un asse Es. cerchio  cilindro Es. cerchio con restringimento  cono In generale: sezione trasversale di qualsiasi forma + asse che può cambiare direzione  coni generalizzati Catalogo di Marr e Nishihara tutti le forme di oggetti si possono rappresentare mediante un numero di coni generalizzati idea di base: figure a bastoncino nel disegno infantile lunghezza e struttura degli assi sono misure esplicite: utile nell’identificazione di oggetti complessi

Catalogo di Marr e Nishihara In realtà si usano i coni generalizzati: geoni Esistono forme che non si possono rappresentare come coni generalizzati Es.: giornali spiegazzati origami

Organizzazione gerarchica degli oggetti complessi

Estensione al movimento (Hogg) programma che interpreta sequenze cinematografiche di un uomo che cammina prototipo interno, proiettato sull’immagine in movimento vincoli su variabili che controllano gli angoli delle giunture parte bottom-up rilevamento della differenza tra fotogrammi successivi (matrice a livelli di grigio) si traccia un rettangolo intorno all’area di variazione e si assume un asse coincidente con l’asse del prototipo parte top-down far corrispondere i dettagli delle braccia e delle gambe a quelli dell’immagine (dato il punto di osservazione)

Conclusioni su approcci top-down caratteristica fondamentale: uso di informazioni di alto livello acquisite tramite esperienza relative alla forma degli oggetti assunzione sperimentale: se un processo si verifica anche se i dati di basso livello sono degradati, si può sostenere che tale processo è guidato da conoscenze di alto livello

Conclusioni su approcci top-down caratteristica fondamentale: uso di informazioni di alto livello acquisite tramite esperienza relative alla forma degli oggetti assunzione sperimentale: se un processo si verifica anche se i dati di basso livello sono degradati, si può sostenere che tale processo è guidato da conoscenze di alto livello Es. questa immagine degradata rappresenta un cane che annusa il terreno vicino a un albero

Attenzione! Non tutte le forme di conoscenza o memoria possono influenzare la percezione Non tutti gli aspetti della percezione possono essere influenzati da conoscenza o memoria Esempio: l’illusione della luna vicino all’orizzonte luna molto più grande che allo zenit ma non cambia dimensione, né occupa più spazio sulla retina E’ una illusione e tale rimane nonostante la conoscenza

Percezione e conoscenza: forma, funzione, identificazione concetto di tavolo (Miller, Johnson-Laird) i tavoli non hanno una forma canonica (come gli umani) è possibile riconoscere tavoli di forme mai viste prima un manufatto è identificato come membro di una categoria perché le sue proprietà visibili sono appropriate per una funzione particolare capacità di “vedere” le potenzialità inerenti al manufatto Es. tavolo: superficie su cui appoggiare utensili riconoscimento avanzato (nessun programma) dalla forma alla funzione, e dalla funzione alla forma eccezioni: forma funzione (regalo misterioso)

Riconoscimento visivo e neuropsicologia distinzione tra i meccanismi preposti alla percezione della forma e della funzione (Warrington) danno al lobo parietale sinistro: compromessa capacità di riconoscere la funzione di un oggetto intatta la capacità di percepirne la forma a 3-D danno al lobo parietale destro (effetti opposti) doppia dissociazione tra due capacità capacità controllate da moduli differenti: possono essere compromesse in maniera indipendente i risultati sperimentali confermano la distinzione tra i meccanismi percettivi sottostanti a forma e funzione conclusione: il riconoscimento visivo esiste!

Conclusioni generali sulla visione problema della visione: quali oggetti hanno provocato le configurazioni luminose sulla retina? più scene possono causare la stessa configurazione la mente sembra lavorare con due tipi di conoscenza bottom-up (modulo di basso livello) nasce dall’evoluzione, è incapsulata nel sistema nervoso questo livello non è molto influenzato dal controllo conscio top-down (modulo di alto livello) acquisita dall’individuo, conoscenza esplicita, accessibile consapevolezza (e non) dell’uso di tale conoscenza (inferenza)

Percezione pura e cognizione approccio computazionale adeguato data l’immediatezza della percezione? dov’è il confine tra percezione pura e cognizione? Marr: tra lo schema a 2-D e 1/2 e il modello a 3-D dati neuro: tra il modello a 3-D e l’identificazione degli oggetti e delle loro funzioni soltanto due certezze le informazioni sulla profondità relativa non si possono recuperare senza vincoli innati l’identificazione non può avvenire senza utilizzare conoscenze personali