La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La visione (David Marr e successori) “... Il cuore vero della percezione visiva è l’inferenza derivata dalla struttura di un’immagine sulla struttura del.

Presentazioni simili


Presentazione sul tema: "La visione (David Marr e successori) “... Il cuore vero della percezione visiva è l’inferenza derivata dalla struttura di un’immagine sulla struttura del."— Transcript della presentazione:

1 La visione (David Marr e successori) “... Il cuore vero della percezione visiva è l’inferenza derivata dalla struttura di un’immagine sulla struttura del mondo reale esterno. La teoria della visione è esattamente la teoria di come è possibile fare ciò, e il suo interesse principale è nei confronti dei limiti fisici e delle assunzioni che rendono possibile tale inferenza. ”

2 Obiettivi della visione Produce –una ricca comprensione di ciò che è nel mondo –dove gli oggetti sono localizzati –come cambiano nel tempo Permette a un sistema biologico o automatico –di riconoscere e manipolare gli oggetti –di interagire fisicamente con l’ambiente

3 Visione come intelligenza la visione è qualcosa di più di una capacità sensoriale i processi mentali che occorrono dal pattern di luce sulla retina fino a una immagine interna del mondo sono “intelligenti” quanto elaborare una diagnosi sviluppo della visione negli umani: 50% della neocorteccia nei primati è dedicato alla visione di solito si ammirano di più le capacità deduttive scarsa capacità di analisi conscia del fenomeno

4 Visione e IA l’IA ha un po’ trascurato la visione a favore delle capacità “avanzate” –problem solving, ragionamento, linguaggio –la visione è più complicata del più sofisticato ragionamento matematico problemi con la concezione simbolica dell’IA –intelligenza spiegata da sistemi di simboli –problemi con compiti che non si rispecchiano in procedure di ricerca seriale problemi nel trattamento della visione (Minsky) … ma l’hardware è comunque sempre il cervello

5 Tre barre Lente Immagine Due “viste” estreme sulla visione la visione è banale: occhio come telecamera –homunculus e non validità computazionale la visione è impossibile: più scene producono la stessa immagine. Come si discrimina? –visione stereoscopica e orientamento

6 La visione computazionale assunzioni –visione facile per il cervello (meccanismi rapidi e inconsci) –difficile per noi da capire (scarsa capacità introspettiva sulla visione) vantaggio evolutivo –scappare di fronte al predatore –riconoscere la preda applicazione alla visione in un robot

7 L’approccio computazionale Lo studio della visione avviene considerando i meccanismi di elaborazione delle informazioni che sono necessari per realizzare gli obiettivi La prospettiva computazionale viene integrata con gli studi sperimentali sui sistemi biologici dalla psicologia e dalla neuroscienza La comprensione funzionale completa dei meccanismi neurali che sottostanno all’elaborazione visiva

8 I tre livelli di spiegazione (Marr, Nishihara, Poggio, Ullman) teoria di ciò che è computato –input, output, vincoli al processo teoria di come il sistema esegue le computazioni (le procedure) teoria sulla neurofisiologia sottostante (l’hardware delle cellule nervose)

9 Input al processo visivo: l’occhio Obiettivo: raccogliere la luce dagli oggetti nella scena e creare un’immagine a 2-D. l’occhio umano e del robot –un foro (o una lente) che focalizza la luce da più punti della scena su un singolo punto della retina –un sistema di elementi fotosensibili che converte la configurazione di luce in impulsi elettrici (codice simbolico)

10 Output del processo visivo Rappresentazione simbolica del mondo tridimensionale che guidi il comportamento la posizione del sistema rispetto agli altri oggetti della scena e la posizione relativa degli oggetti i colori, le forme, la composizione la rappresentazione cinematica della scena per il sistema(robot che si muove), o dinamica per tutta la scena si identificano gli oggetti noti e meno noti La visione costruisce un modello del mondo a partire dalle configurazioni di luce sulla retina

11 Vincoli al processo visivo empirismo o razionalismo? In x+y=5 quant’è x? –E’ possibile porre dei vincoli. l’ipotesi di Gibson e la geometria proiettiva –Longuet-Higgins: 5 punti sulla superficie di uno stesso oggetto su due immagini differenti sono sufficienti a stabilirne l’orientamento –Horn: se si conosce l’orientamento di alcuni punti (superficie liscia e opaca), si può stabilire la forma meccanismi mentali e conoscenza del mondo –necessari per identificare gli elementi della scena –acquisizione della conoscenza del mondo: risultato dell’evoluzione (innati) o apprendimento individuale

12 Stadi multipli dell’analisi Origine: misurazioni della luce riflessa dalle superfici degli oggetti verso l’occhio Tre stadi rappresentazionali –Rappresentazioni primarie (di basso livello) –Rappresentazioni intermedie –Rappresentazioni di alto livello Uso –riconoscimento di oggetti –manipolazione di oggetti –navigazione

13 Rappresentazioni primarie Informazione sui cambi significativi di intensità luminosa e sui contorni (di oggetti) –localizzazione –contrasto –precisione Corrispondono a caratteristiche fisiche –estremità degli oggetti e contorni delle tessiture –particolari sulle superfici e limiti delle ombre Per scene che cambiano dinamicamente … –direzione e velocità di movimento dei cambi di intensità

14 Rappresentazioni intermedie Informazioni sulla forma 3-D degli oggetti dal punto di vista dell’osservatore –orientamento di piccole superfici –distanza dai punti delle superfici dall’osservatore Per scene dinamiche … –movimento delle superfici in 3 direzioni

15 Rappresentazioni di alto livello Forme 3-D e orientamento in relazione a un sistema di coordinate indipendente dall’osservatore (punto di vista) –sistema basato sull’oggetto stesso –sistema basato su una locazione fissata nel mondo

16 Calcolo della rappresentazione primaria

17 L’occhio

18 Diagramma dell’occhio

19 Geometria di formazione dell’immagine Z Y X P (X, Y, Z) P’ (x, y) f Proiezione prospettiva (triangoli simili) -x : X = f : Z  x = -f X / Z -y : Y = f : Z  y = -f Y / Z

20 Le lenti Sia i vertebrati che le telecamere usano le lenti (non un foro), che fanno entrare molta più luce. Non tutta la scena è a fuoco nello stesso istante. –L’oggetto è a distanza Z nella scena –L’immagine è prodotta a distanza Z’ (piano immagine) –La relazione è 1/Z + 1/Z’ = 1/f (f fuoco della lente) –Gli oggetti a fuoco sono quelli a distanza Z, tale per cui 1/Z + 1/Z’ = 1/f Per focalizzare gli oggetti a più distanze Z –cambia forma la lente nell’occhio –si muove lungo l’asse Z la lente della telecamera

21 Il piano dell’immagine coperto di materiale fotosensibile –alogenuro d’argento nelle pellicole –rodopsina e varianti nella retina –circuiti di silicio nella telecamera CCD (charge-coupled device) l’immagine è suddivisa in pixel –CCD: 512 x 512 = 0.25 x 10 6, in una griglia rettangolare –retina: 120 x 10 6 bastoncelli e 6 x 10 6 coni, in un mosaico esagonale

22 Prima fase: la matrice a livelli di grigio interazione fisica tra la luce focalizzata sulla retina e il pigmento visivo delle cellule retiniche fotosensibili (120 milioni) risposta delle cellule retiniche e di una telecamera: matrice bidimensionale dei valori di intensità in ogni punto della superficie fotosensibile –valori come numerali –se si ignorano i colori, si ha un’immagine a livelli di grigio

23 Immagine a livelli di grigio

24 Matrice di pixel (livelli di grigio) NB. Nel caso della retina umana il numero di pixel è molto maggiore

25 Risultato della prima fase l’immagine a livelli di grigio è distante dalla rappresentazione della scena mette in evidenza solo l’intensità della luce in ciascun pixel, in relazione a qualche scala arbitraria

26 Seconda fase: localizzazione variazioni di intensità esperimento: guardare la scena di fronte a voi con gli occhi socchiusi regioni con diverse intensità luminose –chiazze brillanti e opache (direzione della luce) –l’intensità tende a cambiare in prossimità degli spigoli –potenza dei disegni senza sfumature obiettivo di questa fase: localizzare i contorni tra regioni di diversa intensità problema del “rumore”: fluttuazioni casuali nella luce e nell’occhio

27 Come si localizzano i contorni Si filtra l’immagine in modo da … –attenuare le piccole differenze –esaltare le differenze significative il filtraggio avviene mediante più scale di valori –rappresentazione della struttura grossolana dei contorni –mantenimento dei dettagli sulle superfici Si identificano i contorni mediante computazione –di picchi (massimi - derivata prima) o –passaggi per zero (zero-crossing - derivata seconda) La fase successiva lavora sui contorni

28 Grafico di intensità Valori di intensità Posizione spaziale

29 Tecnica per ridurre il rumore Sostituire ciascun valore della matrice con il suo valore medio locale. Calcolo grossolano: calcolo della media tra un valore e quelli adiacenti (convoluzione) Valori medi di intensità Posizione spaziale

30 La convoluzione con filtri lineari Convoluzione di due funzioni f e g (f  g): h(x) =  f(u) g(x-u) du (caso continuo) h(x) = f(u) g(x-u) (caso discreto) Caso generale: funzioni in due dimensioni (immagini) h(x) =  f(u,v) g(x-u, y-v) du dv (continuo) h(x) = f(u) g(x-u) (discreto)  + + -   u=-  ++  + + -   + + -   -- ++  -- ++

31 Una funzione più adeguata: la gaussiana G  (x) = e -x 2 /2  2 2  1 tiene conto di una più ampia gamma di valori vicini attribuisce un peso in funzione della distanza G’  (x) = e -x 2 /2  2 2  3 -x Date due funzioni f e g, f * g’ = (f * g)’

32 Individuare i contorni di intensità un contorno corrisponde a un passaggio brusco nella grandezza dei valori occorre misurare il gradiente di intensità

33 Misurare la ripidità del gradiente Valori medi di intensità Posizione spaziale gradiente = 0 gradiente = 2 Moltiplicare a sinistra per -1 e a destra per +1 e sommare i risultati

34 Gradiente e variazioni del gradiente Gradiente di intensità Variazioni di gradiente di intensità Posizione spaziale -2 Picco Gola Passaggio per zero Massimo locale : corrisponde a un contorno Passaggio per zero, picco, gola : esistenza di un contorno Posizione spaziale

35 Intensità e contorni Profilo di intensità Derivata del profilo Convoluzione con la G’

36 Combinazione delle operazioni due operazioni di calcolo: –calcolo della media locale –identificazione delle variazioni di gradiente operazione combinata: sombrero messicano –pesi positivi (punti vicini), negativi (distanti), nulli (molto distanti) risultato: matrice con valori positivi e negativi –contorni tra le aree = passaggi per zero

37 Livelli di grigio e passaggi per zero

38 Il filtraggio della matrice dimensione ottimale del sombrero messicano –tutte le dimensioni identificano variazioni di intensità chiaramente e nettamente separate –sombrero largo: variazioni graduali su area vasta –sombrero stretto: molte piccole variazioni in dettaglio esseri umani sensibili a un’ampia gamma di variazioni: sombrero flessibile?

39 Filtri e filtri: quant’è ampio il sombrero Immagine a livelli di grigio (320x320) Passaggi per zero filtro piccolo 9 pixel

40 Filtri e filtri: quant’è ampio il sombrero (2) Immagine a livelli di grigio (320x320) Passaggi per zero filtro grande 18 pixel

41 Confronto tra i filtri Immagine a livelli di grigio (320x320) Passaggi per zero (a) filtro piccolo 9 pixel (b) filtro grande 18 pixel

42 Neurofisiologia della visione L’elaborazione visiva avviene in più parti del cervello, tra cui la retina il talamo (ottico) la corteccia striata le aree visive corticali superiori il collicolo superiore il sistema ottico accessorio

43 La retina (in corrispondenza della macchia cieca)

44 Le classi principali di elementi Fotorecettori: coni e bastoncelli –polarizzano alla luce –producono solo potenziali elettrici graduati Cellule bipolari di tipo ON (invertono il segno, depolarizzano) e OFF (conservano il segno) Cellule gangliari (cellule di output verso il cervello) –sono sensibili a un’intera area del campo visivo, detta campo ricettivo della cellula Cellule amacrine Cellule orizzontali C R B G A H

45 Strati retinici spessa meno di 0,5 mm

46 Diagramma della retina 1.2 M di fibre nervose 100M di bastoncelli 6M di coni (vicino alla fovea) Tutte le classi e sottoclassi di cellule sono distribuite su tutta la retina Coni e molti neuroni sono ammassati nella e vicino alla fovea (max acuità visiva) Bastoncelli assenti nella fovea; concentrati nella periferia

47 Coni e bastoncelli Tre tipi di conibastoncello luce notturna segnalano anche un singolo fotone luce diurna registrano intensità su una gamma di 8 ordini di grandezza

48 La trasduzione da segnale luminoso a segnale elettrico

49 Le connessioni principali C R B G A H BBB GGG AA HH C R Luce Assoni Le cellule gangliari (G) inviano l’info al cervello Ma i segnali sono risultato di integrazione spaziale e elaborazione parallela Dai fotorecettori (R e C) a orizzontali (H) e bipolari (B); le B e le amacrine (A) inviano a G

50 Il funzionamento Forma del campo ricettivo: due cerchi concentrici –una regione centrale –una regione periferica antagonista Cellule centrali all’aumento di intensità della luce –ON: aumentano frequenza dei potenziali inviati –OFF: diminuiscono la frequenza... Cellule periferiche alla diminuzione di intensità... –ON: diminuiscono frequenza dei potenziali inviati –OFF: aumentano la frequenza... La polarità è data dalle cellule bipolari

51 Come sono distribuite le ON e OFF I percorsi ON e OFF sono esempi di sottocircuiti retinici che trasportano differenti info visive –Es.: i segnali provenienti da C e R sono elaborati da sottotipi distinti di B e A prima di passare a G Alcuni sono poco compresi –risposta ai segnali transienti VS ai segnali a regime –sensibilità spettrale insieme con l’intensità La retina funziona come un sistema di sottocircuiti paralleli –i segnali vengono istradati verso specifici moduli funzionali nel cervello

52 Campo ricettivo e sombrero messicano La regione centrale calcola i valori positivi al centro del sombrero –cellule ON: quando la luce aumenta di intensità –cellule OFF: quando la luce diminuisce di intensità La regione periferica calcola i valori negativi (falda) –cellule ON: quando la luce aumenta di intensità –cellule OFF: quando la luce diminuisce di intensità passaggi per zero: localizzazione di aree in cui i due tipi di cellule hanno approssimativamente la stessa attività

53 Nel cervello: la corteccia La corteccia (2mm) è suddivisa in 6 livelli: neuroni con “interessi” simili tendono a raggrupparsi –nella corteccia visiva esistono le “colonne oculari” –raggruppano neuroni specializzati in un singolo occhio mini-colonne di orientamento nella corteccia visiva (Hubel, Wiesel) –vengono eccitate da linee e contorni che presentano lo stesso angolo con la verticale (orientamento) –ve ne sono molte specializzate in vari angoli –identificano spigoli, bordi e altre caratteristiche degli oggetti (in termini di Marr, passaggi per zero)

54 come funziona l’eccitazione delle linee –una variazione nel gradiente di intensità in linea eccita una linea di gangli retinici –una linea di gangli eccita una colonna di neuroni con il corretto orientamento

55 Terza fase: lo schema primario dalla seconda fase: –la matrice di livelli di grigio viene filtrata attraverso una serie di sombreri messicani di diversa grandezza input al terzo: una serie di immagini filtrate in modo diverso come vengono interpretate?

56 Confronto delle immagini filtrate Marr estrae passaggi attraverso zero –problema: alle curve e agli angoli i passaggi per zero derivati da filtri diversi non si trovano nella stessa posizione della matrice Watt e Morgan estraggono picchi e gole –programma di calcolo che calcola separatamente le medie dei valori positivi e negativi ottenuti mediante i filtraggi localizza i centri dei picchi nelle medie positive e i centri delle gole nelle medie negative costruisce una rappresentazione simbolica di barre, spigoli, regione di uguale intensità (macchie)

57 Vincolo di unicità sull’interpretazione un elemento (spigolo di un oggetto, variazione di illuminazione,...) non può essere in due posti diversi nello stesso tempo –alta probabilità che un passaggio per zero prodotto da uno dei filtri si ripeta (non troppo distante) su immagini risultanti da altri filtri problemi –confusione con piccoli dettagli (es. barre piccole = 2 passaggi per zero) –due fenomeni distinti possono produrre variazioni di intensità nella stessa zona (in generale, no)

58 Barre, spigoli e macchie elementi fondamentali dell’immagine visiva a ogni elemento si associano delle informazioni, usando descrizioni simboliche con valori numerici Es. Macchia –posizione = 146, 21orientamento = 105 –contrasto = 76lunghezza = 16 –larghezza = 6 questa descrizione simbolica delle caratteristiche locali dell’immagine visiva è detta da Marr schema primario

59 Schema primario è un’organizzazione completa dell’immagine all’incirca ciò di cui si è consapevoli guardando leggermente fuori fuoco con gli occhi socchiusi si costruisce raggruppando elementi simili in modo da formare linee, macchie più grandi e gruppi strutturati –non esiste ancora un programma che simuli la costruzione –i principi di raggruppamento non si riescono a isolare sperimentalmente (non si evidenziano sforzi coscienti)

60 Figura con più organizzazioni potenziali

61 Apparati visivi e stadio iniziale la tecnologia odierna (apparato visivo di un robot): 1telecamera con al più 1 milione (1000x1000) di elementi fotosensibili (NB. area molto più grande della retina) 2cablaggio bidimensionale in un micro-chip 3interconnessioni di gran lunga inferiori alle cellule nervose 4parallelismo limitato la natura (occhio umano): 1retina: 6 milioni di coni e 120 milioni di bastoncelli 2cablaggio tridimensionale su piccola scala 3esegue in parallelo moltissime computazioni (connessioni tra cellule nervose) 4parallelismo massiccio

62 Costo computazionale Esempio –una computazione di 2 secondi –velocità di 25 kmh –ci si rende conto che la macchia nera sulla strada era in realtà un buco quando ci si sta cadendo dentro Costo computazionale fondamentale: filtraggio della matrice di livelli di grigio –esiste hardware specializzato per eseguire le convoluzioni, ma niente di paragonabile in efficienza al sistema nervoso

63 Conclusioni sullo schema primario (visione simile a quella della mosca) probabilmente non costruisce un modello 3D schema di volo: controllo con meccanismi rapidi e automatici –routine di atterraggio scatta appena il campo visivo si espande a grande velocità orienta le zampe, e al tatto, toglie energia alle ali –seguire le tracce di un compagno chiazza nera che si muove contro lo sfondo posizione e velocità angolare per ala dx e sx della mosca Visione impossibile: no dimensioni reali (compagno o uccello lontano non fa differenza)

64 Schema primario e visione umana schema primario è sufficiente per le attività della mosca per l’uomo (o un robot), il mondo deve essere percepito in modo più ricco (3D) per manipolare gli oggetti e fare inferenze complesse occorre recuperare le informazioni relative alle superfici fisiche degli oggetti che hanno prodotto tale schema primario


Scaricare ppt "La visione (David Marr e successori) “... Il cuore vero della percezione visiva è l’inferenza derivata dalla struttura di un’immagine sulla struttura del."

Presentazioni simili


Annunci Google