La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Enver Sangineto, Dipartimento di Informatica Annotazione Automatica di materiale multimediale.

Presentazioni simili


Presentazione sul tema: "Enver Sangineto, Dipartimento di Informatica Annotazione Automatica di materiale multimediale."— Transcript della presentazione:

1 Enver Sangineto, Dipartimento di Informatica Annotazione Automatica di materiale multimediale

2 p. 2 Annotazione automatica Estrarre automaticamente informazione semantica da immagini, video o audio e rappresentarla in forma: testuale o strutturata Tipicamente si usano tecniche di machine learning

3 p. 3 Annotazione automatica [2] E una fase di pre-processing, precedente al retrieval vero e proprio, che avviene con metodi più tradizionali avvalendosi dellinformazione estratta off-line E simile alla information extraction nel caso dei testi, in cui da un documento si ricava informazione rappresentata poi in maniera machine understandable

4 p. 4 Annotazione di documenti digitali: OCR e Document Analysis Un caso particolare di immagine è la digitalizzazione di un documento di testo Tecniche di Document Analysis permettono di analizzare la struttura del documento al fine di individuare le parti contenenti testo Il testo può essere riconosciuto attraverso Optical Character Recognition (OCR)

5 p. 5 Annotazione di immagini (generiche) Lideale sarebbe poter disporre di un sistema che riconosca i principali oggetti presenti in unimmagine e li descriva tramite una lista di keywords

6 p. 6 Annotazione di immagini [2] E difficile stabilire a priori quali sono gli oggetti importanti in una data immagine Un tale sistema non sarebbe in grado di estrarre significati più complessi (e.g. Rabin e Arafat si stringono la mano…) Tuttavia una lista degli oggetti (e.g., in primo piano) sarebbe già un grosso passo in avanti

7 p. 7 Esempio Annotazione 1: ci sono 3 esseri umani Annotazione 2: ci sono 3 esseri umani, Arafat, Clinton e Rabin

8 p. 8 Problemi principali nel riconoscimento di oggetti La maggior parte dei problemi che un sistema di object recognition deve affrontare sono riconducibili a due problemi base: Variabilità delle apparenze con cui limmagine di un oggetto può presentarsi sul piano di vista La segmentazione della scena, ovvero lindividuazione di quelle sotto-parti dellimmagine che rappresentano loggetto cercato

9 p. 9 Variabilità [1]: cambiamento del punto di vista Michelangelo

10 p. 10 Variabilità [2]: cambiamento delle condizioni di illuminazione

11 p. 11 Variabilità [3]: oggetti deformabili Xu, Beihong 1943

12 p. 12 Variabilità [4]: variazione intra-classe

13 p. 13 Segmentazione [1]: Occlusioni Magritte, 1957

14 p. 14 Klimt, 1913 Segmentazione [2]: separazione dallo sfondo

15 p. 15 Modello statistico della variabilità Ignoriamo il problema della segmentazione Utilizziamo tecniche di machine learning per definire modelli statistici della variabilità delle apparenze Due fasi: Training e Classificazione (o Test)

16 p. 16 Categorizzazione tramite apprendimento automatico Suppongo di disporre, in fase di training, di un insieme T = {(I 1, y 1 ), …, (I N, y N )}, dove I j è unimmagine e y j unetichetta che indica loggetto in essa contenuto: y j {o 1, …, o m }

17 p. 17 Categorizzazione tramite apprendimento automatico [2] Utilizzo T off-line per addestrare un classificatore statistico C (e.g., una rete neurale, …) On-line, uso C per classificare unimmagine nuova I, non appartenente a T: C(I) {o 1, …, o m }

18 p. 18 Categorizzazione tramite apprendimento automatico [3] Esistono molti approcci allobject recognition che utilizzano tecniche di apprendimento automatico Essi si scontrano con i problemi di segmentazione e variabilità visti prima

19 p. 19 Proprietà di invarianza delle feature Maggiore è linvarianza delle feature a cambiamenti di apparenza, minore la variabilità da rappresentare nel training set Invarianze desiderabili: Cambiamenti di punti di vista (rotazioni, traslazioni, scalamenti) Cambiamenti di illuminazione

20 p. 20 Features per immagini non segmentate Le feature globali sono inefficaci se loggetto cercato non è separato dal background Lorientazione corrente è utilizzare feature locali che in genere dipendono sia dalla forma che dalla texture delloggetto

21 p. 21 Scale Invariant Feature Transform (SIFT) [Lowe] Lestrazione delle SIFT da unimmagine è composta da due fasi: Individuazione di punti stabili a cambiamenti di scala (detection) Descrizione delle zone circostanti tali punti con il descrittore SIFT (description) [Lowe ] David G. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, Int. J. Comput. Vision, 60 (2), pp , 2004.

22 p. 22 Selezione di punti stabili a cambiamenti di scala Costruzione di una piramide di DoG (Difference of Gaussians) I punti stabili (e le relative scale) sono scelti cercando punti di massimo/minimo nella piramide

23 p. 23 Scelta della direzione dominante Picchi dellistogramma dellorientazione del gradiente

24 p. 24 Ese. di keypoints individuati tramite SIFT detector

25 p. 25 Descrittore SIFT Lintorno di ogni p.to stabile è descritto tramite una griglia composta da 4 X 4 sotto-griglie (nella figura è 2 X 2) I vettori gradienti hanno un peso gaussiano

26 p. 26 Descrittore SIFT [2] Ogni sottogriglia forma un istogramma delle orientazioni del gradiente

27 p. 27 Descrittore SIFT [2] Il descrittore è ottenuto concatenando il valore dei 4*4 istogrammi da 8 orientazioni luno (128 ele.) Alcune particolari normalizzazioni permettono di ottenere un descrittore invariante per trasformazioni affini della luce nellarea descritta

28 p. 28 SURF: speeded up robust features [Bay et al] Anche lestrazione delle SURF è composta da due fasi: Detection e Description [Bay et al] Herbert Bay, Tinne Tuytelaars, Luc Van Gool, SURF: speeded up robust features, ECCV, 2006.

29 p. 29 Selezione di punti stabili a cambiamenti di scala Applicando filtri a dimensione variabile cerco dei blob presenti nellimmagine

30 p. 30 Scelta della direzione dominante Altri filtri vengono utilizzati per calcolare le componenti dx e dy del gradiente Le risposte dx e dy vengono sommate in settori circolari differenti per determinare un vettore rappresentativo del settore Il vettore più grande è la direzione dominante

31 p. 31 Descrittore SURF Griglia 4 X 4 Ogni sotto-griglia ha 5 X 5 p.ti di campionamento

32 p. 32 Descrittore SURF [2] Per ogni p.to di campionamento calcolo dx e dy utilizzando Haar wavelets

33 p. 33 Haar wavelets

34 p. 34 Immagine Integrale

35 p. 35 Calcolo delle Haar vawelets in tempo costante

36 p. 36 Descrittore SURF [3] Il descrittore finale è dato dalla concatenazione di v c1, …, v c16 (64 ele.)

37 p. 37 Image categorization come text categorization Analogia con i documenti testuali: documenti immagini concetti classi di oggetti keywords (valori prototipi di) feature spazio vettoriale spazio delle frequenze delle feature prototipe

38 p. 38 Bags of Words Estraggo le feature da vari punti dellimmagine, scegliendo: I punti più salienti (tipo SIFT…), oppure dei punti a caso, oppure dei punti in una griglia fissa… Conto la frequenza dei valori delle feature estratte e classifico limmagine in base alla frequenza trovata Tecnica simile alla rappresentazione di un documento in uno spazio vettoriale

39 p. 39 Object Bag of words immagine presa da: Tutorial CVPR 07

40 p. 40 Costruzione vocabolario

41 p. 41 Problema: mancanza di un vocabolario simbolico Un testo può essere visto come una stringa composta da simboli base (le keywords) Quale insieme di feature (e.g., particolari valori di SIFT) scegliere nel caso visivo?

42 p. 42 Esempio: dimensionalità delle SIFT Un descrittore SIFT è composto da 4*4 istogrammi da 8 orientazioni (128 elementi) I valori del bin di ogni istogramma sono normalizzati in [0, 255] In totale possibili valori…

43 p. 43 Variabilità delle feature… Se S i è un descrittore SIFT estratto dalla pupilla dellocchio di Marco in una foto indoor e S j è stato estratto dalla stessa pulippa di Marco outdoor (o in un giorno diverso) Allora, tipicamente: S i S j I descrittori SIFT, per quanto invarianti, non si comportano come simboli ripetibili!

44 p. 44 Bags of Words: testo vs immagini… La maggiore differenza del BoW del caso visivo rispetto a quello testuale è proprio la mancanza di un naturale vocabolario Idea: costruisco il vocabolario a partire da T scegliendo dei valori prototipi

45 p. 45 Prototipi di feature: le keywords discrete che mancavano Suddivido i valori che può assumere una feature in tipi diversi Ogni tipo è rappresentato da un prototipo, detto word per analogia al caso testuale In sostanza, creando i tipi di feature, creo un vocabolario di valori discreti

46 p. 46 Vector Quantization Si tratta di un processo di vector quantization con cui creo un dizionario (codebook o codeword dictionary) per discretizzare i possibili valori del feature space

47 p. 47 Es: estraggo le feature da unimg di training immagine presa da: Tutorial CVPR 07

48 p. 48 … Estraggo le feature da tutte le img di training immagine presa da: Tutorial CVPR 07

49 p. 49 Rappresentazione nel feature space dei valori estratti dal training set Rappresentazione nel feature space dei valori estratti dal training set … immagine presa da: Tutorial CVPR 07

50 p. 50 Costruisco il Codeword dictionary tramite clustering immagine presa da: Tutorial CVPR 07

51 p. 51 Costruzione vocabolario Rappresentazione delle immagini

52 p. 52 Rappresentazione di unimmagine nello spazio delle frequenze Supponiamo che il dizionario (D) è composto da n valori possibili D = {w 1, …, w n } Ogni w i è unetichetta associata con un valore prototipo p i del feature space

53 p. 53 Rappresentazione di unimmagine nello spazio delle frequenze [2] Da una generica immagine I estraggo un insieme di feature locali {z i } (e.g., z i è il descrittore SIFT estratto nel punto P di I) Associo ogni z i con la parola w j più simile, e.g., scegliendo j in modo da minimizzare: p j = min pk Dist(z i, p k )

54 p. 54 Esempio

55 p. 55 Rappresentazione di unimmagine nello spazio delle frequenze [3] I è quindi rappresentata da x = (x 1, …, x n ) T, dove: x j = # { w j : Esiste z i associata con p j }

56 p. 56 Rappresentazione dellimmagine ….. frequency w 1 w 2 w 3 w 4 … immagine presa da: Tutorial CVPR 07

57 p. 57 Effetti delluso del dizionario Ho ridotto il numero dei possibili valori che una feature può assumere da |R k | a n (n << |R k | ) Cercare feature simili ai prototipi di base è più stabile che cercare un determinato valore di feature Nello spazio delle frequenze (S = R n ) posso applicare tecniche di classificazione simili a quelle usate, ad ese., nel text categorization

58 p. 58 Costruzione vocabolario Rappresentazione delle immagini Classificazione

59 p. 59 Ultimo passo: classificazione Situazione: posso rappresentare unimmagine I tramite un vettore di occorrenze di keywords x Obiettivo: dato x, voglio stabilire quale oggetto è presente in I con minore probabilità di sbagliarmi Userò nuovamente T

60 p. 60 Ese: classificazione duale T = {(I 1, y 1 ), …, (I N, y N )}, dove: y j {auto, non-auto}

61 p. 61 Esempio di rappresentazione grafica di T in R n (n, m = 2)

62 p. 62 Esempio [2] Rappresentazione (x) di una nuova immagine (I)

63 p. 63 Teoria Decisionale Bayesiana Data limmagine x e m classi di oggetti C 1, … C m, associare x alla classe più probabile Scelgo C j* tale che: Notazione abbreviata:

64 p. 64 Esempio Le probabilità sono stimate tramite training immagine presa da: Duda, Hart, Stork, Pattern Classification

65 p. 65 Metodi discriminativi Mirano a determinare i bordi di decisione (superfici iper-dimensionali) che meglio partizionano R n rispetto alle classi dinteresse

66 p. 66 Bordi di decisione: ese. monodimensionale c1c1 c2c2 c1c1 c2c2

67 p. 67 Bordo di decisione: ese. bidimensionale

68 p. 68 Esempi di classificatori discriminativi Reti neurali (ANN) Support Vector Machines (SVM) Decision Trees K-Nearest Neighbor (k-NN) Boosting …

69 p. 69 Bags of Words: riassunto 1. Scelta delle feature per rappresentare le img e costruzione dello spazio delle feature F 2. Attraverso un training set di img e tecniche di clustering, costruisco il dizionario D delle feature scegliendo i prototipi di feature più comuni (words) 3. Utilizzando D rappresento il training set di img nello spazio delle frequenze (S) delle words

70 p. 70 Bags of Words: riassunto [2] 4. Utilizzo tecniche di classificazione in S per costruire un classificatore statistico C 5. On-line, associo gli elementi di D ad una nuova img (I) e ne conto la frequenza 6. Posso quindi rappresentare I in S e utilizzare C per classificarla

71 p. 71 Annotazioni di video Un video è una sequenza di immagini (frame), per cui potrei applicare tecniche di image classification (e.g., ai soli key frame) Tuttavia si rileva normalmente più efficace studiare approcci ad hoc per tipi di video differenti (film, news, video sportivi, pubblicità, …)

72 p. 72 Nei video sono spesso già presenti alcune informazioni testuali Content independent-Metadata: titolo, autore, produttore, data.. Sottotitoli e trascrizioni degli autori

73 p. 73 Esempio: annotazione di video sportivi Annotare può significare riconoscere azioni di gioco importanti (nel calcio, nel tennis, …) e indicizzare i punti esatti in cui avvengono

74 p. 74 Esempio: annotazione di film Riconoscere gli attori (face recognition) Riconoscere il tipo di scena (allegra, triste, drammatica, suspance, …) da alcune sue caratteristiche come lintensità luminosa o della colonna sonora, … …

75 p. 75 Annotazioni audio E anzitutto necessario distinguere (classificare…) le parti del file audio che contengono una parte parlata da altri suoni o musiche Tecniche di speech recognition possono quindi essere utilizzate per trasformare il parlato in testo

76 p. 76 Annotazioni audio [2] La qualità del riconoscimento può essere elevata per sistemi speaker-dependent Qualità accettabili ai fini del retrieval anche per sistemi speaker-independent

77 p. 77 Alcuni riferimenti Forsyth, Ponce, Computer Vision, a Modern Approach 2003, Duda, Hart, Stork, Pattern Classification (II edition) 2001, Bishop, Pattern Recognition and Machine Learning, 2006 Fergus, Fei-Fei, Perona, Zisserman, Learning Object Categories from Googles Image Search, ICCV 05

78 p. 78 Domande…


Scaricare ppt "Enver Sangineto, Dipartimento di Informatica Annotazione Automatica di materiale multimediale."

Presentazioni simili


Annunci Google