Annotazione Automatica di materiale multimediale

Slides:



Advertisements
Presentazioni simili
Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Advertisements

Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
1 Tutto su liceoclassicojesi.it 1° Incontro sulla gestione di liceoclassicojesi.it.
Le distribuzioni di probabilità continue
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
Mat_Insieme Lavoro di Gruppo Prodotti Notevoli
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
II° Circolo Orta Nova (FG)
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
Sistemi di Classificazione usando NCD
COORDINATE POLARI Sia P ha coordinate cartesiane
Frontespizio Economia Monetaria Anno Accademico
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
I sistemi di riferimento
Ordini Parziali - Reticoli
I MATEMATICI E IL MONDO DEL LAVORO
EIE 06/07 II / 1 Strumenti delle politiche agricole in economia aperta equilibrio di mercato in economia aperta politiche di un paese importatore politiche.
EIE 0607 III / 1 A B P a = 30 P b = 35 t = 2, tc = 1 Questo può essere un equilibrio? No! Politiche di un paese importatore: una tariffa allimportazione.
Enver Sangineto, Dipartimento di Informatica Multimedia Information Retrieval.
Obiettivi del corso di Statistica Medica.
Programmazione 1 9CFU – TANTE ore
Canale A. Prof.Ciapetti AA2003/04
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Realizzazione e caratterizzazione di una semplice rete neurale per la separazione di due campioni di eventi Vincenzo Izzo.
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
Scene Modelling, Recognition and Tracking
Riconoscimento automatico di oggetti in immagini digitali
Master universitario di II livello in Ingegneria delle Infrastrutture e dei Sistemi Ferroviari Anno Accademico 2012/2013 Cultura dimpresa, valutazione.
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.
Cos’è un problema?.
Lezione 4 Probabilità.
Contatore: esempio di circuito sequenziale
CHARGE PUMP Principio di Funzionamento
Velocità ed accelerazione
2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.
Educare al multimediale 1 – Verso il digitale 2 Presentazione a cura di Gino Roncaglia Prima parte: Informazione in formato digitale.
Esercitazione 1: Rispetto al test di ansia (Media=25; σ=5), calcolare:
Q UESTIONI ETICHE E BIOETICHE DELLA DIFESA DELLA VITA NELL AGIRE SANITARIO 1 Casa di Cura Villa San Giuseppe Ascoli Piceno 12 e 13 dicembre 2011.
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ISOIVA (LOCALE) TO ISOIVA (WEB) RIPARTIZIONE INFORMATICA UFFICIO APPLICATIVI AMMINISTRATIVI 13/04/2011 UNIVERSITÀ DEGLI STUDI DI FERRARA 1.
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
TECNOLOGIE DELLINFORMAZIONE E DELLA COMUNICAZIONE PER LE AZIENDE Materiale di supporto alla didattica.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
Gli internauti italiani e il consumo di informazioni tramite media classici e new media UNA RICERCA QUANTITATIVA SVOLTA DA ASTRA RICERCHE PER LORDINE DEI.
TRASFORMAZIONI GEOMETRICHE
LE SAI LE TABELLINE? Mettiti alla prova!.
Presentazione Attività di Ricerca Secondo periodo – Aprile-Settembre Ottobre 2008.
1 Questionario di soddisfazione del servizio scolastico Anno scolastico 2011/2012 Istogramma- risposte famiglie.
Un trucchetto di Moltiplicazione per il calcolo mentale
21 marzo 2002 (ri-)Avvisi: Giovedi 28 marzo la lezione e sospesa. Nuovo indirizzo di Spedire messaggi e esercizi solo.
Multimedia Information Retrieval
Enver Sangineto, Dipartimento di Informatica Annotazione Automatica di materiale multimediale.
Multimedia information retrieval. Problematica Materiale multimediale: non solo testo, ma audio (speech, musica..) immagini, video Retrieval basato su.
Dal modello alla visualizzazione: Verso il foto realismo Daniele Marini.
Esempi risolti mediante immagini (e con excel)
Sviluppare un programma in C che, dato un array da 100 elementi interi caricato con numeri casuali compresi tra [10,100], sia in grado di cercare il valore.
Classificazione (aka Cluster Analysis)
NO WASTE Progetto continuità scuola primaria scuola secondaria Salorno a.s. 2013_
Minimo comune multiplo
I chicchi di riso e la sfida al Bramino
Un’analisi dei dati del triennio
Mercato del lavoro e condizione giovanile: la crisi si acuisce
Il numero più grande Accademia dei Lincei
TRASFORMATA DI FOURIER
A.P. cat. B - 1 Per chi vuole: Libro di testo D.P. Curtis, K. Foley, K. Sen, C. Morin Informatica di base 2° edizione Mc Graw-Hill Companies.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
A proposito di spazio scala e di altre features locali... Elisabetta Delponte
Transcript della presentazione:

Annotazione Automatica di materiale multimediale Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it

Annotazione automatica Estrarre automaticamente informazione “semantica” da immagini, video o audio e rappresentarla in forma: testuale o strutturata Tipicamente si usano tecniche di machine learning

Annotazione automatica [2] E’ una fase di pre-processing, precedente al retrieval vero e proprio, che avviene con metodi più “tradizionali” avvalendosi dell’informazione estratta off-line E’ simile alla “information extraction” nel caso dei testi, in cui da un documento si ricava informazione rappresentata poi in maniera machine understandable

Annotazione di documenti digitali: OCR e Document Analysis Un caso particolare di immagine è la digitalizzazione di un documento di testo Tecniche di Document Analysis permettono di analizzare la struttura del documento al fine di individuare le parti contenenti testo Il testo può essere riconosciuto attraverso Optical Character Recognition (OCR)

Annotazione di immagini (generiche) L’ideale sarebbe poter disporre di un sistema che riconosca i principali oggetti presenti in un’immagine e li descriva tramite una lista di keywords

Annotazione di immagini [2] E’ difficile stabilire a priori quali sono gli oggetti importanti in una data immagine Un tale sistema non sarebbe in grado di estrarre significati più complessi (e.g. “Rabin e Arafat si stringono la mano”…) Tuttavia una lista degli oggetti (e.g., in primo piano) sarebbe già un grosso passo in avanti

Esempio Annotazione 1: ci sono 3 esseri umani Annotazione 2: ci sono 3 esseri umani, Arafat, Clinton e Rabin

Problemi principali nel riconoscimento di oggetti La maggior parte dei problemi che un sistema di object recognition deve affrontare sono riconducibili a due problemi base: Variabilità delle apparenze con cui l’immagine di un oggetto può presentarsi sul piano di vista La segmentazione della scena, ovvero l’individuazione di quelle sotto-parti dell’immagine che rappresentano l’oggetto cercato

Variabilità [1]: cambiamento del punto di vista Michelangelo 1475-1564

Variabilità [2]: cambiamento delle condizioni di illuminazione

Variabilità [3]: oggetti deformabili Xu, Beihong 1943

Variabilità [4]: variazione intra-classe

Segmentazione [1]: Occlusioni Magritte, 1957

Segmentazione [2]: separazione dallo sfondo Klimt, 1913

Modello statistico della variabilità Ignoriamo il problema della segmentazione Utilizziamo tecniche di machine learning per definire modelli statistici della variabilità delle apparenze Due fasi: “Training” e “Classificazione” (o “Test”)

Categorizzazione tramite apprendimento automatico Suppongo di disporre, in fase di training, di un insieme T = {(I1, y1), …, (IN, yN)}, dove Ij è un’immagine e yj un’etichetta che indica l’oggetto in essa contenuto: yj {o1, …, om}

Categorizzazione tramite apprendimento automatico [2] Utilizzo T off-line per addestrare un classificatore statistico C (e.g., una rete neurale, …) On-line, uso C per classificare un’immagine nuova I, non appartenente a T: C(I) {o1, …, om}

Categorizzazione tramite apprendimento automatico [3] Esistono molti approcci all’object recognition che utilizzano tecniche di apprendimento automatico Essi si scontrano con i problemi di segmentazione e variabilità visti prima

Proprietà di invarianza delle feature Maggiore è l’invarianza delle feature a cambiamenti di apparenza, minore la variabilità da rappresentare nel training set Invarianze desiderabili: Cambiamenti di punti di vista (rotazioni, traslazioni, scalamenti) Cambiamenti di illuminazione

Features per immagini non segmentate Le feature globali sono inefficaci se l’oggetto cercato non è separato dal background L’orientazione corrente è utilizzare feature locali che in genere dipendono sia dalla forma che dalla texture dell’oggetto

Scale Invariant Feature Transform (SIFT) [Lowe] L’estrazione delle SIFT da un’immagine è composta da due fasi: Individuazione di punti “stabili” a cambiamenti di scala (detection) Descrizione delle zone circostanti tali punti con il descrittore SIFT (description) [Lowe ] David G. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, Int. J. Comput. Vision, 60 (2), pp 91-110, 2004.

Selezione di punti stabili a cambiamenti di scala Costruzione di una “piramide” di DoG (Difference of Gaussians) I punti stabili (e le relative scale) sono scelti cercando punti di massimo/minimo nella piramide

Scelta della direzione dominante Picchi dell’istogramma dell’orientazione del gradiente

Ese. di keypoints individuati tramite SIFT detector

Descrittore SIFT L’intorno di ogni p.to stabile è descritto tramite una griglia composta da 4 X 4 sotto-griglie (nella figura è 2 X 2) I vettori gradienti hanno un peso “gaussiano”

Descrittore SIFT [2] Ogni sottogriglia forma un istogramma delle orientazioni del gradiente

Descrittore SIFT [2] Il descrittore è ottenuto concatenando il valore dei 4*4 istogrammi da 8 orientazioni l’uno (128 ele.) Alcune particolari normalizzazioni permettono di ottenere un descrittore invariante per trasformazioni affini della luce nell’area descritta

SURF: speeded up robust features [Bay et al] Anche l’estrazione delle SURF è composta da due fasi: Detection e Description [Bay et al] Herbert Bay, Tinne Tuytelaars, Luc Van Gool, SURF: speeded up robust features, ECCV, 2006.

Selezione di punti stabili a cambiamenti di scala Applicando filtri a dimensione variabile cerco dei “blob” presenti nell’immagine

Scelta della direzione dominante Altri filtri vengono utilizzati per calcolare le componenti dx e dy del gradiente Le risposte dx e dy vengono sommate in settori circolari differenti per determinare un vettore rappresentativo del settore Il vettore più grande è la direzione dominante

Descrittore SURF Griglia 4 X 4 Ogni sotto-griglia ha 5 X 5 p.ti di campionamento

Descrittore SURF [2] Per ogni p.to di campionamento calcolo dx e dy utilizzando “Haar wavelets”

Haar wavelets

Immagine Integrale

Calcolo delle Haar vawelets in tempo costante

Descrittore SURF [3] Il descrittore finale è dato dalla concatenazione di vc1, …, vc16 (64 ele.)

Image categorization come text categorization Analogia con i documenti testuali: documenti <-> immagini concetti <-> classi di oggetti keywords <-> (valori “prototipi” di) feature spazio vettoriale <-> spazio delle frequenze delle feature prototipe

Bags of Words Estraggo le feature da vari punti dell’immagine, scegliendo: I punti più salienti (tipo SIFT…), oppure dei punti a caso, oppure dei punti in una griglia fissa… Conto la frequenza dei valori delle feature estratte e classifico l’immagine in base alla frequenza trovata Tecnica simile alla rappresentazione di un documento in uno spazio vettoriale

Object Bag of ‘words’ immagine presa da: Tutorial CVPR 07

Costruzione vocabolario 

Problema: mancanza di un vocabolario simbolico Un testo può essere visto come una stringa composta da simboli base (le keywords) Quale insieme di feature (e.g., particolari valori di SIFT) scegliere nel caso visivo?

Esempio: dimensionalità delle SIFT Un descrittore SIFT è composto da 4*4 istogrammi da 8 orientazioni (128 elementi) I valori del “bin” di ogni istogramma sono normalizzati in [0, 255] In totale 256128 possibili valori…

Variabilità delle feature… Se Si è un descrittore SIFT estratto dalla pupilla dell’occhio di Marco in una foto “indoor” e Sj è stato estratto dalla stessa pulippa di Marco “outdoor” (o in un giorno diverso) Allora, tipicamente: Si ≠ Sj I descrittori SIFT, per quanto invarianti, non si comportano come simboli ripetibili!

Bags of Words: testo vs immagini… La maggiore differenza del BoW del caso visivo rispetto a quello testuale è proprio la mancanza di un “naturale” vocabolario Idea: costruisco il vocabolario a partire da T scegliendo dei valori prototipi

Prototipi di feature: le “keywords” discrete che mancavano Suddivido i valori che può assumere una feature in “tipi” diversi Ogni tipo è rappresentato da un prototipo, detto “word” per analogia al caso testuale In sostanza, creando i tipi di feature, creo un vocabolario di valori discreti

Vector Quantization Si tratta di un processo di vector quantization con cui creo un dizionario (codebook o codeword dictionary) per discretizzare i possibili valori del feature space

Es: estraggo le feature da un’img di training immagine presa da: Tutorial CVPR 07

Estraggo le feature da tutte le img di training … immagine presa da: Tutorial CVPR 07

Rappresentazione nel feature space dei valori estratti dal training set … immagine presa da: Tutorial CVPR 07

Costruisco il Codeword dictionary tramite clustering immagine presa da: Tutorial CVPR 07

Costruzione vocabolario Rappresentazione delle immagini 

Rappresentazione di un’immagine nello spazio delle frequenze Supponiamo che il dizionario (D) è composto da n valori possibili D = {w1, …, wn} Ogni wi è un’etichetta associata con un valore prototipo pi del feature space

Rappresentazione di un’immagine nello spazio delle frequenze [2] Da una generica immagine I estraggo un insieme di feature locali {zi} (e.g., zi è il descrittore SIFT estratto nel punto P di I) Associo ogni zi con la “parola” wj più simile, e.g., scegliendo j in modo da minimizzare: pj = min pk Dist(zi, pk)

Esempio

Rappresentazione di un’immagine nello spazio delle frequenze [3] I è quindi rappresentata da x = (x1, …, xn)T, dove: xj= # { wj : Esiste zi associata con pj }

….. Rappresentazione dell’immagine w1 w2 w3 w4 … frequency immagine presa da: Tutorial CVPR 07

Effetti dell’uso del dizionario Ho ridotto il numero dei possibili valori che una feature può assumere da |Rk| a n (n << |Rk| ) Cercare feature simili ai prototipi di base è più stabile che cercare un determinato valore di feature Nello spazio delle frequenze (S = Rn) posso applicare tecniche di classificazione simili a quelle usate, ad ese., nel text categorization

Costruzione vocabolario Rappresentazione delle immagini Classificazione 

Ultimo passo: classificazione Situazione: posso rappresentare un’immagine I tramite un vettore di occorrenze di keywords x Obiettivo: dato x, voglio stabilire quale oggetto è presente in I con minore probabilità di sbagliarmi Userò nuovamente T

Ese: classificazione duale T = {(I1, y1), …, (IN, yN)}, dove: yj {“auto”, “non-auto”}

Esempio di rappresentazione grafica di T in Rn (n, m = 2)

Esempio [2] Rappresentazione (x) di una nuova immagine (I)

Teoria Decisionale Bayesiana Data l’immagine x e m classi di oggetti C1, … Cm, associare x alla classe più probabile Scelgo Cj* tale che: Notazione abbreviata:

Esempio Le probabilità sono stimate tramite training immagine presa da: Duda, Hart, Stork, Pattern Classification

Metodi discriminativi Mirano a determinare i bordi di decisione (superfici iper-dimensionali) che meglio partizionano Rn rispetto alle classi d’interesse

Bordi di decisione: ese. monodimensionale

Bordo di decisione: ese. bidimensionale

Esempi di classificatori discriminativi Reti neurali (ANN) Support Vector Machines (SVM) Decision Trees K-Nearest Neighbor (k-NN) Boosting …

Bags of Words: riassunto Scelta delle feature per rappresentare le img e costruzione dello spazio delle feature F Attraverso un training set di img e tecniche di clustering, costruisco il dizionario D delle feature scegliendo i prototipi di feature più comuni (“words”) Utilizzando D rappresento il training set di img nello spazio delle frequenze (S) delle words

Bags of Words: riassunto [2] Utilizzo tecniche di classificazione in S per costruire un classificatore statistico C On-line, associo gli elementi di D ad una nuova img (I) e ne conto la frequenza Posso quindi rappresentare I in S e utilizzare C per classificarla

Annotazioni di video Un video è una sequenza di immagini (frame), per cui potrei applicare tecniche di image classification (e.g., ai soli key frame) Tuttavia si rileva normalmente più efficace studiare approcci ad hoc per tipi di video differenti (film, news, video sportivi, pubblicità, …)

Nei video sono spesso già presenti alcune informazioni testuali “Content independent-Metadata”: titolo, autore, produttore, data.. Sottotitoli e trascrizioni degli autori

Esempio: annotazione di video sportivi Annotare può significare riconoscere azioni di gioco importanti (nel calcio, nel tennis, …) e indicizzare i punti esatti in cui avvengono

Esempio: annotazione di film Riconoscere gli attori (face recognition) Riconoscere il tipo di scena (allegra, triste, drammatica, suspance, …) da alcune sue caratteristiche come l’intensità luminosa o della colonna sonora, … …

Annotazioni audio E’ anzitutto necessario distinguere (classificare…) le parti del file audio che contengono una parte parlata da altri suoni o musiche Tecniche di speech recognition possono quindi essere utilizzate per trasformare il parlato in testo

Annotazioni audio [2] La qualità del riconoscimento può essere elevata per sistemi speaker-dependent Qualità accettabili ai fini del retrieval anche per sistemi speaker-independent

Alcuni riferimenti Forsyth, Ponce, Computer Vision, a Modern Approach 2003, Duda, Hart, Stork, Pattern Classification (II edition) 2001, Bishop, Pattern Recognition and Machine Learning, 2006 Fergus, Fei-Fei, Perona, Zisserman, Learning Object Categories from Google’s Image Search, ICCV 05

Domande…