Multimedia information retrieval
Problematica Materiale multimediale: non solo testo, ma audio (speech, musica..) immagini, video Retrieval basato su criteri meno precisi del keyword match: –la somiglianza, lapprossimazione, i rapporti di misure e valori (es. face recognition) Utilizzando quali chiavi di ricerca e recupero: –figure geometriche –strutture contorni colori suoni –Ma anche rappresentazioni semantiche
Architettura di un sistema MIR Feature extraction Feature extraction
Multimedia retrieval Estrazione di caratteristiche –Caratteristiche proprie del media: pixel, contorni, segnale audio.. –Annotazioni testuali: legenda delle figure, speech, annotazioni fatte da umani Funzione di matching –Dal bag of wordsal bag of features
Features diverse possono essere combinate
I. Image retrieval Caratteristiche: 1. geometriche 2. spettrali 3. semantiche
1.Features geometriche Distanze (es. face recognition, OCR) Archi (forme donda) Linee (arterie stradali) Forme complesse (triangoli, rettangoli..)
… … Esempio di estrazione di features basata su geometria: face recognition scanning delliride impronte digitali distanza fra occhi, naso, bocca segnale vocale
Misure: Geometria facciale
Misure: Face recognition La rappresentazione può essere più complessa di un vettore di features Rappresentazione strutturata (ad es. i templates, come per IE) Sistema di registrazione Biometric reader Feature Extractor Enroll: … template immagine
Applicazione : riconoscitore di identità foto sorgente (query) foto recuperata
2.Features spettrali 2.1 Analisi di dati raster –Segmentazione e clustering di dati raster (immagini rappresentate mediante matrici di celle con informazioni su colore, intensità, luminosità, elevazione..) 2.2 Texture (tessellatura) analysis –Riconoscimento di aree caratterizzate da comuni caratteristiche di intensità e struttura
2.2 Dati raster. Es: unimmagine..
.. I suoi pixels
Features più complesse si ottengono raggruppando i pixels sulla base di una caratteristica (es. colore) Celle adiacenti omogenee o simili rispetto ad un descrittore (es. il colore) vengono raggruppate. Problema: features più compatte ma in numero variabile.
Image Retrieval basato su immagini raster Le immagini sono memorizzate ad esempio in formato JPEG compresso Viene calcolato il coefficiente DC dellimmagine e si crea un istogramma DC coefficient: il valore medio della forma donda associata allimmagine spettrale Lutente sottomette una query grafica Viene paragonato listogramma DC della query con quello del database di immagini
Es: istogramma dellimmagine di un elefante
Applicazione : retrieval di opere darte La query è un particolare
best matching Notate che query e particolare possono non essere identici. Ad es. la query può essere scelta da un immagine prima di un restautro Esistono decine di misure di similarità, es. distanza eucliidea
.. E si possono avere varie risposte ordinate per rank query
2.2 Texture analysis (tessellatura)
Texture analysis Metodi statistici (ogni tessello è caratterizzato da un vettore delle caratteristiche) Strutturali (i tesselli sono visti come aree con un significato, es: centri abitati) Sintattici (i tesselli vengono combinati mediante una grammatica, es. graph grammars )
field residential vegetation (circondato da case)
3.Features semantiche: shape recognition Riconoscere forme (shapes) che rappresentano oggetti di un certo tipo Per imparare a identificare le forme è necessario addestrare i sistemi con un insieme di immagini di apprendimento
Shape recognition
Problemi: variazione punti di osservazione
Occlusioni parziali
Metodi di shape recognition: shock graphs Esempio Shape boundary Shocks Luogo dei centri delle circonferenze massime bitangenti ai confini della figura
Features di basso e alto livello Immagine di partenza Features di basso livello: colori, contorni, luminosità Features di alto livello: forme, quali persone, edifici, cielo, torri, gru.. Idealmente, descrizione semantica: immagine di un porto, con alcune persone e nello sfondo gru e faro..may be later..
II. Video retrieval Un video è semplicemente una sequenza di molte immagini Ogni immagine viene detta frame
Analisi dei video Parsing del video: si analizza lintero video e lo si frammenta in: –Scena: un insieme di immagini correlate (gli elementi che appaiono sono simili) –Shot: Un sequenza ripresa da una singola telecamera –Frame: una singola immagine Indexing: ai frames vengono assegnate delle features e si genera un sistema di indici (come per IR tradizionale) Linformazione viene compressa, calcolando le differenze di ogni frame rispetto a key frames (quelli che sono caratterizzati da discontinuità, es. cambio di scena o shot) Retrieval and browsing: si accede ai vari video con chiavi di ricerca testuali o immagini
Architettura di un sistema di VR I key frames sono quelli che segnalano delle discontinuità
Nei video si sfruttano anche features testuali Metadata: titolo, autore, produttore, data.. Sottotitoli e trascrizioni degli autori
Architettura di un sistema di video indexing: astrazione temporale e spaziale
III. Audio retrieval Vari tipi di audio:
Features audio
Features audio (2)
Audio retrieval: tecniche