La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Text Representation Ing. Leonardo Rigutini Dipartimento Ingegneria dellInformazione E-mail:

Presentazioni simili


Presentazione sul tema: "Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Text Representation Ing. Leonardo Rigutini Dipartimento Ingegneria dellInformazione E-mail:"— Transcript della presentazione:

1 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Text Representation Ing. Leonardo Rigutini Dipartimento Ingegneria dellInformazione

2 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Outlines Lera dellinformazione Information Retrieval I documenti di testo Rappresentazione del testo: –Vettori di feature –Rappresentazione Bag-OF-Word –Importanza di un termine –Misura di similarità Normalizzazione del testo: –Tokenization –Conversion to lower case –Lemming –Stop-Word Vantaggi e Limiti del BOW Altri approcci: HMM & NN

3 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Era dell informazione Documento inteso come contenitore di informazione di qualunque tipo –Varie forme di informazione: Testo, Radio, Televisione, INTERNET –Vari tipi di documenti: Testo, Audio, Immagini e Video, Tutti Incredibile il numero di documenti esistenti oggi: –Nel 2000 si stima la dimensione del web in più di 1 BILIONE di pagine –I motori di ricerca classici (Google, AltaVista, Yahoo) indicizzano centinaia di milioni di documenti –Gli archivi delle aziende raggiungono milioni di documenti –Moltissime anche le pubblicazioni memorizzate nei database dei search-engine specializzati (citeseer, cora, IEEE, ecc…) –Newsgroup, forum, le … –Archivi fotografici –Ecc..

4 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Information Retrieval Necessità di organizzare questa informazione –Aziende: documenti relativi allazienda, regolamento interno, bollettini interni, comunicazioni varie, workflow, ecc.. –Enti pubblici: Regolamenti, modulistica, notizie, bandi ecc.. –WEB: Qualunque informazione –Altro… Necessità di studiare tecniche per un recupero intelligente dellinformazione: –IR (Information Retrieval)

5 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Information Retrieval Disciplina che studia tecniche per il recupero dellinformazione –Es. Motori di ricerca Scopo: –Recupero dei documenti giusti durante la ricerca da parte dellutente Misure per l IR: –RECALL: –PRECISION: n° relevant items retrieved n° relevant items in collection n° relevant items retrieved total n° items retrieved

6 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Information Retrieval Misurare la similarità tra due o più documenti in modo da restituire allutente i documenti più significativi: –Trovare una rappresentazione adeguata dei documenti (feature extraction) –Definire una metrica (distanza) per tale rappresentazione La macchina determina la similarità tra la query e tutti i documenti nel database, restituendo i documenti con punteggio più elevato.

7 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Documenti di testo La maggioranza di documenti presenti sulla rete sono documenti di testo La maggioranza delle tecniche di classificazione e di recupero dellinformazione sono relative al testo La maggioranza delle ricerche effettuate sul web riguarda documenti di testo Le ultime due affermazioni sono strettamente correlate: –Ad oggi pochi sono i motori per immagini che funzionano, quasi nessuno per i video o audio, ciò spiega perché lutente si muove su documenti di testo –Inoltre molte ricerche multimediali si risolvono in ricerche testuali in appositi campi un video viene etichettato con un insieme di keyword e la sua ricerca avviene per tali parole

8 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Text-IR Text Information Retrival raccoglie: –Text Retrieval: Data una query, recuperare i documenti più attinenti –Text Segmentation: Dato un documento, suddividerlo in sub-topic –Text Classification: Determinare la classe del documento tra un insieme di classi prestabilito –Document Clustering: Dato un database documentale, determinare linsieme delle classi e gli abbinamenti classe-doumento

9 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Rappresentazione del testo Documento di testo: –Sequenza (flusso) di parole contenente uno o più topic (argomenti, concetti ecc..) Feature: –Parole –Punteggiatura –Stile del testo (Grassetto, Corsivo, ecc…) –Struttura del testo (Titolo, paragarafo, nota ecc…) –Bi-grammi o tri-grammi

10 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Vettori - 1 Un punto in uno spazio può essere rappresentato come un insieme di valori, ognuno dei quali si riferisce ad una dimensione dello spazio stesso Es. 2-D : P = ( x 1, x 2 ) 3-D : P = ( x 1, x 2, x 3 ) Formalmente: –Un vettore è una n-pla di valori dove n è la dimensione dello spazio P = ( x 1, x 2, …, x n ) x1x1 x2x2 x3x3 P (x 1,x 2,x 3 ) x1x1 x2x2 P (x 1,x 2 )

11 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Vettori - 2 Rappresentazione alternativa di un vettore in R 2 : –Modulo: misura del vettore –Angolo: angolo che il vettore forma con le ascisse N.B. sempre due dimensioni (cambia la base) Operazioni: –Modulo: Per calcolare il modulo si utilizza il teorema di pitagora: E si indica con –Prodotto scalare Il prodotto scalare tra A e B si indica con o AB x1x1 x2x2 P (x 1,x 2 ) α

12 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Vettore differenza Dati due punti (vettori) è possibile calcolare il vettore differenza: Quanto vale A-B ? –A-B= C (a 1 -b 1, a 2 -b 2 ) a1a1 a2a2 A (a 1,a 2 ) b1b1 b2b2 B (b 1,b 2 ) a 2 -b 2 C (a 1 -b 1, a 2 -b 2 ) a1-b1

13 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Distanza - 1 Possiamo definire due tipi di distanze: –Distanza euclidea : modulo del vettore differenza –Distanza del coseno: Angolo formato dai due vettori: Se due vettori hanno pendenze vicine allora langolo che essi formano è piccolo ed il coseno tende ad 1 a1a1 a2a2 A (a 1,a 2 ) b1b1 b2b2 B (b 1,b 2 ) α

14 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Distanza - 2 La seconda formula è 0 quando α = 90° –In tale situazione infatti il prodotto scalare è 0 –Ed i due vettori si dicono ortogonali Infatti: = 0·b 1 + a 2 ·0 = 0 a2a2 A (0,a 2 ) b1b1 B (b 1,0) α =90°

15 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Vector Space Model Un documento è visto come un punto (vettore) nello spazio delle parole del dizionario (feature): –D i = ( w i,1, w i,2, w i,3, …, w i,n ) Ogni termine w i,k è il peso della parola k nel documento i: tf.idf: 4.…altri Tale rappresentazione è detta comunemente Bag-of-Word

16 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Es. BOW (Bag-of-Word) Supponiamo di avere due documenti: –D 1 = ingredienti pizza: farina, acqua, lievito, olio –D 2 = descrizione computer: CPU, RAM, Hard disk Il dizionario è lunione dei due insiemi: –T = {ingredienti,pizza,farina,acqua,lievito,olio,descrizione,computer,CPU,RAM,Hard Disk} –n=11 dimensione dello spazio La rappresentazione BOW dei due documenti: –D 1 = (1,1,1,1,1,1,0,0,0,0,0) –D 2 = (0,0,0,0,0,0,1,1,1,1,1) Se un utente esegue una query Q= ingredienti pizza essa viene rappresentata come: –Q = (1,1,0,0,0,0,0,0,0,0,0)

17 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Grado di similarità Il calcolo della similitudine tra due documenti diventa il calcolo della distanza tra due vettori: –Sim(D i, D j ) = d (D i, D j ) Normalmente si utilizza la distanza del coseno: –Sim(D i, D j ) = cos (D i, D j ) =

18 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Es. (reprise) Nell esempio precedente avevamo: –D 1 = (1,1,1,1,1,1,0,0,0,0,0) –D 2 = (0,0,0,0,0,0,1,1,1,1,1) –Q = (1,1,0,0,0,0,0,0,0,0,0) Calcolando sim( ) avremo : –Sim (D 1, D 2 ) = 0 –Sim (Q, D 1 ) = 0.37 –Sim (Q, D 2 ) = 0 Ed il sistema restituisce il documento D 1

19 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Soglia di similarità Nella realtà: –Databases con milioni di documenti –Dizionario formato da migliaia di parole (vettori di ~ componenti) Conseguenze: –Molti confronti con un valore di similarità prossimo a zero ma non zero Soluzione: –Soglia di similarità

20 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Bag-Of-Word Limiti: –Rappresentazione cruda del testo (non viene analizzata la semantica) –Parole uguali che assumono nel documento significati differenti sono trattate come la stessa parola –Presenza di elevato rumore (vedremo più avanti) Vantaggi: –Semplice e veloce –Relativamente bassa complessità computazionale –Buoni risultati (60 % – 70 % in classificazione) –Studiata da 15 anni

21 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Rumore Con rumore si intende qualunque cosa che disturba il buon comportamento del sistema In questo caso: –Parole poco informative sul topic del documento (articoli, congiunzioni, avverbi) –Parole diverse con significati simili (sinonimi) –Parole uguali con significati diversi (es. àncora e ancòra) –Verbi coniugati (vado e andare) Per limitare alcuni di questi problemi sono stati studiati metodi di pre-processing

22 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Normalizzazione del testo Consiste in quattro step di cui due opzionali: 1.Tokenization 2.Conversion to lowercase 3.Stemming 4.Stop-word Tali operazioni tentano di ridurre il rumore introdotto dalla rappresentazione bag-of-word del documento

23 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Tokenization Evita che parole e punteggiatura siano incorporate in un unico termine, separandoli come due parole disgiunte Es. – Today, stocks closed higher on heavy trading. Many stocks, despite early losses, reached all time highs. Ovviamente non è tutto così semplice: –Se il punto fa parte del termine deve rimanere tale (es. nomi di società, indirizzi ecc…)

24 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Conversion to lower case Evita che termini scritti totalmente o parzialmente in maiuscolo e in minuscolo vengano considerati diversamente Es. –today, stocks closed higher on heavy trading. many stocks, despite early losses, reached all time highs.

25 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Stemming Riporta i termini alla loro radice: –Verbi coniugati –Plurale e singolare –Maschile e femminile Es. –Today, stocks closed higher on heavy trading. Many stocks, despite early losses, reached all time highs. –Today, stock close high on heavy trade. Many stock, despite early loss, reach all time high.

26 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Stop Words Elimina le parole comuni con un grado di informazione minimo sul topic del documento: –Articoli –Congiunzioni –Avverbi –Verbi ausiliari –Verbi che non portano informazione (es. potere, fare, ecc…) I termini sono così suddivisi in due tipi: –Stop Words: inutili allindividuazione del topic –Function Words: importanti per capire il topic

27 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Text-IR Avevamo visto che Text Information Retrival raccoglie: –Text Retrieval: Data una query, recuperare i documenti più attinenti –Text Segmentation: Dato un documento, suddividerlo in sub-topic –Text Classification: Determinare la classe del documento tra un insieme di classi prestabilito –Document Clustering: Dato un database documentale, determinare linsieme delle classi e gli abbinamenti classe-doumento Vediamo come analizzare tali problemi utilizzando la filosofia Bag-Of-Word

28 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Text-IR - 1 Text Retrieval: –La query Q è vista come un documento –Calcolo di sim(Q, D j ) per ogni documento D j –Documenti con sim(Q, D j ) abbastanza elevato vengono ritenuti significativi per la ricerca e restituiti allutente Text Segmentation: –Si definiscono unità testuali atomiche lunghe k word dette sentenze: S i –Si calcola la similarità tra ogni unità e la sua successiva: sim( S j, S j+1 ) –Si considera un taglio quando tale valore scende sotto una soglia –Nomi eccellenti: Salton, Hearst, Reinar, Beeferman

29 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Text-IR - 2 Text Classification: –Ogni classe C i è vista come un documento (vettore) –Dato un documento D j, si calcola sim(C i, D j ) per ogni C i –D j viene inserito nella classe per cui sim(C i, D j ) è massimo Document Clustering: –Si prendono due o più punti a caso detti centroidi C i –Per ogni documento D j si calcola la sua similarità con i centroidi C i : sim(C i, D j ) –Si assegna D j al centroide per cui sim(C i, D j ) è massimo –Si calcola di nuovo i centroidi come media dei vettori che vi appartengono –Si ripete il procedimento fino a che il centroide non si stabilizza

30 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Text-IR conclusioni Si può riportare ogni problema al calcolo di sim(C i, D j ) Utilizzando il Bag-Of-Word si possono risolvere tutti i problemi relativi al IR in maniera semplice ed elegante Ovviamente vi sono altre tecniche (specialmente per la segmentazione ed il clustering) che si basano comunque su una rappresentazione BOW del testo –Segmentazione: dot-plot, entropiche, a regole, ecc.. –Clustering: gerarchico

31 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Altri approcci Considerando il testo come sequenza temporale di parole: –HMM –Reti Neurali Si cerca di: –Sfruttare linformazione sulla posizione della parola –Individuare contesti Scopo: –Determinare i topic allinterno dei documenti (segmentazione) –Classificare un documento in base ai sub-topic –Restituire documenti della classe desiderata

32 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione HMM & NN Caratteristiche: –Il documento è rappresentato come sequenza Lelemento i della sequenza rappresenta la parola i-esima nel documento La dimensione dello spazio cresce –I termini acquistano significato in dipendenza della loro posizione nel documento (contesto) –E possibile effettuare la normalizzazione anche in questi casi Funzionamento: –Per ogni sub-topic viene allenato un modello –La classe sarà data dal modello che massimizza la likelihood (Massima Verosimiglianza) –Ogni documento viene quindi rappresentato come sequenza di sub-topic ( o modelli) –E possibile creare a sua volta un modello di livello superiore che analizza sequenze di sub-topic e stabilisce la classe del documento

33 Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Reference Information Retrieval: –INFORMATION RETRIEVAL, C. J. van RIJSBERGEN B.Sc., Ph.D., M.B.C.S. Topic Segmentation: –G. Salton: Automatic Text Decomposition Using Text Segments and Text Themes –Hearst : Multi-paragraph Segmentation of Expository Text TextTiling: A Quantitative Approach to Discourse Segmentation –Beeferman : Statistical model for text segmentation –J. Reinar: An automatic method of finding topic boundaries Topic Segmentation: Algorithms and applications, Ph.D Thesis Clustering: –A Comparison of Document Clustering Techniques, M. Steinbach, G. Karypis, V. Kumar


Scaricare ppt "Rigutini Leonardo – Dipartimento di Ingegneria dellInformazione Text Representation Ing. Leonardo Rigutini Dipartimento Ingegneria dellInformazione E-mail:"

Presentazioni simili


Annunci Google