La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Tecniche di processamento testuale Come classificare testi per argomento.

Presentazioni simili


Presentazione sul tema: "Tecniche di processamento testuale Come classificare testi per argomento."— Transcript della presentazione:

1 Tecniche di processamento testuale Come classificare testi per argomento

2 Reti neurali Utili per moli di dati enormi Problema: accettano solo valori numerici

3 Bag of words Che cose Che cose Reti neurale e bag of words: Reti neurale e bag of words: i vettori che rappresentano i documenti fungono da input alla rete neurale (un neurone di input per ogni parola del vocabolario)

4 Bag of words: problemi Dimensionalita troppo alta Dimensionalita troppo alta Rappresentazione sparsa Rappresentazione sparsa Scarsa informazione semantica Scarsa informazione semantica

5 Bag of words: raffinamenti Stop words Stop words Stemming Stemming Sostiture a 0 e 1 la frequenza relativa di ciascuna parola Sostiture a 0 e 1 la frequenza relativa di ciascuna parola

6 IDEA IDEA Usare informazione semantica invece di una lista di parole per rappresentare i documenti

7 Wordnet An online lexical reference system An online lexical reference system Nomi, aggettivi, verbi e avverbi sono organizzati in gruppi sinonimi (synset), collegati tra loro da nessi semantici e formali

8 Wordnet Come nasce wordnet: George Miller Parole attualmente nella rete: 138.838 organizzate in oltre 70.000 synsets

9 Descrizione del database Lexicographer files organizzano nomi, aggettivi, verbi e avverbi in syntet o gruppi di parole sinonime. Lexicographer files organizzano nomi, aggettivi, verbi e avverbi in syntet o gruppi di parole sinonime. Contenuto syntets: sinonimi o collocazioni e puntatori (semantici e lessicali) Contenuto syntets: sinonimi o collocazioni e puntatori (semantici e lessicali)

10 Descrizione del database Puntatori semantici Relazioni di: sinonimia sinonimia antonimia (!) antonimia (!) iperonimia/iponimia (@) iperonimia/iponimia (@) olonimia/meronimia (%p) olonimia/meronimia (%p)

11 Descrizione del database Puntatori lessicali Antonimo (!) Participio (<) Derivato (\)

12 Descrizione del database Nomi e verbi organizzati in synset collegati tra loro da relazioni di iperonimia/iponimia (es. tree) Nomi e verbi organizzati in synset collegati tra loro da relazioni di iperonimia/iponimia (es. tree) Aggettivi organizzati in cluster di synset principali (tra loro antonimi) e secondari Aggettivi organizzati in cluster di synset principali (tra loro antonimi) e secondari

13 Cluster aggettivale Aborning Dying pertinent in-labor emergent emerging nascent moribund last

14 Descrizione del database Avverbi organizzati in synset contenenti puntatori lessicali Avverbi organizzati in synset contenenti puntatori lessicali

15 Estrazione di feature con Wordnet bag of words: vettori di parole wordnet: vettori di synset bag of words: vettori di parole wordnet: vettori di synsetVANTAGGI 1) Riduce dimensionalita 2) Cattura informazione semantica (gatto; micio)

16 Uso delle relazioni semantiche Scopo: ottenere rappresentazioni testuali massimamente informative e meno sparse Scopo: ottenere rappresentazioni testuali massimamente informative e meno sparse Metodo: nel vettore che rappresenta il testo, oltre al synset si pongono a 1 anche i suoi iponimi e/o iperonimi Metodo: nel vettore che rappresenta il testo, oltre al synset si pongono a 1 anche i suoi iponimi e/o iperonimi

17 Uso delle relazioni semantiche (esempio: iperonimia) d1 d2 d3 d1 d2 d3 …… 0 0 0 {gatto; micio} 1 0 0 ….. 0 0 0 Felino 1 0 0 ….. 0 0 0 mammifero 1 1 0 …. 0 0 0 animale 1 1 1 ….. 0 0 0

18 Conclusioni Usando le relazioni semantiche di wordnet si ottiene una rappresentazione dei documenti a dimensionalita piu bassa, meno sparsa e piu ricca semanticamente


Scaricare ppt "Tecniche di processamento testuale Come classificare testi per argomento."

Presentazioni simili


Annunci Google