Tecniche di processamento testuale Come classificare testi per argomento
Reti neurali Utili per moli di dati enormi Problema: accettano solo valori numerici
Bag of words Che cose Che cose Reti neurale e bag of words: Reti neurale e bag of words: i vettori che rappresentano i documenti fungono da input alla rete neurale (un neurone di input per ogni parola del vocabolario)
Bag of words: problemi Dimensionalita troppo alta Dimensionalita troppo alta Rappresentazione sparsa Rappresentazione sparsa Scarsa informazione semantica Scarsa informazione semantica
Bag of words: raffinamenti Stop words Stop words Stemming Stemming Sostiture a 0 e 1 la frequenza relativa di ciascuna parola Sostiture a 0 e 1 la frequenza relativa di ciascuna parola
IDEA IDEA Usare informazione semantica invece di una lista di parole per rappresentare i documenti
Wordnet An online lexical reference system An online lexical reference system Nomi, aggettivi, verbi e avverbi sono organizzati in gruppi sinonimi (synset), collegati tra loro da nessi semantici e formali
Wordnet Come nasce wordnet: George Miller Parole attualmente nella rete: organizzate in oltre synsets
Descrizione del database Lexicographer files organizzano nomi, aggettivi, verbi e avverbi in syntet o gruppi di parole sinonime. Lexicographer files organizzano nomi, aggettivi, verbi e avverbi in syntet o gruppi di parole sinonime. Contenuto syntets: sinonimi o collocazioni e puntatori (semantici e lessicali) Contenuto syntets: sinonimi o collocazioni e puntatori (semantici e lessicali)
Descrizione del database Puntatori semantici Relazioni di: sinonimia sinonimia antonimia (!) antonimia (!) iperonimia/iponimia iperonimia/iponimia olonimia/meronimia (%p) olonimia/meronimia (%p)
Descrizione del database Puntatori lessicali Antonimo (!) Participio (<) Derivato (\)
Descrizione del database Nomi e verbi organizzati in synset collegati tra loro da relazioni di iperonimia/iponimia (es. tree) Nomi e verbi organizzati in synset collegati tra loro da relazioni di iperonimia/iponimia (es. tree) Aggettivi organizzati in cluster di synset principali (tra loro antonimi) e secondari Aggettivi organizzati in cluster di synset principali (tra loro antonimi) e secondari
Cluster aggettivale Aborning Dying pertinent in-labor emergent emerging nascent moribund last
Descrizione del database Avverbi organizzati in synset contenenti puntatori lessicali Avverbi organizzati in synset contenenti puntatori lessicali
Estrazione di feature con Wordnet bag of words: vettori di parole wordnet: vettori di synset bag of words: vettori di parole wordnet: vettori di synsetVANTAGGI 1) Riduce dimensionalita 2) Cattura informazione semantica (gatto; micio)
Uso delle relazioni semantiche Scopo: ottenere rappresentazioni testuali massimamente informative e meno sparse Scopo: ottenere rappresentazioni testuali massimamente informative e meno sparse Metodo: nel vettore che rappresenta il testo, oltre al synset si pongono a 1 anche i suoi iponimi e/o iperonimi Metodo: nel vettore che rappresenta il testo, oltre al synset si pongono a 1 anche i suoi iponimi e/o iperonimi
Uso delle relazioni semantiche (esempio: iperonimia) d1 d2 d3 d1 d2 d3 …… {gatto; micio} … Felino … mammifero … animale …
Conclusioni Usando le relazioni semantiche di wordnet si ottiene una rappresentazione dei documenti a dimensionalita piu bassa, meno sparsa e piu ricca semanticamente