Tecniche di processamento testuale Come classificare testi per argomento.

Slides:



Advertisements
Presentazioni simili
Dizionari elettronici in glottodidattica: possibilità attuali e potenzialità future Isabella Chiari Dizionari elettronici in glottodidattica: possibilità.
Advertisements

Il filo di arianna 2011: lo sviluppo della competenza semantico-lessicale Sintesi della scheda teorica.
Intelligenza artificiale
Guida alla traduzione Mission impossible?. Una traduzione è.. la sintesi finale di una complessa serie di operazioni: analisi del testoanalisi del testo.
INTEGRAZIONE MULTILINGUA DI PUBBLICA AMMINISTRAZIONE: SIAM
METODI DI DISAMBIGUAZIONE DEL TESTO ED ESTENSIONI DI WORDNET
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
La ricerca bibliografica Informazione primaria (o full text o source database), cioè Testo completo Informazione secondaria (reference database), cioè
Text Representation Ing. Leonardo Rigutini Dipartimento Ingegneria dell’Informazione Rigutini Leonardo – Dipartimento di.
Text Processing WordNet
Automatic Text Processing
governare l’Information Overload
IMPARARE L’ITALIANO, IMPARARE
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Semantica approcci computazionali
Pianificazione attività di Istituto Parte laboratoriale
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Istituzioni di linguistica
Brainstorming lessicale per presentare e descrivere
Banche dati : qualche avvertenza La prima ricerca serve per tarare i termini da utilizzare ; spesso ci sono indici o liste dei termini da usare La struttura.
La Ricerca in Rete Danco Singer novembre 2002 novembre 2002 Master in Editoria Multimediale La Ricerca in Rete: strategie di navigazione.
Popovic e i 5 tipi di cambiamento
Unità Didattica 2 I Linguaggi di Programmazione
Linguistica generale, parte II a.a
Innova - MENTI - in rete Liceo Zucchi
PROPOSIZIONI SUBORDINATE RELATIVE
Università degli Studi di Modena e Reggio Emilia
Le Mappe della Conoscenza
Le funzioni a tempo di esecuzione
APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA
Che cos’è l’annotazione di un corpus?
Scrivere per il web Consigli pratici per lo sviluppo di contenuti, a cura di Aliacom.it.
Lingua italiana per stranieri
Alla scoperta del significato
La competenza lessicale
PROGETTO REGIONALE ELLE – EMERGENZA LINGUA- II SEMINARIO DISTRETTUALE DI RAVENNA – Ravenna, 22 novembre 2010 Pianificazione attività di Istituto Parte.
Prof. Serena Ambroso Università Roma Tre
LE FASI E GLI STADI “ IL” ITALIANO L2
Livelli di comprensione
Criteri per la scrittura di testi ad alta comprensibilità
Educazione linguistica SILSIS Scienze Naturali e FIM a.a
Intelligenza Artificiale 2 Metodologie di ragionamento
1 Progetto di italiano per il polo pugliese ROSARIO COLUCCIA Bari, 6 maggio 2013.
Michele A. Cortelazzo Morfologia 1.
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
Parola: Livelli di rappresentazione
Frase grammaticale?logica?
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
AURORA Amministrazioni unite per la redazione degli oggetti e delle registrazioni anagrafiche nel protocollo informatico PROGETTO AURORA Le raccomandazioni.
Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a
L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.
Informatica 4 Funzioni. FUNZIONE: definizione MATEMATICA Relazione (o applicazione) binaria tra due insiemi A e B che associa a ogni elemento di A un.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
APPRENDERE Comprendere e produrre il parlato e’ conseguenza di processi di maturazione piu’ che di apprendimento (i bimbi apprendono spontaneamente)
L'analisi dei testi per la realizzazione del Web Semantico: quali gli strumenti e le applicazioni Paolo Poto Expert System Spa.
RETE DI ISTITUZIONI SCOLASTICHE DELLA PROVINCIA DI PESCARA
Istituzioni di linguistica a.a Federica Da Milano
I componenti formali del linguaggio
L’avverbio L’avverbio (da latino adverbium = «parola aggiunta») è quella parte invariabile del discorso che si aggiunge a un verbo, a un aggettivo, a un.
Una lingua per studiare
 L’insegnamento comunicativo della lingua poggia su: -Bisogni concreti degli alunni -La difesa dell’insegnamento esplicito delle strategie -Il rispetto.
La grammatica Possiamo distinguere tre tipi di grammatica:
COMPRENSIONE, ANALISI E INTERPRETAZIONE DI UN TESTO POETICO
Tecniche per lo sviluppo delle competenze linguistiche: lessico, grammatica e fonologia Prof.ssa Stefania Cavagnoli Uniroma2.
  Il termine collocation fu coniato da J. R. Firth negli anni ‘50, e indicava una co-occorrenza abituale di lessemi individuali: il significato di una.
LEZIONE 4 Comparativo. Quando usiamo il comparativo? Lucia Maria Paola Antonio Antonio è più alto di Lucia. Lucia è meno alta di Antonio. Lucia è alta.
I pronomi, gli avverbi, le congiunzioni
Relazioni tra significati
Transcript della presentazione:

Tecniche di processamento testuale Come classificare testi per argomento

Reti neurali Utili per moli di dati enormi Problema: accettano solo valori numerici

Bag of words Che cose Che cose Reti neurale e bag of words: Reti neurale e bag of words: i vettori che rappresentano i documenti fungono da input alla rete neurale (un neurone di input per ogni parola del vocabolario)

Bag of words: problemi Dimensionalita troppo alta Dimensionalita troppo alta Rappresentazione sparsa Rappresentazione sparsa Scarsa informazione semantica Scarsa informazione semantica

Bag of words: raffinamenti Stop words Stop words Stemming Stemming Sostiture a 0 e 1 la frequenza relativa di ciascuna parola Sostiture a 0 e 1 la frequenza relativa di ciascuna parola

IDEA IDEA Usare informazione semantica invece di una lista di parole per rappresentare i documenti

Wordnet An online lexical reference system An online lexical reference system Nomi, aggettivi, verbi e avverbi sono organizzati in gruppi sinonimi (synset), collegati tra loro da nessi semantici e formali

Wordnet Come nasce wordnet: George Miller Parole attualmente nella rete: organizzate in oltre synsets

Descrizione del database Lexicographer files organizzano nomi, aggettivi, verbi e avverbi in syntet o gruppi di parole sinonime. Lexicographer files organizzano nomi, aggettivi, verbi e avverbi in syntet o gruppi di parole sinonime. Contenuto syntets: sinonimi o collocazioni e puntatori (semantici e lessicali) Contenuto syntets: sinonimi o collocazioni e puntatori (semantici e lessicali)

Descrizione del database Puntatori semantici Relazioni di: sinonimia sinonimia antonimia (!) antonimia (!) iperonimia/iponimia iperonimia/iponimia olonimia/meronimia (%p) olonimia/meronimia (%p)

Descrizione del database Puntatori lessicali Antonimo (!) Participio (<) Derivato (\)

Descrizione del database Nomi e verbi organizzati in synset collegati tra loro da relazioni di iperonimia/iponimia (es. tree) Nomi e verbi organizzati in synset collegati tra loro da relazioni di iperonimia/iponimia (es. tree) Aggettivi organizzati in cluster di synset principali (tra loro antonimi) e secondari Aggettivi organizzati in cluster di synset principali (tra loro antonimi) e secondari

Cluster aggettivale Aborning Dying pertinent in-labor emergent emerging nascent moribund last

Descrizione del database Avverbi organizzati in synset contenenti puntatori lessicali Avverbi organizzati in synset contenenti puntatori lessicali

Estrazione di feature con Wordnet bag of words: vettori di parole wordnet: vettori di synset bag of words: vettori di parole wordnet: vettori di synsetVANTAGGI 1) Riduce dimensionalita 2) Cattura informazione semantica (gatto; micio)

Uso delle relazioni semantiche Scopo: ottenere rappresentazioni testuali massimamente informative e meno sparse Scopo: ottenere rappresentazioni testuali massimamente informative e meno sparse Metodo: nel vettore che rappresenta il testo, oltre al synset si pongono a 1 anche i suoi iponimi e/o iperonimi Metodo: nel vettore che rappresenta il testo, oltre al synset si pongono a 1 anche i suoi iponimi e/o iperonimi

Uso delle relazioni semantiche (esempio: iperonimia) d1 d2 d3 d1 d2 d3 …… {gatto; micio} … Felino … mammifero … animale …

Conclusioni Usando le relazioni semantiche di wordnet si ottiene una rappresentazione dei documenti a dimensionalita piu bassa, meno sparsa e piu ricca semanticamente