Linguistica computazionale, treebank e altre risorse

Linguistica computazionale, treebank e altre risorse
Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale

Di cosa parleremo Task di LC
Risorse linguistiche (diverse dai corpora) Corpora annotati e Treebank Il Progetto Turin University Treebank e Parallel Turin University Treebank Il progetto Universal Dependency

Task di LC I sistemi di LC svolgono vari tipi di analisi del testo, singolarmente o in abbinamento. Il tipo di task determina: - come è fatto l’input - come è fatto l’output quali passi intermedi di analisi devono essere svolti quali risorse sono necessarie

Task di LC Tutti i sistemi attuali di LC utilizzano risorse linguistiche per passare dall’input all’output. input output risorsa1 risorsa2

Gerarchia di Task di LC I task tradizionali possono essere pensati in una gerarchia che ne evidenzia la crescente difficoltà: Tokenizzazione Part of Speech Tagging = analisi morfologica Parsing = analisi sintattica Analisi semantica Altri task “nuovi” si basano su di essi.

Tokenizzazione Consiste nel distinguere nel testo le unità minime morfologiche (detti token). L’input è il testo in forma di frase o intero testo. Es: “Il gatto dorme sul terrazzo” L’output è il testo suddiviso in token. Es: tok1=Il tok2=gatto tok3=dorme tok4=su tok5=il tok6=terrazzo

Part of Speech (PoS) tagging
Consiste nell’associare ad ogni token una descrizione della sua morfologia. L’input è il singolo token. Es: Il L’output è il token con associate le relative informazioni morfologiche Es: Il ARTICOLO DETERMINATIVO SINGOLARE MASCHILE

Part of Speech tagging La descrizione della morfologia di una parola (il PoS tagging) può includere anche la lemmatizzazione. Essa è di fatto necessaria per identificare la categoria grammaticale della parola e può essere resa esplicita nell’output del PoS tagging. Es: Il IL ARTICOLO DETERMINATIVO SINGOLARE MASCHILE

Part of Speech tagging e risorse
Quali risorse si utilizzano per fare il PoS tagging? Collezioni di lemmi Collezioni di forme (MORPH-IT) Dizionari con informazioni morfologiche Corpora con già applicato il PoS tagging (per fare apprendimento) (POSTWITA)

Morph-It (Zanchetta, Baroni)
È una risorsa lessicale basata su forme che contiene: per ogni forma il lemma, la categoria grammaticale e caratteristiche morfologiche serve il Part of Speech tagging e la lemmatizzazione

Morph-It (Zanchetta, Baroni)
Contiene 505,074 voci che corrispondono a 35,056 lemmi. È stata costruita partendo da un corpus di 380 milioni di token (articoli di La Repubblica dal 1985 al 2000) annotato con lemmi e parte della morfologia, poi arricchito con le forme mancanti e la morfologia mancante.

PoSTWITA (Bosco, Tamburini, Mazzei, Bolioli)
Contiene 301 tweet annotati dal punto di vista morfologico. L’annotazione è stata fatta automaticamente e corretta a mano. Rappresenta la lingua italiana dei social media.

Parsing Consiste nell’associare ad ogni frase una descrizione della sua sintassi. L’input è la frase tokenizzata e analizzata morfologicamente (dal PoS tagging).

Parsing: input 1 Il ART DEF MAS SING 2 gatto NOM COM MAS SING
3 dorme VERB IND PRES 3 SING 4 su PREP 5 il ART DEF MAS SING 6 terrazzo NOM COM MAS SING

Parsing: output 1 Il ART DEF MAS SING Soggetto di 3
2 gatto NOM COM MAS SING Argomento di 1 3 dorme VERB IND PRES 3 SING Radice 4 su PREP Modificatore di 3 5 il ART DEF MAS SING Argomento di 4 6 terrazzo NOM COM MAS SING Argomento di 5

Parsing: output Soggetto Modificatore Argomento Argomento Argomento
dorme VERB IND PRES 3 SING Soggetto Modificatore Il ART DEF MAS SING su PREP Argomento Argomento gatto NOM COM MAS SING il ART DEF MAS SING Argomento terrazzo NOM COM MAS SING

Parsing e risorse Quali risorse si utilizzano per fare il parsing?
I treebank, ampie collezioni di frasi annotate dal punto di vista morfologico e sintattico. In linea di principio servirebbe solo l’annotazione sintattica, ma dato che quella morfologica ne è un prerequisito, si mette anche quella negli stessi dati. Dei treebank parleremo in dettaglio più avanti.

Analisi semantica Consiste nell’associare ad ogni frase una descrizione della sua semantica. L’input è la frase tokenizzata, analizzata morfologicamente (dal PoS tagging) e sintatticamente (dal parsing).

Analisi semantica È il tipo di analisi più difficile per la quale esistono solo alcuni sub-task sviluppati. Tra di essi citiamo il word sense disambiguation per il quale esistono risorse linguistiche molto importanti: BabelNet MultiWordNet

Gerarchia di Task di LC I task “nuovi” si basano su quelli tradizionali, ad esempio la Sentiment analysis sovente utilizza forme di (parziale) analisi morfologica e sintattica.

Sentiment analysis Consiste nell’associare ad ogni porzione data di testo un valore di polarità o una classificazione. L’input è il testo, eventualmente analizzato morfologicamente e/o sintatticamente. L’output è il testo classificato secondo la polarità o altra classe definita.

Sentiment analysis e risorse
Lessici per la sentiment analysis: contengono parole con associata una polarità (AFINN) Quando un sistema di sentiment analysis deve rilevare la polarità di un testo cerca le parole del testo nel lessico, se le trova prende la loro polarità e sommando tutte le polarità delle parole calcola quella della frase.

Esempi di risorse linguistiche
“Mario Monti: Berlusconi risparmi all'Italia il biasimo per aver causato un disastro #mariomontipremier “ > Polarità Negativa “Mario #Monti Senatore a vita è una splendida notizia per tutti gli italiani, è l'emblema di quei cittadini meritevoli che onorano la Patria.” > Polarità Positiva

Le risorse linguistiche
La quantità e la varietà di risorse linguistiche dimostra la loro centralità per la LC. Una parte consistente della comunità della LC lavora solo per costruire risorse. Esistono molte risorse per l’inglese, ma anche per altre lingue (a volte costruite a partire dalle prime).

Le risorse linguistiche
Con il termine risorse linguistiche si indicano i corpora e tutte le altre Sono delle raccolte di informazioni a cui i sistemi di LC accedono durante lo svolgimento del loro compito Esse rappresentano il versante prettamente linguistico della LC

CORPORA e TREEBANK A partire dalla fine degli anni ’90 si applicano nella LC approcci basati su corpora. Inizialmente si tratta di corpora molto grandi non annotati (approcci non supervisionati). In seguito si tratta di corpora meno grandi ma annotati (approcci supervisionati).

Annotazione e corpora Come annotare i dati ?
Le informazioni annotate variano parecchio a seconda dello scopo per cui si costruisce il corpus, perché le informazioni che i sistemi devono apprendere sono strettamente correlate al compito che il sistema deve svolgere.

Annotazione e corpora Come annotare i dati ?
- Corpora per sentiment analysis: polarità, stance, ironia, target ... Corpora per named entity recognition: persone, luoghi, aziende, date ... Corpora per Part of Speech tagging: lemmi, categorie grammaticali, ...

Annotazione e treebank
Come annotare i dati ? Per ogni livello di annotazione vengono fatte delle scelte sia sulla teoria linguistica da prendere come riferimento sia sul modo in cui fisicamente mostrare i dati.

Quali dati annotare ? Occorre scegliere i testi da introdurre nel corpus in modo che siano rappresentativi del linguaggio che si vuole trattare.

Quali dati annotare ? un corpus é un campione significativo e rappresentativo di un linguaggio SE: contiene frasi non ristrette è “bilanciato” rispetto al genere, alla collocazione geografica e sociale, al tempo MA non rappresenta mai TUTTO il linguaggio nel suo complesso

Linguistica computazionale, treebank e altre risorse

Presentazioni simili

Presentazione sul tema: "Linguistica computazionale, treebank e altre risorse"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Linguistica computazionale, treebank e altre risorse

Presentazioni simili

Presentazione sul tema: "Linguistica computazionale, treebank e altre risorse"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back