Linguistica computazionale, treebank e altre risorse

Slides:



Advertisements
Presentazioni simili
Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale
Advertisements

Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Prof.ssa Laura Grella ITI “G.Galilei”- Salerno 1 L’articolo di giornale Tipologie di testi Per scrivere un articolo pag. 2 La collocazionepag. 3 Il destinatariopag.
Fondamenti di Informatica - D. Talia - UNICAL 1 Fondamenti di Informatica FONDAMENTI DI INFORMATICA Domenico Talia
Elaborazione delle Immagini Operatori Puntuali Luigi Cinque
L’indice d’uso nei corpora linguistici Salvatore De Masi
REPORT SUI DATI RESTITUITI DALL’INVALSI A.S. 2015/2016
Il Parallel Turin University Treebank
Text Mining Informatica applicata alla comunicazione multimediale
Linguistica computazionale e approcci corpus-based
COS’E’ UN TESTO ? I VARI TIPI DI TESTI.
le fonti di informazione scientifica
La comunicazione scritta
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Istituzioni di linguistica
Linguistica computazionale e treebank
The English Language Centre 20/07/ /07/2015 Brighton
Dal problema al processo risolutivo
LE FUNZIONI DELLA LINGUA
Laboratorio di produzione editoriale
1 Metodologia per la gestione dei colori e forma del prodotto attraverso l’analisi di scenari di tendenza Metodologia per la gestione dei colori e forma.
Real-time 3D reconstruction using multiple depth cameras
Raccolta ed Analisi dei Requisiti nella Progettazione
Idoneità alla registrazione
Algoritmi e soluzioni di problemi
Universal Dependencies e treebank
DIRIGERE L’INNOVAZIONE
Dal problema al processo risolutivo
Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.
Basi di Dati: Introduzione
Studente/i Relatore Correlatore Committente Aris Piatti
IL TEMA.
Didattica speciale : codici del linguaggio logico e matematico
Linguistica e treebank
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
I vincoli di integrità Alcuni aspetti della realtà NON possono essere modellati solamente con entità, attributi e relazioni, per esempio i vincoli di integrità.
Computer assisted translation e terminologia
Linguistic corpus / corpus linguistico
COMUNICHIAMO E CONFRONTIAMOCI CON I MASS MEDIA
IL TESTO ESPOSITIVO - INFORMATIVO
Il vocabolario Vocabolario e lemma
Uso ragionato delle parentesi
Che cos’e’ l’Informatica
I 7 strumenti della qualità
Consultare un corpus con AntConc
Definizione di Mappa Concettuale
AMICI SEMPRE IN ACCORDO NOME, ARTICOLO E AGGETTIVO
L’indagine statistica
FORMAZIONE LAVORATORI CON HANDICAP INTELLETTIVO E PSICHICO
Programmare.
Lo sviluppo del linguaggio
La relazione - Giulio Colecchia
Progettazione concettuale
LA LINGUA E LO STILE PAG. 125 – 136.
Sistemi informativi statistici
CAMBIAMENTI DI PRINCIPI CONTABILI OIC 26
Corsi di Laurea in Biotecnologie
Definizione di linguaggio di programmazione
Il Piano Didattico Personalizzato
Excel 3 - le funzioni.
Teoria della computabilità
Istruzioni per i progetti
Dalle prove INVALSI alla didattica
Array e Stringhe Linguaggio C.
La metodologia del nostro curricolo di italiano: principi generali
I VERBI che ci accompagneranno
google. it/url
RELAZIONE SUI RISULTATI DELLE PROVE INVALSI DI LINGUA ITALIANA
ANALISI RAGIONATA delle PROVE INVALSI
SVILUPPO POLITICO E POTERI LOCALI
Transcript della presentazione:

Linguistica computazionale, treebank e altre risorse Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2016-2017

Di cosa parleremo Task di LC Risorse linguistiche (diverse dai corpora) Corpora annotati e Treebank Il Progetto Turin University Treebank e Parallel Turin University Treebank Il progetto Universal Dependency

Task di LC I sistemi di LC svolgono vari tipi di analisi del testo, singolarmente o in abbinamento. Il tipo di task determina: - come è fatto l’input - come è fatto l’output quali passi intermedi di analisi devono essere svolti quali risorse sono necessarie

Task di LC Tutti i sistemi attuali di LC utilizzano risorse linguistiche per passare dall’input all’output. input output risorsa1 risorsa2

Gerarchia di Task di LC I task tradizionali possono essere pensati in una gerarchia che ne evidenzia la crescente difficoltà: Tokenizzazione Part of Speech Tagging = analisi morfologica Parsing = analisi sintattica Analisi semantica Altri task “nuovi” si basano su di essi.

Tokenizzazione Consiste nel distinguere nel testo le unità minime morfologiche (detti token). L’input è il testo in forma di frase o intero testo. Es: “Il gatto dorme sul terrazzo” L’output è il testo suddiviso in token. Es: tok1=Il tok2=gatto tok3=dorme tok4=su tok5=il tok6=terrazzo

Part of Speech (PoS) tagging Consiste nell’associare ad ogni token una descrizione della sua morfologia. L’input è il singolo token. Es: Il L’output è il token con associate le relative informazioni morfologiche Es: Il ARTICOLO DETERMINATIVO SINGOLARE MASCHILE

Part of Speech tagging La descrizione della morfologia di una parola (il PoS tagging) può includere anche la lemmatizzazione. Essa è di fatto necessaria per identificare la categoria grammaticale della parola e può essere resa esplicita nell’output del PoS tagging. Es: Il IL ARTICOLO DETERMINATIVO SINGOLARE MASCHILE

Part of Speech tagging e risorse Quali risorse si utilizzano per fare il PoS tagging? Collezioni di lemmi Collezioni di forme (MORPH-IT) Dizionari con informazioni morfologiche Corpora con già applicato il PoS tagging (per fare apprendimento) (POSTWITA)

Morph-It (Zanchetta, Baroni) È una risorsa lessicale basata su forme che contiene: per ogni forma il lemma, la categoria grammaticale e caratteristiche morfologiche serve il Part of Speech tagging e la lemmatizzazione

Morph-It (Zanchetta, Baroni) Contiene 505,074 voci che corrispondono a 35,056 lemmi. È stata costruita partendo da un corpus di 380 milioni di token (articoli di La Repubblica dal 1985 al 2000) annotato con lemmi e parte della morfologia, poi arricchito con le forme mancanti e la morfologia mancante. http://sslmitdev-online.sslmit.unibo.it/linguistics/morph-it.php

PoSTWITA (Bosco, Tamburini, Mazzei, Bolioli) Contiene 301 tweet annotati dal punto di vista morfologico. L’annotazione è stata fatta automaticamente e corretta a mano. Rappresenta la lingua italiana dei social media.

Parsing Consiste nell’associare ad ogni frase una descrizione della sua sintassi. L’input è la frase tokenizzata e analizzata morfologicamente (dal PoS tagging).

Parsing: input 1 Il ART DEF MAS SING 2 gatto NOM COM MAS SING 3 dorme VERB IND PRES 3 SING 4 su PREP 5 il ART DEF MAS SING 6 terrazzo NOM COM MAS SING

Parsing: output 1 Il ART DEF MAS SING Soggetto di 3 2 gatto NOM COM MAS SING Argomento di 1 3 dorme VERB IND PRES 3 SING Radice 4 su PREP Modificatore di 3 5 il ART DEF MAS SING Argomento di 4 6 terrazzo NOM COM MAS SING Argomento di 5

Parsing: output Soggetto Modificatore Argomento Argomento Argomento dorme VERB IND PRES 3 SING Soggetto Modificatore Il ART DEF MAS SING su PREP Argomento Argomento gatto NOM COM MAS SING il ART DEF MAS SING Argomento terrazzo NOM COM MAS SING

Parsing e risorse Quali risorse si utilizzano per fare il parsing? I treebank, ampie collezioni di frasi annotate dal punto di vista morfologico e sintattico. In linea di principio servirebbe solo l’annotazione sintattica, ma dato che quella morfologica ne è un prerequisito, si mette anche quella negli stessi dati. Dei treebank parleremo in dettaglio più avanti.

Analisi semantica Consiste nell’associare ad ogni frase una descrizione della sua semantica. L’input è la frase tokenizzata, analizzata morfologicamente (dal PoS tagging) e sintatticamente (dal parsing).

Analisi semantica È il tipo di analisi più difficile per la quale esistono solo alcuni sub-task sviluppati. Tra di essi citiamo il word sense disambiguation per il quale esistono risorse linguistiche molto importanti: BabelNet http://babelnet.org/ MultiWordNet http://multiwordnet.fbk.eu/english/home.php/

Gerarchia di Task di LC I task “nuovi” si basano su quelli tradizionali, ad esempio la Sentiment analysis sovente utilizza forme di (parziale) analisi morfologica e sintattica.

Sentiment analysis Consiste nell’associare ad ogni porzione data di testo un valore di polarità o una classificazione. L’input è il testo, eventualmente analizzato morfologicamente e/o sintatticamente. L’output è il testo classificato secondo la polarità o altra classe definita.

Sentiment analysis e risorse Lessici per la sentiment analysis: contengono parole con associata una polarità (AFINN) Quando un sistema di sentiment analysis deve rilevare la polarità di un testo cerca le parole del testo nel lessico, se le trova prende la loro polarità e sommando tutte le polarità delle parole calcola quella della frase.

Esempi di risorse linguistiche “Mario Monti: Berlusconi risparmi all'Italia il biasimo per aver causato un disastro #mariomontipremier “ > Polarità Negativa “Mario #Monti Senatore a vita è una splendida notizia per tutti gli italiani, è l'emblema di quei cittadini meritevoli che onorano la Patria.” > Polarità Positiva

Le risorse linguistiche La quantità e la varietà di risorse linguistiche dimostra la loro centralità per la LC. Una parte consistente della comunità della LC lavora solo per costruire risorse. Esistono molte risorse per l’inglese, ma anche per altre lingue (a volte costruite a partire dalle prime).

Le risorse linguistiche Con il termine risorse linguistiche si indicano i corpora e tutte le altre Sono delle raccolte di informazioni a cui i sistemi di LC accedono durante lo svolgimento del loro compito Esse rappresentano il versante prettamente linguistico della LC

CORPORA e TREEBANK A partire dalla fine degli anni ’90 si applicano nella LC approcci basati su corpora. Inizialmente si tratta di corpora molto grandi non annotati (approcci non supervisionati). In seguito si tratta di corpora meno grandi ma annotati (approcci supervisionati).

Annotazione e corpora Come annotare i dati ? Le informazioni annotate variano parecchio a seconda dello scopo per cui si costruisce il corpus, perché le informazioni che i sistemi devono apprendere sono strettamente correlate al compito che il sistema deve svolgere.

Annotazione e corpora Come annotare i dati ? - Corpora per sentiment analysis: polarità, stance, ironia, target ... Corpora per named entity recognition: persone, luoghi, aziende, date ... Corpora per Part of Speech tagging: lemmi, categorie grammaticali, ...

Annotazione e treebank Come annotare i dati ? Per ogni livello di annotazione vengono fatte delle scelte sia sulla teoria linguistica da prendere come riferimento sia sul modo in cui fisicamente mostrare i dati.

Annotazione e treebank Quali dati annotare ? Occorre scegliere i testi da introdurre nel corpus in modo che siano rappresentativi del linguaggio che si vuole trattare.

Annotazione e treebank Quali dati annotare ? un corpus é un campione significativo e rappresentativo di un linguaggio SE: contiene frasi non ristrette è “bilanciato” rispetto al genere, alla collocazione geografica e sociale, al tempo MA non rappresenta mai TUTTO il linguaggio nel suo complesso