TEORIE E TECNICHE DEL RICONOSCIMENTO

Slides:



Advertisements
Presentazioni simili
Michele A. Cortelazzo Morfologia 1.
Advertisements

LA LINGUA LATINA FONETICA : studia i suoni delle parole (pronuncia)
ANNUNCI ORARI: RICEVIMENTO:
Competenze funzionali – competenze chiave
Unità 12 – LA FRASE E I SUOI ELEMENTI BASE
P. Oorts Paolo sees Giulia. Paolo = subject sees = verb Giulia = direct object He sees her. he = a subject pronoun (replaces a noun) her = a direct.
Elaborazione del linguaggio naturale part of speech
Elaborazione del linguaggio naturale morfologia, FSA, FST, POS esercizi Maria Teresa PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Digressione: il linguaggio di query CQP
INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER
Elementi di morfologia nominale
Unità Didattica 2 I Linguaggi di Programmazione
Il soggetto Paolo legge Nevica. Ieri Paolo e Laura sono partiti
LA PREPOSIZIONE La preposizione e’ la parte invariabile del
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
Che cos’è l’annotazione di un corpus?
Istituzioni di linguistica a.a Federica Da Milano
LA FUNZIONE E LA FORMA DELL’INTERIEZIONE
Lingua italiana per stranieri
Capodistria, 19 aprile 2012 ACCADEMIA DELLA CRUSCA Oralità e scrittura: un quadro teorico.
Vaiano, 15 dicembre 2011 ACCADEMIA DELLA CRUSCA Dalloralità alla scrittura.
La Costituzione Italia
Morfosyntax italštiny III (3)
Espressione polirematica
Grammaticus racconta…. Caro bambino puoi riconoscerti come principe o principessa con tutti i suoi amici. Ti muoverai con laiuto del sole nel tempo.
Come nella stampa tradizionale, un giornale online può essere di informazione informazione o un periodico dedicato a una disciplina specifica.
Fonti del diritto: atti o fatti idonei a creare, integrare o modificare regole giuridiche Fonti – fatto: Sono fatti e comportamenti umani che con il loro.
MORFOLOGIA.
LE FASI E GLI STADI “ IL” ITALIANO L2
Chi trova un amico.
Morfologie italštiny III (2)
LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2
ELABORAZIONE DEL LINGUAGGIO NATURALE
Chesney Henry "Chet" Baker Jr (Yale, 23 dicembre 1929 – Amsterdam, 13 maggio 1988) è stato un trombettista e cantante statunitense di musica jazz, noto.
CORSO LINGUA INGLESE 1 Primo anno scuola secondaria superiore
Monza | 10 aprile 2014 Insegnamento dell’italiano per il bambino sordo Sara Trovato – Università degli Studi di Milano Bicocca.
IL VERBO.
Michele A. Cortelazzo Morfologia 1.
La prima prova scritta dell’esame di stato
Michele A. Cortelazzo Morfologia 1.
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
LA PREPOSIZIONE La preposizione e’ la parte invariabile del
Frase grammaticale?logica?
Ambiguità Le lingue sono, per loro natura ambigue e sfumate:
Elaborazione del linguaggio naturale part of speech Maria Teresa PAZIENZA a.a
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.
Tecnologie Informatiche ed Elettroniche per le Produzioni Animali
INFORmazione autoMATICA
GLI INTERROGATIVI.
Elaborazione del linguaggio naturale morfologia, FSA, FST, POS esercizi Maria Teresa PAZIENZA.
Problemi, algoritmi e programmazione
Sintassi della frase 2. Il soggetto
What are relative pronouns? Pronouns that stand in for an aunt or uncle?
Economia Politica I Gruppo F-O Pagina Docente: UNIVPM ALESSANDRO STERLACCHINI 1.
LA FRASE SEMPLICE M. Dardano – P. Trifone, Grammatica italiana con nozioni di linguistica, Zanichelli, Bologna, III ed.
Comprensione frasale Garden Path theory
NOTE: To change the image on this slide, select the picture and delete it. Then click the Pictures icon in the placeholder to insert your own image. ITALIAN.
Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.
Buon giorno, ragazzi oggi è il quattro febbraio duemilasedici
La scuola che fa crescere Grottammare 03 marzo 2016 Seminario finale di restituzione I.C. Ferraris – Scuola primaria A. Moro IVA Insegnanti: Pettinelli.
L’analisi di un libro di testo Seminario Irc e storia / 2 Sergio Cicatelli.
D. S. A. SCUOLA PRIMARIA In questa sezione si possono trovare materiali utilizzati e lavori svolti da alcune insegnanti nelle classi con gli alunni. L’
Elementi di linguistica italiana. Le strutture dell italiano.
Le parti del discorso A cura della Prof.ssa Maria Isaura Piredda.
Buon giorno, ragazzi oggi è il quattro aprile duemilasedici.
I pronomi, gli avverbi, le congiunzioni
LA GRAMMATICA Grammatica è una parola che, nella sua etimologia, si riferisce alle lettere ovvero le unità minime che ci permettono di comunicare attraverso.
Transcript della presentazione:

TEORIE E TECNICHE DEL RICONOSCIMENTO Parti del discorso Classificazione grammaticale Classificazione grammaticale in Python

RESTRIZIONI SULLE POSIZIONI DELLE PAROLE La ragazza lesse rapidamente il libro *Ragazza la lesse rapidamente il libro *La ragazza lesse il rapidamente libro Inglese: *The Sue quickly read the book Sottocategorie: *La ragazza arrivo’ il libro conigliera, baleniera, teiera, ma: *virtuiera, *pazienzera

CATEGORIE LESSICALI (PARTI DEL DISCORSO) NOMI (tavolo, Simona) VERBI (camminare, mangiare, colpire) AGGETTIVI (rosso, rapido) AVVERBI (probabilmente, subito) PRONOMI (io, lui, ci) ARTICOLI (il, la, un) PREPOSIZIONI (di, a, con) CONGIUNZIONI (e, ma, o) [Italiano]: INTERIEZIONI (ahi! )

ALCUNE DISTINZIONI PARTI DEL DISCORSO VARIABILI / INVARIABILI L’uomo cammina / camminava PARTI DEL DISCORSO APERTE / CHIUSE Aperte: nomi, verbi, aggettivi, avverbi Chiuse: articoli, pronomi, preposizioni, congiunzioni

CORPORA IN CUI LE PAROLE SONO ANNOTATE CON LA LORO PDD In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i token vengono classificati con la loro parte di discorso Brown corpus: fatto a mano BNC, LIP: fatto automaticamente Queste informazioni possono essere usate per associare parti del discorso ai lemmi

IL BROWN CORPUS Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961) 500 testi, ognuno 2 000 parole Analisi SINCRONICA dell’Inglese Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa) Annotata la parte del discorso di tutte le parole (87 classi) Interesting because (i) balanced (ii) simple example of annotation

MARKUP NEL BROWN CORPUS Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN ./. One of the most basic levels of linguistic analysis A simple example of TAGGING (the most basic type of annotation)

IL British National Corpus (BNC) Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press Circa 100 milioni di parole Classificazione grammaticale automatica usando il classificatore CLAWS (parti corrette a mano successivamente) http://www.hcu.ox.ac.uk/BNC

LO SCHEMA DI CLASSIFICAZIONE (TAGSET) La scelta dello schema di classificazione grammaticale usato ha grande importanza Occorre un equilibrio tra Codificare piu’ informazioni possibili sul contesto (= avere una classificazione quanto piu’ fine possibile) Facilitare il compito dei classificatori (= ridurre il numero di tags)

Il tagset Penn Treebank (semplificazione del tagset Brown)

Verb inflection tags

The entire Penn Treebank tagset

UCREL C5

Tagsets per l’italiano PAROLE Si-TAL (Pisa, Venezia, IRST, ....) TEXTPRO (dopo)

Il tagset di SI-TAL

POS TAGGED CORPORA IN NLTK >>> tagged_token = nltk.tag.str2tuple('fly/NN') >>> tagged_token ('fly', 'NN') >>> tagged_token[0] 'fly' >>> tagged_token[1] 'NN' >>> nltk.corpus.brown.tagged_words() [('The', 'AT'), ('Fulton', 'NP-TL'), ('County', 'NN-TL'), ...]

Exploring tagged corpora Ch.5, p. 184-189

ALTRI CORPORA ANNOTATI CON PDD NLTK: WAC Corpora: English: UKWAC Italian: ITWAC

CLASSIFICAZIONE GRAMMATICALE Giuseppe legge il giornale Giuseppe/NNP legge/VBZ il/DT giornale/NN

CLASSIFICAZIONE GRAMMATICALE: IL PROBLEMA People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ space/NN Problem: assign a tag to race Requires: tagged corpus

Classificazione grammaticale: metodi Lookup (NLTK, 5.4) Regular expression (NLTK, 5.4)

CLASSIFICAZIONE GRAMMATICALE: IL PROBLEMA DELL’AMBIGUITA’ Molte forme di parola possono essere associate con parti del discorso diverse: STATO sia sostantivo (LO STATO ITALIANO) che verbo (NON SONO STATO IO)

AMBIGUITA’: LEGGE1 1 Norma, espressa dagli organi legislativi dello Stato, che stabilisce diritti e doveri dei cittadini Legge delega, che viene emessa dal potere esecutivo su delega del potere legislativo entro un ambito ben precisato Legge ponte, emessa in attesa di un'altra più organica A norma, a termini di legge, secondo ciò che la legge prescrive. 2 (est.) Complesso delle norme costituenti l'ordinamento giuridico di uno Stato: la legge è uguale per tutti Essere fuori della legge, non essere garantito dalla legge o non sentirsi a essa soggetto Dettar legge, imporre a tutti la propria volontà. 3 Scienza giuridica: laurea in legge; dottore in legge; facoltà di legge Uomo di legge, specialista nella scienza giuridica. 4 Autorità giudiziaria: ricorrere alla legge In nome della legge, formula con cui i rappresentanti dell'autorità giudiziaria intimano a qc. di obbedire a un comando della stessa: in nome della legge, aprite! 5 (est.) Ogni norma che regola la condotta individuale o sociale degli uomini: le leggi della società. 6 (est.) Regola fondamentale di una tecnica, di un'arte e sim.: le leggi della pittura. 7 Relazione determinata e costante fra le quantità variabili che entrano in un fenomeno: le leggi della matematica, della fisica.

AMBIGUITA’: LEGGE2 leggere v. tr. (pres. io lèggo, tu lèggi; pass. rem. io lèssi, tu leggésti; part. pass. lètto) 1 Riconoscere dai segni della scrittura le parole e comprenderne il significato: imparare, insegnare a leggere; leggere a voce alta (ass.) Fare lettura, dedicarsi alla lettura: trascorro gran parte della giornata leggendo. 2 Interpretare certi segni convenzionali o naturali: i ciechi leggono con le dita; leggere un diagramma (fig.) Leggere la mano, ricavare dati sul carattere e sul destino di qc. basandosi sulle linee della mano. 3 (lett.) Interpretare uno scritto, un passo: i critici dell'Ottocento leggevano erroneamente questa strofa (est.) Interpretare, valutare scritti, eventi e sim. secondo particolari criteri: leggere un film in chiave ironica. 4 (fig.) Intuire i pensieri e le intenzioni di qc.: gli si legge il terrore sul volto.

FREQUENZA + MORFOLOGIA + CONTESTO I POS taggers risolvono il problema dell’ambiguita’ usando una combinazione di informazioni su FREQUENZA (FREQUENCY) I poured FLOUR/NN into the bowl. Peter should FLOUR/VB the baking tray INFORMAZIONI MORFOLOGICHE Check out this week podcast from DeJedi with all your favourite RAGGATASTIC/JJ? jungle riddims. CONTESTO (CONTEXT) I saw the new/JJ PLAY/NN in the theater. The boy will/MD PLAY/VBP in the garden. Mettere questa slide prima?

The importance of context Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ space/NN

Come determinare la categoria di un token Per discussione ulteriore, vedi NLTK book, 5.7

Classificazione di PDD in NLTK DEFAULT POS TAGGER: nltk.pos_tag >>> text = nltk.word_tokenize("And now for something completely different") >>> nltk.pos_tag(text) [('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]

TEXTPRO La suite di tools piu’ usata per l’Italiano Include un POS tagger http://textpro.fbk.eu/ Demo