Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
TEORIE E TECNICHE DEL RICONOSCIMENTO
Parti del discorso Classificazione grammaticale Classificazione grammaticale in Python
2
RESTRIZIONI SULLE POSIZIONI DELLE PAROLE
La ragazza lesse rapidamente il libro *Ragazza la lesse rapidamente il libro *La ragazza lesse il rapidamente libro Inglese: *The Sue quickly read the book Sottocategorie: *La ragazza arrivo’ il libro conigliera, baleniera, teiera, ma: *virtuiera, *pazienzera
3
CATEGORIE LESSICALI (PARTI DEL DISCORSO)
NOMI (tavolo, Simona) VERBI (camminare, mangiare, colpire) AGGETTIVI (rosso, rapido) AVVERBI (probabilmente, subito) PRONOMI (io, lui, ci) ARTICOLI (il, la, un) PREPOSIZIONI (di, a, con) CONGIUNZIONI (e, ma, o) [Italiano]: INTERIEZIONI (ahi! )
4
ALCUNE DISTINZIONI PARTI DEL DISCORSO VARIABILI / INVARIABILI
L’uomo cammina / camminava PARTI DEL DISCORSO APERTE / CHIUSE Aperte: nomi, verbi, aggettivi, avverbi Chiuse: articoli, pronomi, preposizioni, congiunzioni
5
CORPORA IN CUI LE PAROLE SONO ANNOTATE CON LA LORO PDD
In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i token vengono classificati con la loro parte di discorso Brown corpus: fatto a mano BNC, LIP: fatto automaticamente Queste informazioni possono essere usate per associare parti del discorso ai lemmi
6
IL BROWN CORPUS Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961) 500 testi, ognuno parole Analisi SINCRONICA dell’Inglese Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa) Annotata la parte del discorso di tutte le parole (87 classi) Interesting because (i) balanced (ii) simple example of annotation
7
MARKUP NEL BROWN CORPUS
Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN ./. One of the most basic levels of linguistic analysis A simple example of TAGGING (the most basic type of annotation)
8
IL British National Corpus (BNC)
Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press Circa 100 milioni di parole Classificazione grammaticale automatica usando il classificatore CLAWS (parti corrette a mano successivamente)
9
LO SCHEMA DI CLASSIFICAZIONE (TAGSET)
La scelta dello schema di classificazione grammaticale usato ha grande importanza Occorre un equilibrio tra Codificare piu’ informazioni possibili sul contesto (= avere una classificazione quanto piu’ fine possibile) Facilitare il compito dei classificatori (= ridurre il numero di tags)
10
Il tagset Penn Treebank (semplificazione del tagset Brown)
11
Verb inflection tags
12
The entire Penn Treebank tagset
13
UCREL C5
14
Tagsets per l’italiano
PAROLE Si-TAL (Pisa, Venezia, IRST, ....) TEXTPRO (dopo)
15
Il tagset di SI-TAL
16
POS TAGGED CORPORA IN NLTK
>>> tagged_token = nltk.tag.str2tuple('fly/NN') >>> tagged_token ('fly', 'NN') >>> tagged_token[0] 'fly' >>> tagged_token[1] 'NN' >>> nltk.corpus.brown.tagged_words() [('The', 'AT'), ('Fulton', 'NP-TL'), ('County', 'NN-TL'), ...]
17
Exploring tagged corpora
Ch.5, p
18
ALTRI CORPORA ANNOTATI CON PDD
NLTK: WAC Corpora: English: UKWAC Italian: ITWAC
19
CLASSIFICAZIONE GRAMMATICALE
Giuseppe legge il giornale Giuseppe/NNP legge/VBZ il/DT giornale/NN
20
CLASSIFICAZIONE GRAMMATICALE: IL PROBLEMA
People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ space/NN Problem: assign a tag to race Requires: tagged corpus
21
Classificazione grammaticale: metodi
Lookup (NLTK, 5.4) Regular expression (NLTK, 5.4)
22
CLASSIFICAZIONE GRAMMATICALE: IL PROBLEMA DELL’AMBIGUITA’
Molte forme di parola possono essere associate con parti del discorso diverse: STATO sia sostantivo (LO STATO ITALIANO) che verbo (NON SONO STATO IO)
23
AMBIGUITA’: LEGGE1 1 Norma, espressa dagli organi legislativi dello Stato, che stabilisce diritti e doveri dei cittadini Legge delega, che viene emessa dal potere esecutivo su delega del potere legislativo entro un ambito ben precisato Legge ponte, emessa in attesa di un'altra più organica A norma, a termini di legge, secondo ciò che la legge prescrive. 2 (est.) Complesso delle norme costituenti l'ordinamento giuridico di uno Stato: la legge è uguale per tutti Essere fuori della legge, non essere garantito dalla legge o non sentirsi a essa soggetto Dettar legge, imporre a tutti la propria volontà. 3 Scienza giuridica: laurea in legge; dottore in legge; facoltà di legge Uomo di legge, specialista nella scienza giuridica. 4 Autorità giudiziaria: ricorrere alla legge In nome della legge, formula con cui i rappresentanti dell'autorità giudiziaria intimano a qc. di obbedire a un comando della stessa: in nome della legge, aprite! 5 (est.) Ogni norma che regola la condotta individuale o sociale degli uomini: le leggi della società. 6 (est.) Regola fondamentale di una tecnica, di un'arte e sim.: le leggi della pittura. 7 Relazione determinata e costante fra le quantità variabili che entrano in un fenomeno: le leggi della matematica, della fisica.
24
AMBIGUITA’: LEGGE2 leggere
v. tr. (pres. io lèggo, tu lèggi; pass. rem. io lèssi, tu leggésti; part. pass. lètto) 1 Riconoscere dai segni della scrittura le parole e comprenderne il significato: imparare, insegnare a leggere; leggere a voce alta (ass.) Fare lettura, dedicarsi alla lettura: trascorro gran parte della giornata leggendo. 2 Interpretare certi segni convenzionali o naturali: i ciechi leggono con le dita; leggere un diagramma (fig.) Leggere la mano, ricavare dati sul carattere e sul destino di qc. basandosi sulle linee della mano. 3 (lett.) Interpretare uno scritto, un passo: i critici dell'Ottocento leggevano erroneamente questa strofa (est.) Interpretare, valutare scritti, eventi e sim. secondo particolari criteri: leggere un film in chiave ironica. 4 (fig.) Intuire i pensieri e le intenzioni di qc.: gli si legge il terrore sul volto.
25
FREQUENZA + MORFOLOGIA + CONTESTO
I POS taggers risolvono il problema dell’ambiguita’ usando una combinazione di informazioni su FREQUENZA (FREQUENCY) I poured FLOUR/NN into the bowl. Peter should FLOUR/VB the baking tray INFORMAZIONI MORFOLOGICHE Check out this week podcast from DeJedi with all your favourite RAGGATASTIC/JJ? jungle riddims. CONTESTO (CONTEXT) I saw the new/JJ PLAY/NN in the theater. The boy will/MD PLAY/VBP in the garden. Mettere questa slide prima?
26
The importance of context
Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ space/NN
27
Come determinare la categoria di un token
Per discussione ulteriore, vedi NLTK book, 5.7
28
Classificazione di PDD in NLTK
DEFAULT POS TAGGER: nltk.pos_tag >>> text = nltk.word_tokenize("And now for something completely different") >>> nltk.pos_tag(text) [('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]
29
TEXTPRO La suite di tools piu’ usata per l’Italiano
Include un POS tagger Demo
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.