La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

TEORIE E TECNICHE DEL RICONOSCIMENTO Parti del discorso Classificazione grammaticale Classificazione grammaticale in Python 1.

Presentazioni simili


Presentazione sul tema: "TEORIE E TECNICHE DEL RICONOSCIMENTO Parti del discorso Classificazione grammaticale Classificazione grammaticale in Python 1."— Transcript della presentazione:

1 TEORIE E TECNICHE DEL RICONOSCIMENTO Parti del discorso Classificazione grammaticale Classificazione grammaticale in Python 1

2 RESTRIZIONI SULLE POSIZIONI DELLE PAROLE La ragazza lesse rapidamente il libro – *Ragazza la lesse rapidamente il libro – *La ragazza lesse il rapidamente libro Inglese: *The Sue quickly read the book Sottocategorie: – *La ragazza arrivo’ il libro – conigliera, baleniera, teiera, ma: *virtuiera, *pazienzera

3 CATEGORIE LESSICALI (PARTI DEL DISCORSO) NOMI (tavolo, Simona) VERBI (camminare, mangiare, colpire) AGGETTIVI (rosso, rapido) AVVERBI (probabilmente, subito) PRONOMI (io, lui, ci) ARTICOLI (il, la, un) PREPOSIZIONI (di, a, con) CONGIUNZIONI (e, ma, o) [Italiano]: INTERIEZIONI (ahi! )

4 ALCUNE DISTINZIONI PARTI DEL DISCORSO VARIABILI / INVARIABILI – L’uomo cammina / camminava PARTI DEL DISCORSO APERTE / CHIUSE – Aperte: nomi, verbi, aggettivi, avverbi – Chiuse: articoli, pronomi, preposizioni, congiunzioni

5 CORPORA IN CUI LE PAROLE SONO ANNOTATE CON LA LORO PDD In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i token vengono classificati con la loro parte di discorso – Brown corpus: fatto a mano – BNC, LIP: fatto automaticamente Queste informazioni possono essere usate per associare parti del discorso ai lemmi

6 IL BROWN CORPUS Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961) 500 testi, ognuno parole Analisi SINCRONICA dell’Inglese Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa) Annotata la parte del discorso di tutte le parole (87 classi)

7 MARKUP NEL BROWN CORPUS Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN./.

8 IL British National Corpus (BNC) Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press Circa 100 milioni di parole Classificazione grammaticale automatica usando il classificatore CLAWS (parti corrette a mano successivamente)

9 9 LO SCHEMA DI CLASSIFICAZIONE (TAGSET) La scelta dello schema di classificazione grammaticale usato ha grande importanza Occorre un equilibrio tra – Codificare piu’ informazioni possibili sul contesto (= avere una classificazione quanto piu’ fine possibile) – Facilitare il compito dei classificatori (= ridurre il numero di tags)

10 10 Il tagset Penn Treebank (semplificazione del tagset Brown)

11 11 Verb inflection tags

12 12 The entire Penn Treebank tagset

13 13 UCREL C5

14 14 Tagsets per l’italiano Si-TAL (Pisa, Venezia, IRST,....) PAROLE TEXTPRO (dopo)

15 15 Il tagset di SI-TAL

16 POS TAGGED CORPORA IN NLTK >>> tagged_token = nltk.tag.str2tuple('fly/NN') >>> tagged_token ('fly', 'NN') >>> tagged_token[0] 'fly' >>> tagged_token[1] 'NN' >>> nltk.corpus.brown.tagged_words() [('The', 'AT'), ('Fulton', 'NP-TL'), ('County', 'NN-TL'),...]

17 Exploring tagged corpora Ch.5, p

18 ALTRI CORPORA ANNOTATI CON PDD NLTK: WAC Corpora: – English: UKWAC – Italian: ITWAC

19 CLASSIFICAZIONE GRAMMATICALE Giuseppe legge il giornale Giuseppe/NNP legge/VBZ il/DT giornale/NN

20 20 CLASSIFICAZIONE GRAMMATICALE: IL PROBLEMA People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ space/NN Problem: assign a tag to race Requires: tagged corpus

21 Classificazione grammaticale: metodi Lookup (NLTK, 5.4) Regular expression (NLTK, 5.4)

22 CLASSIFICAZIONE GRAMMATICALE: IL PROBLEMA DELL’AMBIGUITA’ Molte forme di parola possono essere associate con parti del discorso diverse: – STATO sia sostantivo (LO STATO ITALIANO) che verbo (NON SONO STATO IO)

23 AMBIGUITA’: LEGGE 1 1 Norma, espressa dagli organi legislativi dello Stato, che stabilisce diritti e doveri dei cittadini Legge delega, che viene emessa dal potere esecutivo su delega del potere legislativo entro un ambito ben precisato Legge ponte, emessa in attesa di un'altra più organica A norma, a termini di legge, secondo ciò che la legge prescrive. 2 (est.) Complesso delle norme costituenti l'ordinamento giuridico di uno Stato: la legge è uguale per tutti Essere fuori della legge, non essere garantito dalla legge o non sentirsi a essa soggetto Dettar legge, imporre a tutti la propria volontà. 3 Scienza giuridica: laurea in legge; dottore in legge; facoltà di legge Uomo di legge, specialista nella scienza giuridica. 4 Autorità giudiziaria: ricorrere alla legge In nome della legge, formula con cui i rappresentanti dell'autorità giudiziaria intimano a qc. di obbedire a un comando della stessa: in nome della legge, aprite! 5 (est.) Ogni norma che regola la condotta individuale o sociale degli uomini: le leggi della società. 6 (est.) Regola fondamentale di una tecnica, di un'arte e sim.: le leggi della pittura. 7 Relazione determinata e costante fra le quantità variabili che entrano in un fenomeno: le leggi della matematica, della fisica.

24 AMBIGUITA’: LEGGE 2 leggere v. tr. (pres. io lèggo, tu lèggi; pass. rem. io lèssi, tu leggésti; part. pass. lètto) 1 Riconoscere dai segni della scrittura le parole e comprenderne il significato: imparare, insegnare a leggere; leggere a voce alta (ass.) Fare lettura, dedicarsi alla lettura: trascorro gran parte della giornata leggendo. 2 Interpretare certi segni convenzionali o naturali: i ciechi leggono con le dita; leggere un diagramma (fig.) Leggere la mano, ricavare dati sul carattere e sul destino di qc. basandosi sulle linee della mano. 3 (lett.) Interpretare uno scritto, un passo: i critici dell'Ottocento leggevano erroneamente questa strofa (est.) Interpretare, valutare scritti, eventi e sim. secondo particolari criteri: leggere un film in chiave ironica. 4 (fig.) Intuire i pensieri e le intenzioni di qc.: gli si legge il terrore sul volto.

25 25 FREQUENZA + MORFOLOGIA + CONTESTO I POS taggers risolvono il problema dell’ambiguita’ usando una combinazione di informazioni su – FREQUENZA (FREQUENCY) I poured FLOUR/NN into the bowl. Peter should FLOUR/VB the baking tray – INFORMAZIONI MORFOLOGICHE Check out this week podcast from DeJedi with all your favourite RAGGATASTIC/JJ? jungle riddims. – CONTESTO (CONTEXT) I saw the new/JJ PLAY/NN in the theater. The boy will/MD PLAY/VBP in the garden.

26 26 The importance of context Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ space/NN

27 Come determinare la categoria di un token Per discussione ulteriore, vedi NLTK book, 5.7

28 Classificazione di PDD in NLTK DEFAULT POS TAGGER: nltk.pos_tag >>> text = nltk.word_tokenize("And now for something completely different") >>> nltk.pos_tag(text) [('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]

29 TEXTPRO La suite di tools piu’ usata per l’Italiano Include un POS tagger Demo


Scaricare ppt "TEORIE E TECNICHE DEL RICONOSCIMENTO Parti del discorso Classificazione grammaticale Classificazione grammaticale in Python 1."

Presentazioni simili


Annunci Google