La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LINGUISTICA GENERALE E COMPUTAZIONALE CLASSIFICAZIONE DI TESTI.

Presentazioni simili


Presentazione sul tema: "LINGUISTICA GENERALE E COMPUTAZIONALE CLASSIFICAZIONE DI TESTI."— Transcript della presentazione:

1 LINGUISTICA GENERALE E COMPUTAZIONALE CLASSIFICAZIONE DI TESTI

2 CLASSIFICAZIONE Un CLASSIFICATORE e una FUNZIONE da oggetti che si vogliono classificare a etichette – Assegnare la parte del discorso a parole – Assegnare valore SPAM/NO SPAM a – Positivo / negativo I vari aspetti dellinterpretazione del linguaggio che abbiamo visto nella prima lezione (disambiguazione delle parti del discorso, analisi sintattica, etc) possono essere tutti visti come problemi di classificazione

3 ESEMPIO: DISAMBIGUAZIONE DELLE PARTI DEL DISCORSO COME CLASSIFICAZIONE La disambiguazione delle parti del discorso (POS tagging) puo essere vista come un classificatore che determina linterpretazione piu probabile di ogni parola (nome, verbo, etc)

4 SECONDO ESEMPIO: DISAMBIGUAZIONE DEI SIGNIFICATI

5 5 SENSES OF line Product: While he wouldnt estimate the sale price, analysts have estimated that it would exceed $1 billion. Kraft also told analysts it plans to develop and test a line of refrigerated entrees and desserts, under the Chillery brand name. Formation: C-LD-R L-V-S V-NNA reads a sign in Caldors book department. The 1,000 or so people fighting for a place in line have no trouble filling in the blanks. Text: Newspaper editor Francis P. Church became famous for a 1897 editorial, addressed to a child, that included the line Yes, Virginia, there is a Santa Clause. Cord: It is known as an aggressive, tenacious litigator. Richard D. Parsons, a partner at Patterson, Belknap, Webb and Tyler, likes the experience of opposing Sullivan & Cromwell to having a thousand-pound tuna on the line. Division: Today, it is more vital than ever. In 1983, the act was entrenched in a new constitution, which established a tricameral parliament along racial lines, with separate chambers for whites, coloreds and Asians but none for blacks. Phone: On the tape recording of Mrs. Guba's call to the 911 emergency line, played at the trial, the baby sitter is heard begging for an ambulance.

6 UNA VISIONE GEOMETRICA DELLA CLASSIFICAZIONE SPAM NON-SPAM

7 ESEMPIO DI CLASSIFICATORE: DECISION TREE

8 IL RUOLO DELLAPPRENDIMENTO AUTOMATICO Nella linguistica computazionale moderna, questi classificatori non vengono specificati a mano, ma vengono APPRESI AUTOMATICAMENTE a partire da esempi.

9 CLASSIFICAZIONE PROBABILISTICA Ad ogni etichetta e tipicamente associata una PROBABILITA Il classificatore puo essere sviluppato a mano o APPRESO da (grandi quantita di) ESEMPI usando metodi di APPRENDIMENTO AUTOMATICO

10 POS TAGGER PROBABILISTICI Un POS TAGGER e un classificatore che riceve come input informazioni sulla parola (FEATURES) – UNIGRAM PROBABILITY: P(N|salto), P(V|salto) – AFFIXES (ing, ould) – N-GRAM PROBABILITIES: P(NN|un salto) – …. Produce in output una probabilita – P(N|UProb,AFF,Nprob) = … – P(V|UProb,AFF,Nprob) = …

11 TIPI DI CLASSIFICATORI SUPERVISIONATI (SUPERVISED) – Imparano da esempi etichettati – Modellano lapprendimento tramite insegnanti NON SUPERVISIONATI (UNSUPERVISED) – Scoprono da soli la struttura del problema – Modellano lapprendimento del linguaggio SEMI-SUPERVISED – Ricevono come input pochi esempi poi procedono per somiglianza

12 SUPERVISED CLASSIFICATION FOR POS TAGGING Lalgoritmo di apprendimento riceve come input un corpus di TRAINING classificato con POS tags – La/Art gatta/N fece/V un/Art salto/N./. – Giuseppe/PN e/V matto/Adj./. Si estrae le features / calcola le probabilita Costruisce un MODELLO che puo poi essere usato per classificare ALTRI testi

13 TRAIN/TEST

14 METODI PER LAPPRENDIMENTO DECISION TREES NAÏVE BAYES

15 Metodi Bayesiani: decisione su classificazione basata su – un modello PROBABILISTICO – che coniuga uso di informazioni A PRIORI ed A POSTERIORI come nella regola di Bayes Metodi NAÏVE BAYES: si fanno assunzioni che semplificano molto il calcolo delle probabilità

16 Legge di Bayes

17 Bayes applicata alla classificazione di testi P(Classe|Proprietà) = P(Proprietà|Classe)*P(Classe) / P(Proprietà)

18 Maximum a posteriori Hypothesis

19 Naive Bayes Classifiers Task: Classify a new instance based on a tuple of attribute values

20 Naïve Bayes Classifier: Assumptions P(c j ) – Can be estimated from the frequency of classes in the training examples. P(x 1,x 2,…,x n |c j ) – O(|X| n|C|) – Could only be estimated if a very, very large number of training examples was available. Conditional Independence Assumption: Assume that the probability of observing the conjunction of attributes is equal to the product of the individual probabilities.

21 Flu X1X1 X2X2 X5X5 X3X3 X4X4 feversinuscoughrunnynosemuscle-ache The Naïve Bayes Classifier Conditional Independence Assumption: features are independent of each other given the class:

22 Learning the Model Common practice:maximum likelihood – simply use the frequencies in the data C X1X1 X2X2 X5X5 X3X3 X4X4 X6X6

23 Problem with Max Likelihood What if we have seen no training cases where patient had no flu and muscle aches? Zero probabilities cannot be conditioned away, no matter the other evidence! Flu X1X1 X2X2 X5X5 X3X3 X4X4 feversinuscoughrunnynosemuscle-ache

24 Smoothing to Avoid Overfitting Somewhat more subtle version # of values of X i overall fraction in data where X i =x i,k extent of smoothing

25 Using Naive Bayes Classifiers to Classify Text: Basic method Attributes are text positions, values are words. Naive Bayes assumption is clearly violated. Example? Still too many possibilities Assume that classification is independent of the positions of the words Use same parameters for each position

26 ESEMPIO DI CLASSIFICAZIONE: DOCUMENT CLASSIFICATION (NLTK book, p )

27 VALUTAZIONE ACCURACY: percentuale di risposte corrette Nel caso di problemi in cui la classe di interesse rappresenta una percentuale minima del totale: PRECISION e RECALL

28 PRECISION E RECALL

29 ESEMPIO DI CLASSIFICAZIONE: GENDER IDENTIFICATION (NLTK book, p )

30 APPRENDERE DECISION TREES Top-down: dato un certo insieme di esempi, trovare la proprieta che permette di dividerli in sottogruppi piu COERENTI Poi si procede ricorsivamente Scelta della proprieta: INFORMATION GAIN

31 Top-down DT induction Partition training examples into good splits, based on values of a single good feature: (1) Sat, hot, no, casual, keys -> + (2) Mon, cold, snow, casual, no-keys -> - (3) Tue, hot, no, casual, no-keys -> - (4) Tue, cold, rain, casual, no-keys -> - (5) Wed, hot, rain, casual, keys -> +

32 Top-down DT induction keys? yesno Drive: 1,5Walk: 2,3,4

33 Top-down DT induction Partition training examples into good splits, based on values of a single good feature (1) Sat, hot, no, casual -> + (2) Mon, cold, snow, casual -> - (3) Tue, hot, no, casual -> - (4) Tue, cold, rain, casual -> - (5) Wed, hot, rain, casual -> + No acceptable classification: proceed recursively

34 Top-down DT induction t? coldhot Walk: 2,4 Drive: 1,5 Walk: 3

35 Top-down DT induction t? coldhot Walk: 2,4day? Sat Tue Wed Drive: 1Walk: 3Drive: 5

36 Top-down DT induction t? coldhot Walk: 2,4day? Sat Tue Wed Drive: 1Walk: 3Drive: 5 Mo, Thu, Fr, Su ? Drive

37 Selezione della proprieta La scelta della proprieta da usare per dividere linsieme corrente in sottinsiemi piu coerenti si basa su un criterio di RIDUZIONE DEL DISORDINE basato sulla nozione di ENTROPIA

38 ENTROPIA

39 Entropy and Decision Trees keys? noyes Walk: 2,4Drive: 1,3,5 E(S)=-0.6*lg(0.6)-0.4*lg(0.4)= 0.97 E(Sno)=0E(Skeys)=0

40 Entropy and Decision Trees t? coldhot Walk: 2,4 Drive: 1,5 Walk: 3 E(S)=-0.6*lg(0.6)-0.4*lg(0.4)= 0.97 E(Scold)=0E(Shot)=-0.33*lg(0.33)-0.66*lg(0.66)= 0.92

41 INFORMATION GAIN

42 Information gain For each feature f, compute the reduction in entropy on the split: Gain(S,f)=E(S)- (Entropy(Si)* |Si|/|S|) f=keys? : Gain(S,f)=0.97 f=t?: Gain(S,f)=0.97-0*2/5-0.92*3/5=0.42 f=clothing?: Gain(S,f)= ?

43 TEXT CATEGORIZATION WITH DT Build a separate decision tree for each category Use WORDS COUNTS as features

44 44 Reuters Data Set ( ModApte split) 9603 training, 3299 test articles; ave. 200 words 118 categories – An article can be in more than one category – Learn 118 binary category distinctions Earn (2877, 1087) Acquisitions (1650, 179) Money-fx (538, 179) Grain (433, 149) Crude (389, 189) Trade (369,119) Interest (347, 131) Ship (197, 89) Wheat (212, 71) Corn (182, 56) Common categories (#train, #test)

45 Foundations of Statistical Natural Language Processing, Manning and Schuetze AN EXAMPLE OF REUTERS TEXT

46 Foundations of Statistical Natural Language Processing, Manning and Schuetze Decision Tree for Reuter classification

47 Information gain & text classification


Scaricare ppt "LINGUISTICA GENERALE E COMPUTAZIONALE CLASSIFICAZIONE DI TESTI."

Presentazioni simili


Annunci Google