La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Riconoscitori di lingua in documenti testuali 1 POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dellInformazione Corso di Studi in Ingegneria.

Presentazioni simili


Presentazione sul tema: "Riconoscitori di lingua in documenti testuali 1 POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dellInformazione Corso di Studi in Ingegneria."— Transcript della presentazione:

1 Riconoscitori di lingua in documenti testuali 1 POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dellInformazione Corso di Studi in Ingegneria Informatica on line Riconoscitori di lingua in documenti testuali Tutor universitario: Prof. Giuseppe Pozzi Elaborato finale di: Andrea Serighelli matr A.A

2 Riconoscitori di lingua in documenti testuali 2 Sommario Metodologie di riconoscimento della lingua di un testo Software di implementazione Misure di prestazione Confronto tra le diverse metodologie implementate

3 Riconoscitori di lingua in documenti testuali 3 Definizione di riconoscitore linguistico Testi Riconoscitore Lingua FileTesto1.txt FileTesto2.txt FileTesto3.txt LinguaTesto1 LinguaTesto2 LinguaTesto3 Più formalmente: CL : D x C {0,1} dove: CL: algoritmo di riconoscimento linguistico D: dominio dei documenti di testo C: dominio delle lingue se CL (dЄD,cЄC) = 1 allora secondo CL d è scritto nella lingua c se CL (dЄD,cЄC) = 0 allora secondo CL d non è scritto nella lingua c problema decisionale

4 Riconoscitori di lingua in documenti testuali 4 Strategia di implementazione Abbiamo adattato tecniche applicate al più ampio problema della categorizzazione di un documento testuale Base di conoscenza Base di regole Supervisore Set di training Ipotesi di induzione e generalizzazione Set di test Sistema esperto vs Apprendimento automatico

5 Riconoscitori di lingua in documenti testuali 5 Funzionamento del riconoscitore Fase di apprendimento Indicizzazione Index-Vector Index – term [the,un,et,il,y] Apprendimento Training set M odello

6 Riconoscitori di lingua in documenti testuali 6 Funzionamento del riconoscitore Fase di riconoscimento Lingua riconosciuta Documento Test Indicizzazione Index – term [the,un,et,il,y] Riconoscimento Modello Index- Vector Decisione Categorization Status Value

7 Riconoscitori di lingua in documenti testuali 7 Misure di prestazione Tecniche basate sul conteggio dei casi Vero/Falso Positivo e Vero/Falso Negativo Tabelle di contingenza Lingua c i Decisione esperto SiNo Decisione riconoscitore SiVPiFPi NoFNiVNi Calcolo della precisione Pr i = VP i / (VP i +FP i ) Calcolo della recall Re i = VP i / (VP i +FN i ) Calcolo delle medie (micro e macro averaging)

8 Riconoscitori di lingua in documenti testuali 8 Lapplicazione software Paradigma di programmazione a oggetti: linguaggio JAVA

9 Riconoscitori di lingua in documenti testuali 9 Testing dei riconoscitori implementati Implementati tre differenti metodologie di riconoscimento Addestrati i riconoscitori con Training-set costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi: Testati i riconoscitori con Testing-set costituito da 60 documenti index term ilythederetpåoaaãöi

10 Riconoscitori di lingua in documenti testuali 10 Metodologia Naive Bayes Stima della probabilità che il documento sia scritto nella lingua C i CSV i (d) = P(c i |d) = Π [P(c i |t y )P(t y |d) + P(c i |t y )P(t y |d)] y=1...r ricavati in fase di addestramento ricavati dallindicizzazione di d Nel calcolo della stima percentuale concorrono le probabilità condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellindex-vector....e tali probabilità concorrono come r fattori indipendenti (Naive)!

11 Riconoscitori di lingua in documenti testuali 11 Metodologia Naive Bayes - soglie La lingua relativa alla componente di CSV maggiore, potrebbe non rappresenta la decisione migliore !!! Soglie decisionali differenti τ i = Σ csv i train / |{d train }| d train Є c i componente i del vettore csv di d train E scelta la lingua avente rapporto CSV i / i maggiore

12 Riconoscitori di lingua in documenti testuali 12 Metodologia Naive Bayes - prestazioni Nessun errore di riconoscimento Necessario lutilizzo delle soglie decisionali ! Metodologia Naive Bayes senza sogliacon soglia lingue non riconosciute italiano spagnolo francese catalano suomi / Pr M (%) 69.12*100 Re M (%) 85.24*100 Pr = Re (%)

13 Riconoscitori di lingua in documenti testuali 13 Metodologia profile-based Ad ogni lingua è associato un profilo Il profilo è un vettore di dimensione pari allindex-term w i y = β · Σ v ytrain /|{d train }| + γ · Σ v ytrain /|{d train }| β + γ = 1 β>0, γ <= 0 d train Є c i componente y del vettore w i componente y dellindex-vector di d train Ad ogni lingua è associato un profilo E scelta la lingua avente profilo più simile allindex-vector del documento di test: CSV i (d test ) = d (index-d test, w i )

14 Riconoscitori di lingua in documenti testuali 14 Metodologia profile-based Rappresentazione geometrica Index-term a tre elementi: spazio 3-dim Riconoscitore riconosce tre lingue: 3 profili d è più vicino a w1 (la distanza d(d,w1) è minore di tutte le altre): d è scritto nella lingua rappresentata da w1

15 Riconoscitori di lingua in documenti testuali 15 Metodologia profile-based - prestazioni Buone prestazioni Nessuna sensibile differenza con lutilizzo della formula completa Metodologia profile-based =1 e = 0 =1.2 e = -0.2 lingue non riconosciute // Pr M (%) Re M (%) Pr = Re (%)

16 Riconoscitori di lingua in documenti testuali 16 Metodologia example-based Lindex-vector del documento di test è confrontato con gli index-vector dei documenti di training È scelta la lingua del documento di training avente index-vector più simile Lazy classifier: non è costruito alcun modello! Come funzione di confronto è stata utilizzata la distanza euclidea tra vettori

17 Riconoscitori di lingua in documenti testuali 17 Metodologia example-based Evoluzione: si confronta il documento di test con i K documenti di training più simili (K=1 è il caso precedente) CSV i = Σ RSV (d test, d train ) d train Є k-best c i| Retrieval Status Value: misura di quanto d test e d train sono simili (es: distanza degli index-vector, ma anche indici di correlazione, relazioni semantiche....) k documenti di training classificati in c i con max valore RSV (d test, d train ) Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

18 Riconoscitori di lingua in documenti testuali 18 Metodologia example-based - prestazioni Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con K=1 Ottimo rapporto costo/prestazioni Metodologia example-based K=1K=2 lingue non riconosciute // Pr M (%) Re M (%) Pr = Re (%)

19 Riconoscitori di lingua in documenti testuali 19 Conclusioni Lapproccio basato sullapprendimento automatico supervisionato si è mostrato valido Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es: diverse lingue, differenti ambiti,....) Temi aperti: riconoscimento della lingua dei documenti web, ottimizzazione dellindex-term, estensione delle metodologie implementate in ambiti più vasti (categorizzazione dei testi, sistemi in cascata).

20 Riconoscitori di lingua in documenti testuali 20 Materiale Volume tesi e applicazione scaricabili al seguente indirizzo web:


Scaricare ppt "Riconoscitori di lingua in documenti testuali 1 POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dellInformazione Corso di Studi in Ingegneria."

Presentazioni simili


Annunci Google