Riconoscitori di lingua in documenti testuali

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Advertisements

E R A C I Progetto Relazione Interculturale Educazione alla Aziendale nella Comunicazione.
Università degli studi di Modena e Reggio Emilia
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
Tecniche di segmentazione delle patologie morfologiche dell’encefalo
L’EPIDEMIOLOGIA CLINICA
Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 5 Chiara Mocenni Corso di laurea L1.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Regressione logistica
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Grandi aspettative: le determinanti delliscrizione allUniversita delle donne in Europa Chiara Pronzato (con Alessandra Casarico e Paola Profeta) ISTAT,
Inferenza statistica per un singolo campione
Politecnico di Milano Algoritmi e Architetture per la Protezione dellInformazione Multichannel Adaptive Information Systems Paolo Maistri Dipartimento.
Apprendimento Automatico: Apprendimento di Concetti da Esempi
Valutazione delle Prestazioni di un Classificatore
Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.
Apprendimento Automatico: Apprendimento Pigro (Lazy Learning)
Apprendimento Automatico: Valutazione delle Prestazioni
Cultura Tecnologica del Progetto Sezioni P3, P4, P5
La regressione logistica binomiale
Corso di biomatematica lezione 7-2: Test di significatività
“Riconoscimento di Facce”
Università degli studi La Sapienza CLS Ingegneria Informatica a.a. 2007/2008 Visione e Percezione Face Recognition Studenti: Andrea Pennisi Daniele Perrone.
Tecnologie Informatiche per la Qualità 1 - La Qualità 1 Università degli Studi di Milano – Polo di Crema - Dipartimento di Tecnologie dellInformazione.
di cosa si occupa la statistica inferenziale?
Tabelle hash.
PATTERN RECOGNITION.
Modello di regressione lineare semplice
PROGRAMMA OPERATIVO NAZIONALE FONDO SOCIALE EUROPEO "COMPETENZE PER LO SVILUPPO" 2007IT051PO007 A.S. 2010/2011 C-1-FSE ………TITOLO ECDL CORE Docenti.
Stefano Cagnoni Dip. Ingegneria dellInformazione Parco Area delle Scienze 181a PARMA Tel FAX
IL PROCESSO DI PREVISIONE DELLA DOMANDA
Case Based Reasoning
KAPPAELLE 2008 Roberto Pirrone Università degli Studi Palermo
Dipartimento di Tecnologie dell’Informazione
1 Dalla misurazione al voto: la ri-costruzione di un percorso valutativo SASSUOLO Progetto nazionale di sperimentazione in rete ex art.11 dPR.
Alma Mater Studiorum – Università di bologna
LA VALUTAZIONE SCOLASTICA
UNIVERSITA’ DEGLI STUDI DI GENOVA
UNIVERSITÀ DEGLI STUDI DI CATANIA FACOLTÀ DI INGEGNERIA   CORSO DI LAUREA IN INGEGNERIA ELETTRONICA Dipartimento di Ingegneria Elettrica Elettronica e.
UNIVERSITA’ POLITECNICA DELLE MARCHE
© GISIG, 2006 GI-INDEED Workshop "GI training: experience and needs in the new European dimension" 2nd-3rd October 2006, Genoa (Italy) 1 Emanuele Roccatagliata.
Un progetto di intervento in rete per l’uso efficace degli strumenti compensativi da parte dei bambini con D.S.A. M.Massini, M.Calanca, M.P.Ciancaglioni,
Semi-Supervised Learning
STATISTICA PER LE DECISIONI DI MARKETING
Università degli Studi di Cassino
Perche’ scegliere questo curriculum?
Corso JAVA Lezione n° 11 Istituto Statale di Istruzione Superiore “F. Enriques”
Università degli Studi di Cagliari
DATA MINING PER IL MARKETING
IL PROGETTO COMPETENZE 17 dicembre 2002 CINECA - Casalecchio di Reno.
Piano Poseidon "Apprendimenti di base" 2007/20081 Per riflettere … E’ interessante notare come vi siano delle “costanti” negli errori che commettono i.
Strumenti statistici in Excell
redditività var. continua classi di redditività ( < 0 ; >= 0)
Iterative Learning Control per un manipolatore robotico
DEFINIZIONE DEL MODELLO DI PRESTAZIONE
Dipartimento di Ingegneria dell’Informazione Università degli Studi di Parma Intelligenza Artificiale Apprendimento Agostino Poggi Stefano Cagnoni.
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Ingegneria del software Modulo 2 -Il software come prodotto Unità didattica 2 - I costi del software Ernesto Damiani Università degli Studi di Milano Lezione.
1 L'ingegneria è la disciplina e la professione che ha come obiettivo l'applicazione di conoscenze delle scienze matematiche fisiche e naturali alla risoluzione.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
Unità di apprendimento 6
Transcript della presentazione:

Riconoscitori di lingua in documenti testuali   POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione Corso di Studi in Ingegneria Informatica on line     Riconoscitori di lingua in documenti testuali     Tutor universitario: Prof. Giuseppe Pozzi   Elaborato finale di: Andrea Serighelli matr. 679850   A.A. 2007-2008 Riconoscitori di lingua in documenti testuali

Riconoscitori di lingua in documenti testuali Sommario Metodologie di riconoscimento della lingua di un testo Software di implementazione Misure di prestazione Confronto tra le diverse metodologie implementate Riconoscitori di lingua in documenti testuali

Definizione di riconoscitore linguistico FileTesto1.txt FileTesto2.txt FileTesto3.txt LinguaTesto1 LinguaTesto2 LinguaTesto3 Testi Lingua Riconoscitore Più formalmente: CL : D x C → {0,1} dove: CL: algoritmo di riconoscimento linguistico D: dominio dei documenti di testo C: dominio delle lingue se CL (dЄD,cЄC) = 1 allora secondo CL d è scritto nella lingua c se CL (dЄD,cЄC) = 0 allora secondo CL d non è scritto nella lingua c problema decisionale Riconoscitori di lingua in documenti testuali

Strategia di implementazione Abbiamo adattato tecniche applicate al più ampio problema della categorizzazione di un documento testuale Sistema esperto vs Apprendimento automatico Supervisore Set di training Ipotesi di induzione e generalizzazione Set di test Base di conoscenza Base di regole Riconoscitori di lingua in documenti testuali

Funzionamento del riconoscitore Fase di apprendimento Training set Index – term [the,un,et,il,y] Indicizzazione Index-Vector Apprendimento M odello Riconoscitori di lingua in documenti testuali

Funzionamento del riconoscitore Fase di riconoscimento Categorization Status Value Index-Vector Modello Index – term [the,un,et,il,y] Indicizzazione Riconoscimento Decisione Documento Test Lingua riconosciuta Riconoscitori di lingua in documenti testuali

Misure di prestazione Tecniche basate sul conteggio dei casi Vero/Falso Positivo e Vero/Falso Negativo Tabelle di contingenza Lingua ci Decisione esperto Si No Decisione riconoscitore VPi FPi FNi VNi Calcolo della precisione Pri = VPi / (VPi+FPi) Calcolo della recall Rei = VPi / (VPi+FNi) Calcolo delle medie (micro e macro averaging) Riconoscitori di lingua in documenti testuali

L’applicazione software Paradigma di programmazione a oggetti: linguaggio JAVA Riconoscitori di lingua in documenti testuali

Testing dei riconoscitori implementati Implementati tre differenti metodologie di riconoscimento Addestrati i riconoscitori con Training-set costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi: Testati i riconoscitori con Testing-set costituito da 60 documenti index term il y the der et på o aa ã ö i Riconoscitori di lingua in documenti testuali

Metodologia Naive Bayes Stima della probabilità che il documento sia scritto nella lingua Ci ricavati in fase di addestramento CSVi(d) = P(ci|d) = Π [P(ci|ty)•P(ty|d) + P(ci|ty)•P(ty|d)] y=1...r ricavati dall’indicizzazione di d Nel calcolo della stima percentuale concorrono le probabilità condizionate (Bayes) legate alla presenza e assenza di un particolare termine dell’index-vector....e tali probabilità concorrono come r fattori indipendenti (Naive)! Riconoscitori di lingua in documenti testuali

Metodologia Naive Bayes - soglie La lingua relativa alla componente di CSV maggiore, potrebbe non rappresenta la decisione migliore !!! Soglie decisionali differenti componente i del vettore csv di dtrain τi = Σ csvitrain / |{dtrain}| dtrainЄ ci E’ scelta la lingua avente rapporto CSVi / i maggiore Riconoscitori di lingua in documenti testuali

Metodologia Naive Bayes - prestazioni Nessun errore di riconoscimento Necessario l’utilizzo delle soglie decisionali !   Metodologia Naive Bayes senza soglia con soglia lingue non riconosciute italiano spagnolo francese catalano suomi / PrM (%) 69.12* 100 ReM (%) 85.24* Pr = Re (%) 45.00 Riconoscitori di lingua in documenti testuali

Metodologia profile-based Ad ogni lingua è associato un profilo Il profilo è un vettore di dimensione pari all’index-term componente y del vettore wi wiy = β · Σ vytrain/|{dtrain}| + γ · Σ vytrain/|{dtrain}| β + γ = 1 β>0, γ <= 0 dtrainЄ ci dtrain Є ci componente y dell’index-vector di dtrain Ad ogni lingua è associato un profilo E’ scelta la lingua avente profilo più simile all’index-vector del documento di test: CSVi (dtest) = d (index-dtest , wi) Riconoscitori di lingua in documenti testuali

Metodologia profile-based Rappresentazione geometrica Index-term a tre elementi: spazio 3-dim Riconoscitore riconosce tre lingue: 3 profili d è più vicino a w1 (la distanza d(d,w1) è minore di tutte le altre): d è scritto nella lingua rappresentata da w1 Riconoscitori di lingua in documenti testuali

Metodologia profile-based - prestazioni Buone prestazioni Nessuna sensibile differenza con l’utilizzo della formula completa   Metodologia profile-based  =1 e  = 0  =1.2 e  = -0.2 lingue non riconosciute / PrM (%) 98.33 97.08 ReM (%) 96.67 Pr = Re (%) Riconoscitori di lingua in documenti testuali

Metodologia example-based L’index-vector del documento di test è confrontato con gli index-vector dei documenti di training È scelta la lingua del documento di training avente index-vector più simile Lazy classifier: non è costruito alcun modello! Come funzione di confronto è stata utilizzata la distanza euclidea tra vettori Riconoscitori di lingua in documenti testuali

Metodologia example-based Evoluzione: si confronta il documento di test con i K documenti di training più simili (K=1 è il caso precedente) Retrieval Status Value: misura di quanto dtest e dtrain sono simili (es: distanza degli index-vector, ma anche indici di correlazione, relazioni semantiche....) CSVi = Σ RSV (dtest, dtrain) dtrainЄ k-best ci| k documenti di training classificati in ci con max valore RSV (dtest, dtrain) Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente Riconoscitori di lingua in documenti testuali

Metodologia example-based - prestazioni Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con K=1 Ottimo rapporto costo/prestazioni   Metodologia example-based K=1 K=2 lingue non riconosciute / PrM (%) 98.33 100 ReM (%) Pr = Re (%) Riconoscitori di lingua in documenti testuali

Riconoscitori di lingua in documenti testuali Conclusioni L’approccio basato sull’apprendimento automatico supervisionato si è mostrato valido Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es: diverse lingue, differenti ambiti, ....) Temi aperti: riconoscimento della lingua dei documenti web, ottimizzazione dell’index-term, estensione delle metodologie implementate in ambiti più vasti (categorizzazione dei testi, sistemi in cascata). Riconoscitori di lingua in documenti testuali

Riconoscitori di lingua in documenti testuali Materiale Volume tesi e applicazione scaricabili al seguente indirizzo web: http://digilander.libero.it/Pietrino71as/ Riconoscitori di lingua in documenti testuali