Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoVioletta Simoni Modificato 10 anni fa
1
Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto (TN) Stage tenuto presso lFBK, unita HLT 21 giugno – 9 luglio 2010
2
Motivazioni e Obiettivo Motivazione: Lavvento di internet e dei social media ha portato ad una nuova forma di espressione linguistica, diversa dallitaliano scritto standard Obiettivo: comprendere le problematiche che le tecnologie del linguaggio si trovano ad affrontare nellanalisi automatica di questo nuovo linguaggio
3
Descrizione del lavoro 1.Creazione di un corpus della lingua di internet e di un corpus di italiano standard 2.Confronto delle caratteristiche delle due lingue 3.Creazione di un Gold standard per la valutazione delle prestazioni di un sistema automatico sulla lingua di internet
4
Il corpus della lingua di internet Argomenti: la partita Italia – Slovacchia e lincidente di Valentino Rossi Da dove: Yahoo e YouTube Quando: 25 giugno 2010 Numero di post: 2.330 Numero di parole: 7.640 Come: Webdown e Webparser
5
Il corpus dellitaliano standard Argomenti:la partita Italia – Slovacchia e lincidente di Valentino Rossi Da dove: giornale lAdige Quando:6, 7, 21, 24 e 25 giugno 2010 Numero di articoli:12 Numero di parole:1.676
6
Confronto tra i corpora Come: lista delle frequenze delle parole Cosa: punteggiatura e parole contenuto AdigeInternet RossiVale Mugelloforza Pedrosacampione Lorenzogrande Hondamoto ancheonesto AdigeInternet,,. ??? >>... << !!!!! ? : ) ( =)
7
Caratteristiche distintive delle due lingue ITALIANO STANDARDITALIANO SU INTERNET Linguaggio più neutro e descrittivo Linguaggio più esplicito ed emotivo; grande uso della punteggiatura; continue abbreviazioni; parole che e ke usate moltissimo; ampio uso delle minuscole; parolacce (censurate e non).
8
Valutazione dei sistemi automatici Gold Standard: corpus annotato a mano con le informazioni specifiche su cui si vogliono valutare gli strumenti automatici TextPro: strumento che aggiunge ai testi informazioni linguistiche Creazione del GS: annotazione del corpus di internet con informazioni su: Segmentazione del testo in frasi Suddivisione del testo in parole Categoria lessicale delle parole (nome, verbo, agg.)
9
Analisi degli errori di TextPro CorpusGold StandardErrore di TextPro adesso.soloadesso. Solo Fine frase non riconosciuta N O I @#$% NOI parola censurata Non riconosciute come parole singole Valenome proprio abbreviato Riconosciuto come verbo neanke,giustoooavverbio, aggettivoParole non riconosciute :-)nuova categoria: smiley Riconosciuto come punteggiatura Strumenti come TextPro si trovano in difficoltà di fronte al nuovo linguaggio utilizzato su Internet
10
Conclusioni Grazie a questo stage, abbiamo avuto loccasione di realizzare un corpus, abbiamo fatto uso di strumenti come TextPro e Webdownload, analizzato una lista di frequenze, creato un Gold Standard, condotto unanalisi linguistica molto ampia e abbiamo infine valutato gli errori di un software. Responsabile HLT: Bernardo Magnini Tutor: Luisa Bentivogli Tecnici: Milen Kouylekov e Christian Girardi
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.