Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto (TN) Stage tenuto presso lFBK, unita HLT 21 giugno – 9 luglio 2010
Motivazioni e Obiettivo Motivazione: Lavvento di internet e dei social media ha portato ad una nuova forma di espressione linguistica, diversa dallitaliano scritto standard Obiettivo: comprendere le problematiche che le tecnologie del linguaggio si trovano ad affrontare nellanalisi automatica di questo nuovo linguaggio
Descrizione del lavoro 1.Creazione di un corpus della lingua di internet e di un corpus di italiano standard 2.Confronto delle caratteristiche delle due lingue 3.Creazione di un Gold standard per la valutazione delle prestazioni di un sistema automatico sulla lingua di internet
Il corpus della lingua di internet Argomenti: la partita Italia – Slovacchia e lincidente di Valentino Rossi Da dove: Yahoo e YouTube Quando: 25 giugno 2010 Numero di post: Numero di parole: Come: Webdown e Webparser
Il corpus dellitaliano standard Argomenti:la partita Italia – Slovacchia e lincidente di Valentino Rossi Da dove: giornale lAdige Quando:6, 7, 21, 24 e 25 giugno 2010 Numero di articoli:12 Numero di parole:1.676
Confronto tra i corpora Come: lista delle frequenze delle parole Cosa: punteggiatura e parole contenuto AdigeInternet RossiVale Mugelloforza Pedrosacampione Lorenzogrande Hondamoto ancheonesto AdigeInternet,,. ??? >>... << !!!!! ? : ) ( =)
Caratteristiche distintive delle due lingue ITALIANO STANDARDITALIANO SU INTERNET Linguaggio più neutro e descrittivo Linguaggio più esplicito ed emotivo; grande uso della punteggiatura; continue abbreviazioni; parole che e ke usate moltissimo; ampio uso delle minuscole; parolacce (censurate e non).
Valutazione dei sistemi automatici Gold Standard: corpus annotato a mano con le informazioni specifiche su cui si vogliono valutare gli strumenti automatici TextPro: strumento che aggiunge ai testi informazioni linguistiche Creazione del GS: annotazione del corpus di internet con informazioni su: Segmentazione del testo in frasi Suddivisione del testo in parole Categoria lessicale delle parole (nome, verbo, agg.)
Analisi degli errori di TextPro CorpusGold StandardErrore di TextPro adesso.soloadesso. Solo Fine frase non riconosciuta N O NOI parola censurata Non riconosciute come parole singole Valenome proprio abbreviato Riconosciuto come verbo neanke,giustoooavverbio, aggettivoParole non riconosciute :-)nuova categoria: smiley Riconosciuto come punteggiatura Strumenti come TextPro si trovano in difficoltà di fronte al nuovo linguaggio utilizzato su Internet
Conclusioni Grazie a questo stage, abbiamo avuto loccasione di realizzare un corpus, abbiamo fatto uso di strumenti come TextPro e Webdownload, analizzato una lista di frequenze, creato un Gold Standard, condotto unanalisi linguistica molto ampia e abbiamo infine valutato gli errori di un software. Responsabile HLT: Bernardo Magnini Tutor: Luisa Bentivogli Tecnici: Milen Kouylekov e Christian Girardi