La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Presentazioni simili


Presentazione sul tema: "Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto."— Transcript della presentazione:

1 Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto (TN) Stage tenuto presso lFBK, unita HLT 21 giugno – 9 luglio 2010

2 Motivazioni e Obiettivo Motivazione: Lavvento di internet e dei social media ha portato ad una nuova forma di espressione linguistica, diversa dallitaliano scritto standard Obiettivo: comprendere le problematiche che le tecnologie del linguaggio si trovano ad affrontare nellanalisi automatica di questo nuovo linguaggio

3 Descrizione del lavoro 1.Creazione di un corpus della lingua di internet e di un corpus di italiano standard 2.Confronto delle caratteristiche delle due lingue 3.Creazione di un Gold standard per la valutazione delle prestazioni di un sistema automatico sulla lingua di internet

4 Il corpus della lingua di internet Argomenti: la partita Italia – Slovacchia e lincidente di Valentino Rossi Da dove: Yahoo e YouTube Quando: 25 giugno 2010 Numero di post: 2.330 Numero di parole: 7.640 Come: Webdown e Webparser

5 Il corpus dellitaliano standard Argomenti:la partita Italia – Slovacchia e lincidente di Valentino Rossi Da dove: giornale lAdige Quando:6, 7, 21, 24 e 25 giugno 2010 Numero di articoli:12 Numero di parole:1.676

6 Confronto tra i corpora Come: lista delle frequenze delle parole Cosa: punteggiatura e parole contenuto AdigeInternet RossiVale Mugelloforza Pedrosacampione Lorenzogrande Hondamoto ancheonesto AdigeInternet,,. ??? >>... << !!!!! ? : ) ( =)

7 Caratteristiche distintive delle due lingue ITALIANO STANDARDITALIANO SU INTERNET Linguaggio più neutro e descrittivo Linguaggio più esplicito ed emotivo; grande uso della punteggiatura; continue abbreviazioni; parole che e ke usate moltissimo; ampio uso delle minuscole; parolacce (censurate e non).

8 Valutazione dei sistemi automatici Gold Standard: corpus annotato a mano con le informazioni specifiche su cui si vogliono valutare gli strumenti automatici TextPro: strumento che aggiunge ai testi informazioni linguistiche Creazione del GS: annotazione del corpus di internet con informazioni su: Segmentazione del testo in frasi Suddivisione del testo in parole Categoria lessicale delle parole (nome, verbo, agg.)

9 Analisi degli errori di TextPro CorpusGold StandardErrore di TextPro adesso.soloadesso. Solo Fine frase non riconosciuta N O I @#$% NOI parola censurata Non riconosciute come parole singole Valenome proprio abbreviato Riconosciuto come verbo neanke,giustoooavverbio, aggettivoParole non riconosciute :-)nuova categoria: smiley Riconosciuto come punteggiatura Strumenti come TextPro si trovano in difficoltà di fronte al nuovo linguaggio utilizzato su Internet

10 Conclusioni Grazie a questo stage, abbiamo avuto loccasione di realizzare un corpus, abbiamo fatto uso di strumenti come TextPro e Webdownload, analizzato una lista di frequenze, creato un Gold Standard, condotto unanalisi linguistica molto ampia e abbiamo infine valutato gli errori di un software. Responsabile HLT: Bernardo Magnini Tutor: Luisa Bentivogli Tecnici: Milen Kouylekov e Christian Girardi


Scaricare ppt "Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto."

Presentazioni simili


Annunci Google