La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA.

Presentazioni simili


Presentazione sul tema: "INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA."— Transcript della presentazione:

1 INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

2 USO DEI CORPORA NELLA LESSICOGRAFIA Where did the Encarta Concise English Dictionarys editors find the information on which to base their definitions? The Bloomsbury Corpus of World English, which now has over 150 million words, provided the main evidence. We amplified this with a tailored reading programme in science, technology, business, and other key areas in order to find evidence of word use in varied fields. Lastly we used the Internet as a research source. Introduzione a ECED (citata da Jackson, p. 167)

3 ALTRI DIZIONARI BASATI SU CORPORA Collins COBUILD BANK OF ENGLISH (Birmingham) (400M) Oxford, Longman BRITISH NATIONAL CORPUS (150M) Cambridge CAMBRIDGE LANGUAGE SURVEY

4 ITALIANO Non esiste ancora un dizionario come CoBUILD Vocabolario Elettronico della Lingua Italiana, VELI (De Mauro / IBM, 1989) Lessico di Frequenza dellItaliano Parlato (LIP) (De Mauro et al, 1993)

5 CORPORA Da lezioni Essex? Lenci Montemagni & Pirrelli

6 CORPORA CORPUS: una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri. Lenci, Montemagni & Pirrelli, p. 26

7 CORPORA & COMPUTERS I corpora esistevano prima dellavvento dei calcolatori elettronici, ma le loro funzionalita e dimensioni erano limitate

8 TIPI DI CORPORA GENERALI (Brown, BNC) o SPECIFICI (Childes, ICONOCLAST, EuroParl) SCRITTO (BNC) o PARLATO (LIP) od ambedue SINCRONICO (Brown) o DIACRONICO (Italnet, Repubblica) MONOLINGUA, MULTILINGUE (Parole), o PARALLELI (Hansard, EuroParl)

9 ALCUNI CORPORA PER LINGLESE Corpus# TokensComments Brown Tagged, balanced British National Corpus (BNC) POS tagged Penn Treebank Parsed MapTask Spoken dialogue, parsed, dialogue acts Bank Of English Aperto

10 IL BROWN CORPUS Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961) 500 testi, ognuno parole Analisi SINCRONICA dellInglese Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa) Annotata la parte del discorso di tutte le parole (87 classi)

11 CORPORA MODERNI Includono scritto, parlato, & nuove forme (web, , blogs) Tipicamente testi interi Sopra i 100 milioni di parole Marcatura standardizzata (tipicamente XML)

12 IL British National Corpus (BNC) Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press Circa 100 milioni di parole Classificazione grammaticale automatica usando il classificatore CLAWS (parti corrette a mano successivamente)

13 FORMATO (SGML) TROUSERS SUIT There is nothing masculine about these new trouser suits in summer 's soft pastels. Smart and acceptable for city wear but soft enough for relaxed days

14 REINTERPRETAZIONE XML TROUSERS SUIT There is nothing masculine …. … …….

15 BNC: INTERFACCIA Query tool: SARA Interfaccia WEB: l l

16 CORPORA PER LITALIANO Il termine corpus usato perche il primo corpus elettronico e la raccolta dei testi di S. Tommaso dAquino creata da padre Busa negli anni 50 Alcuni corpora: ITALNET (1849 testi anteriori a Boccaccio) LIP (de Mauro et al, 1993) REPUBBLICA

17 UN ESEMPIO: IL CORPUS DI REPUBBLICA Creato da SSMIT allUniversita di Bologna (Forli) Annate di Repubblica dal 1985 al milioni di parole tokenizzate, classificate grammaticalmente, e lemmatizzate Codifica XML secondo lo standard TEI Disponibile a: online.sslmit.unibo.it/corpora/corpus.php?path=&na me=Repubblica online.sslmit.unibo.it/corpora/corpus.php?path=&na me=Repubblica (Occorre registrarsi)

18 CORPORA PER LA LESSICOGRAFIA Esempio del tipo di scelte che si devono fare Tipicamente includono sia parlato che scritto Diacronici

19 ANALISI LESSICOGRAFICA DI TESTI Identificazione dei LEMMI (e delle loro parti del discorso) Calcolo delle loro frequenze Costruzione di CONCORDANZE liste ordinate di parole che si trovano in un testo con il contesto Identificazione di COLLOCAZIONI broken twig

20 INFORMAZIONI CHE SI POSSONO ESTRARRE DA CORPORA Nuovi lemmi Nuovi usi di lemmi Frequenze Concordanze (= rimpiazzano le citazioni)

21 LIDENTIFICAZIONE DEI LEMMI IN UN TESTO TOKENIZZAZIONE LEMMATIZZAZIONE CLASSIFICAZIONE GRAMMATICALE

22 TOKENIZZAZIONE CERA UNA VOLTA UN PEZZO DI LEGNO. CERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. | C | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO |. |

23 ALCUNI PROBLEMI CON IL PUNTO CERA UNA VOLTA UN PEZZO DI LEGNO. IL SIG. ROSSI TELEFONÓ A CASA. U.S.A

24 MAIUSCOLE E MINUSCOLE Rossi / rossi Ciliegia / ciliegia

25 TOKEN COMPLESSI Los Angeles, La Spezia Di rado, fuori servizio Ad hoc Tagliare la corda GU L 161 del

26 LEMMATIZZAZIONE DARGLIELO

27 LEMMATIZZAZIONE NEL LIP In Italiano, una volta nota la categoria grammaticale di una forma il lemma e solitamente univocamente determinato Eccezioni: 1.4% (CONTI: pl. di CONTO o CONTE) Processo in tre passi

28 LEMMATIZZAZIONE ANCORA LA DERIVA: 1. ANCORA (N, V, CON) LA (ART, PRO) DERIVA N, V) 2. ANCORA (V) LA (ART) DERIVA (N) 3. ANCORA (V ANCORARE) LA (ART IL) DERIVA (N DERIVA)

29 LEMMATIZZAZIONE CON XELDA

30 XELDA: DEMO ONLINE Analisi morfologica in 14 lingue

31 CLASSIFICAZIONE GRAMMATICALE In molti dei corpora piu recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i lemmi vengono classificati con la loro parte di discorso Brown corpus: fatto a mano BNC, LIP: fatto automaticamente

32 CLASSIFICAZIONE GRAMMATICALE Molte forme di parola possono essere associate con parti del discorso diverse: STATO sia sostantivo (LO STATO ITALIANO) che verbo (NON SONO STATO IO)

33 CLASSIFICAZIONE GRAMMATICALE: BROWN CORPUS Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN./.

34 AMBIGUITA NELLA CLASSIFICAZIONE GRAMMATICALE The AT man NN VB still NN VB RB saw NN VBD her PPO PP$

35 STATISTICHE SULLAMBIGUITA NEL B.C. Unambiguous (1tag)35,340 Ambiguous (2-7 tags)4,100 2 tags3,760 3 tags264 4 tags61 5 tags12 6 tags2 7 tags1 (still)

36 METODI PER LA CLASSIFICAZIONE GRAMMATICALE Prevalentemente STATISTICI Combinano: Informazioni sulla FREQUENZA di una parola Con informazioni sul CONTESTO (specialmente parole precedenti) E sulla sua MORFOLOGIA (specialmente per parole sconosciute) POBILARE

37 CONCORDANZE Jackson, 168 ff Lenci et al, 7.2

38 CONCORDANZE In Pinocchio, la forma BUONO occorre 11 volte. Domande che si pone un lessicografo: Quali parti del discorso? Quali sensi? Usati in quali contesti? Soluzione: le CONCORDANZE

39 CONCORDANZE 1 1, 1 | uomini, sono stati e sono o repubbliche o principati. È principati 2 2, 1 | indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3 5, 2 | assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4 8, 1 | dove si trattassi delle repubbliche. Questi sono quando, o per 5 12, 3 | vede a' principi soli e repubbliche armate fare progressi grandissimi, 6 13, 6 | Alessandro Magno, e come molte repubbliche e principi si sono armati 7 15, 1 | molti si sono immaginati repubbliche e principati che non si CONCORDANZA = forma + contesto

40 RICERCHE E CONCORDANZE NEL CORPUS DI REPUBBLICA Linterfaccia Web al corpus puo essere usata per Query di vario tipo (ritrovano concordanze) Calcolare frequenze di parole

41 TOOLS PER LANALISI LESSICOGRAFICA Esistono oggi moltissimi tools che permettono di eseguire il tipo di analisi appena visto automaticamente Esempi: WORDSMITH distribuito da ICAME (a pagamento) TextSTAT (gratis) WORDSKETCH (a pagamento)

42 TextSTAT Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin Permette di estrarre FREQUENZE e CONCORDANZE da CORPORA che includono testi in ASCII, HTML, e WORD Si puo scaricare da: berlin.de/textstat/software-en.html berlin.de/textstat/software-en.html

43 TextSTAT

44 TEXTSTAT Visita al sito Creazione di nuovo corpus Aggiunta di file a corpus

45 CONCORDANZE: FORME DIVERSE DI CONTESTO e le colonne e i simulacri e lERME chabbella agli occhi tuoi questERMO lido, Bruto per latra notte in ERMA sede, ERMA terrena sede! Oh quanto affanno Sempre caro mi fu questERMO colle, lERMA terra contemplo, e di fanciulla de tuoi steli abbellir lERME contrade ERME Torri, I 2 ERMO lido, IV 4 ERMA sede, VI 11 ERMA terrena sede, VIII 36 ERMO colle, XII 1 LERMA terra contemplo, XVI 63 ERME contrade, XXXIV 8

46 TEXTSTRACT e CONCORDANZE Cambiamento contesto

47 COLLOCAZIONI Marello, Lenci et al. 7.4 p. 196

48 COLLOCAZIONI NOTTE FONDA, LUNA PIENA, ALTA STAGIONE COLLOCAZIONE: sequenza di due o piu parole caratterizzate da un forte legame di associazione

49 TIPI DI COLLOCAZIONI TERMINI TECNICI: sistema operativo, corte dAssise VERBO SUPPORTO: fare attenzione, prendersi un caffe, dar manforte COSTRUZIONI IDIOMATICHE: tagliar la corda, tirare le cuoia

50 RICERCA DI COLLOCAZIONI Usando metodi statistici Intuizione: cercare di scoprire coppie la cui probabilita di occorrere in sequenza e molto maggiore di quel che ci si aspetterebbe date le relative probabilita di occorrenza

51 DAI LEMMI IN UN CORPUS AI LEMMI IN UN DIZIONARIO Durante la progettazione di un dizionario, si determinano Le DIMENSIONI del dizionario (numero di lemmi) Il bilanciamento tra le lettere dellalfabeto La lunghezza delle definizioni Luso dei dati estratti automaticamente per la compilazione richiede un passo non- automatico

52 CORPORA E LESSICOGRAFIA (AGAIN) De Mauro, 1980: VOCABOLARIO DI BASE (VDB) 2000 vocaboli fondamentali (se usiamo solo … possiamo sperare di essere capiti dal 66% della popolazione Italiana che ha almeno la licenza elementare) 2937 di alto uso, 1753 di alta disponibilita LIP e VDB: AMICO, CRITICO, ESPRESSO: VDB solo sostantivi, LIP anche verbi Non nel LIP: UNGHIA, BUGIA, PUGNO

53 CORPORA ALLINEATI E APPRENDIMENTO DELLE LINGUE I corpora allineati (Hansard, EUROPARL) sono una risorsa importante sia per la traduzione che per lapprendimento Interfaccia a EuroParl (Portoghese / Francese): search.cgi search.cgi

54 DIZIONARI INVERSI Per trovare rime Per studi dei suffissi Marello, p. 173

55 CREAZIONE DI CORPORA Un impegno significativo Essenziale chiarire sin dallinizio usi che si vogliono fare: Che linguaggio si vuol campionare Che tipi di analisi Decisioni tecniche: Codifica dei testi (ASCII, XML) (modulo C) Tokens, lemmi, etc.

56 IL LESSICO DI FREQUENZA DELLITALIANO PARLATO De Mauro, Mancini, Vedovelli e Voghera: LESSICO DI FREQUENZA DELLITALIANO PARLATO, ETAS libri, lemmi in totale (57 h di registrazione) Raccolti in ugual numero a Milano, Firenze, Roma e Napoli occorrenze per ognuno di cinque tipi di parlato (da conversazione a scambio unidirezionale = discorsi politici)

57 CREAZIONE DEL CORPUS Raccolta dei materiali Trascrizione Trattamento automatico

58 RACCOLTA DEI MATERIALI Gruppo A: conversazioni bidirezionali faccia a faccia in casa / sul lavoro / a scuola / etc Gruppo B: conversazioni bidirezionali NON faccia a faccia (al telefono) Gruppo C: conversazioni bidirezionali faccia a faccia ma con presa di parola non libera (esami universitari / assemblee legislative / interviste) Gruppo D: scambio unidirezionale in presenza del destinatario (lezioni, relazioni, comizi, omelie) Gruppo E: scambio unidirezionale a distanza (trasmissioni televisive / radiofoniche)

59 CREAZIONE DEL CORPUS Raccolta dei materiali Trascrizione A mano Non IPA Vari simboli per pause, tenute vocaliche (ciao_), etc. Trattamento automatico

60 CREAZIONE DEL CORPUS Raccolta dei materiali Trascrizione Trattamento automatico: Tokenizzazione Lemmatizzazione Classificazione grammaticale Correttezza: tra il 91% ed il 94%

61 ALCUNE STATISTICHE il (Art)37076non (Av)7752 di (Prep)16721in (Prep)6879 essere (V)15220che (Pro)6705 uno (Art)12204io (Pro)5872 a (Prep)11671che (Cong)5501 e (Cong.)9858avere5396 egli (Pro)8360per (Prep)4956

62 LA CURVA DI ZIPF

63 LIP e LIF Non emergono chiare regole Spostamenti di RANGO Mo: 326 nel LIP, 3296 nel LIF Praticamente: 221 LIP, 3513 LIF Generalmente pero bilanciato (fare: 15 LIP, 16 LIF) Dimensioni troppo ridotte

64 LETTURE Jackson, cap. 13 Lenci et al: cap. 1, cap 4.1, cap. 7 Marello, cap. 5.3, 6.6 De Mauro et al 1993

65 ACKNOWLEDGMENTS Ringraziamenti a Marco Baroni (UniBo)


Scaricare ppt "INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA."

Presentazioni simili


Annunci Google