L’indice d’uso nei corpora linguistici Salvatore De Masi Università La Sapienza Roma 22 settembre 2010 L’indice d’uso nei corpora linguistici Salvatore De Masi
Introduzione La formazione di corpora linguistici costituisce il punto di partenza per un approccio di tipo quantitativo allo studio del linguaggio. Con un opportuno trattamento, è possibile estrapolare da un corpus l’insieme L dei lemmi che compaiono nei testi che lo compongono. Se chiamiamo D il dizionario della lingua nella quale i testi del corpus sono scritti, varrà la seguente relazione: L D
In simboli: x xDxL Introduzione Da un punto di vista empirico, tuttavia, la relazione tra L e D può essere considerata una relazione di inclusione stretta, nel senso che D contiene almeno un lemma non presente in L: In simboli: x xDxL In L, sono vere le seguenti proposizioni: x: x L F(x)1 x: x C(LD) F(x)=0
Ordinamento Diremo di aver definito una relazione d’ordine su L, se valgono le seguenti proprietà: riflessività: x L: xx antisimmetria: x, y L: (xy yx) x=y transitività: x, y, z L: (xy yz) xz L’insieme (L, ) è un insieme ordinato I lemmi possono essere ordinati alfabeticamente possono, più significativamente, essere disposti in ordine crescente o decrescente di frequenza
Partizioni di testi Se i testi sono suddivisi in parti in base ad un criterio dato (per autore, per argomen-to, per tipologia testuale …): si ottengono due tipi di frequenze: totali e parziali; è possibile utilizzare le seconde per mi-gliorare l’ordinamento effettuato esclusiva-mente in base alle prime.
Indice d’uso nel 1964, JUILLAND e CHANG-RODRIGUEZ (Frequency dictionary of spanish words) propongono un indice d’uso che prevede i seguenti passaggi con p = numero delle parti in cui è diviso il testo s = s²
Indice d’uso U = F× D L’indice U riesce a distinguere i casi in cui due o più lemmi, pur avendo frequenze uguali hanno diverse distribuzioni di frequenza. Es.: nomi e verbi con F=12
Lemma F1 F2 F3 F4 D U Perdono 2 3 7 0,5093 6,1122 Provare 6 1 0,6400 7,6795 Morire 11 0,1076 1,2917 lazzeretto 12 0,0000 galantuomo 5 4
Come è facile vedere, U non è un dato empirico frutto di rilevazione, ma la stima di un parametro. Osservazioni: Quando le frequenze sono concentrate in una sola parte, U=0, indipendentemente dal valore di F. Si elimina, con ciò, la differenza tra lL e lL. Nel calcolo dell’indice U, le distribuzioni seguenti sono equivalenti
Lemma F1 F2 F3 F4 U notizia 1 2 1,0851 domanda violento porto 1 2 1,0851 domanda violento porto Mentre ciò può avere senso quando abbiamo a che fare con un corpus bilanciato, non è così quando le diverse parti hanno dimensioni differenti. Lo scopo di U è individuare quei lemmi per i quali la frequenza è spiegata dalla tipologia del testo. Si veda il lemma lazzeretto dell’esempio precedente (Nella quarta parte, infatti, sono presenti i capitoli nei quali si parla della peste).
Se le frequenze, però, sono concentrate nelle parti con più alto numero di occorrenze, la concentrazione dipende in parte dalla tipologia del testo ed in parte dalla numerosità dei sottocampioni. È possibile correggere U affinché sia sempre U>0 e dia risultati diversi in funzione della numerosità dei sottocampioni?
Per rispondere alla domanda occorre studiare la relazione esistente tra le fre-quenze parziali e i corrispondenti valori indicanti le occorrenze totali dei sottocampioni. Ci serviremo del Coefficiente di contingen-za C, una misura della strettezza della relazione tra dati nominali in una tabella a doppia entrata, basata sul ² Partiamo dal caso dei lemmi con F=1. Per essi il calcolo di U dà valore 0.
Consideriamo la seguente tabella P1 P2 P3 P4 totali Sì 1 No 6414 7383 10677 12390 36864 7384 36865 Per ciascuna casella, moltiplicando i corri-spondenti totali di riga e di colonna e dividendo il risultato per il totale generale, otteniamo le frequenze attese
Casella fo fe (fo - fe)²/ fe a 0,1740 b 1 0,2003 3,1928 c 0,2896 d 0,3361 e 6414 6413,8260 0,000047 f 7383 7383,7997 0,000087 g 10677 10676,7104 0,000008 h 12390 12388,6639 0,000009
Sommando i dati dell’ultima colonna, otteniamo, a meno di arrotondamenti: ²=3,99266 Da cui: C=0,01041 e calcolando il complemento all’unità: C_=0,98959
Sia Uc= U/2 + C_xF/2 Ossia: Uc è uguale alla media aritmetica tra U ed il prodotto del complemento di C per F
Riprendendo il caso dei lemmi con F=1, distingueremo quattro casi così ordinabili Uc a 1 0,49634 b 0,49592 c 0,49480 d 0,49433 Uc diventa tanto più piccolo quanto più è ridotto il sottocampione in cui si presenta il lemma
Riprendendo i lemmi con F=3 Lemma F1 F2 F3 F4 U Uc notizia 1 2 1,0851 2,03120 domanda 2,02990 violento 2,02400 porto 2,02573
E con F=12 Lemma F1 F2 F3 F4 U Uc Perdono 2 3 7 6,1122 8,99050 Provare 2 3 7 6,1122 8,99050 Provare 6 1 7,6795 9,77520 Morire 11 1,2917 6,51177 lazzeretto 12 0,0000 5,84788 galantuomo 5 4 9,75820
L A B C D E Tot U Um UR UC 1 5 5,00 2 3,42 4,31 4,50 4,16 3 2,76 3,62 4,00 4 2,26 3,36 3,83 1,84 2,67 3,33 6 1,13 2,24 3,08 7 0,00 1,00 2,28 8 10 5,82 7,41 5,75 9 8,10 6,45