L’indice d’uso nei corpora linguistici Salvatore De Masi

Slides:



Advertisements
Presentazioni simili
Relazioni binarie.
Advertisements

2a + 10b abx2 3a + 1 y 2 a + 1 x + 2y a − Espressioni algebriche
I Polinomi Prof.ssa A.Comis.
Analisi della varianza
Indici di Posizione Giulio Vidotto Raffaele Cioffi.
PRIMI CONCETTI ESEMPI INTRODUTTIVI DEFINIZIONI INTRODUZIONE ALLE FUNZIONI.
CONTROLLO DELLA CONCORRENZA
Basi di dati - Fondamenti
Il trattamento statistico dei dati
La funzione seno è una corrispondenza biunivoca nell’intervallo
Le Frazioni Prof.ssa A.Comis.
= 2x – 3 x Definizione e caratteristiche
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
Variabili casuali a più dimensioni
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Definizione di logaritmo
Misure dei valori centrali
L’operazionalizzazione
Il trattamento statistico dei dati
La circonferenza nel piano cartesiano
Le Equazioni Lineari Definizione:
PEDAGOGIA SPERIMENTALE
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
L’analisi monovariata
La circonferenza nel piano cartesiano
(7x + 8x2 + 2) : (2x + 3) 8x2 + 7x + 2 2x + 3 8x2 + 7x + 2 2x + 3 4x
Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.
x : variabile indipendente
Equazioni e disequazioni
APPUNTI DI STATISTICA INFERENZIALE
Confronto tra diversi soggetti:
Accenni di analisi monovariata e bivariata
Geometria Euclidea Euclide è noto soprattutto come autore degli Elementi, la più importante opera di geometria dell'antichità; tuttavia di lui si sa pochissimo.
Tipo di dato: array Un array è un tipo di dato usato per memorizzare una collezione di variabili dello stesso tipo. Per memorizzare una collezione di 7.
La Statistica Istituto Comprensivo “ M. G. Cutuli”
L'Insieme.
I MONOMI.
Il vocabolario Vocabolario e lemma
Questa è la funzione esponenziale
Statistica descrittiva bivariata
L’analisi monovariata
Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
L’indagine statistica
Statistica Scienza che studia i fenomeni collettivi.
Basi di dati - Fondamenti
I RADICALI Definizione di radicali Semplificazione di radicali
Progettazione concettuale
{ } Multipli di un numero M4 ESEMPIO 0, 4, 8, 12, 16, 20, 24, …
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
Confronto tra diversi soggetti:
Statistica.
32 = 9 x2 = 9 x = 3 32 = 9 √9 = 3 L’estrazione di radice
Matrici Definizioni Matrici Rettangolari Quadrate 02/01/2019
Le espressioni algebriche letterali
“Una delle più grandi scoperte che un uomo può fare, una delle sue più grandi sorprese, è scoprire che può fare ciò che aveva paura di non poter fare”.
Mario Miscali - Diritto Tributario
L’unità frazionaria ESEMPIO Rappresentazione
Algebra di Boole e Funzioni Binarie
SCALE DI MISURA CARATTERI QUALITATIVI CARATTERI QUANTITATIVI
Capitolo 1 Introduzione alla fisica
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Matrici e determinanti
I sistemi di equazioni di I grado
Associazione tra variabili qualitative
Le Frazioni Prof.ssa A.Comis.
Docente: Sabato Bufano
Statistica descrittiva bivariata
Corso di Fondamenti di Informatica
Transcript della presentazione:

L’indice d’uso nei corpora linguistici Salvatore De Masi Università La Sapienza Roma 22 settembre 2010 L’indice d’uso nei corpora linguistici Salvatore De Masi

Introduzione La formazione di corpora linguistici costituisce il punto di partenza per un approccio di tipo quantitativo allo studio del linguaggio. Con un opportuno trattamento, è possibile estrapolare da un corpus l’insieme L dei lemmi che compaiono nei testi che lo compongono. Se chiamiamo D il dizionario della lingua nella quale i testi del corpus sono scritti, varrà la seguente relazione: L  D

In simboli: x xDxL Introduzione Da un punto di vista empirico, tuttavia, la relazione tra L e D può essere considerata una relazione di inclusione stretta, nel senso che D contiene almeno un lemma non presente in L: In simboli: x xDxL In L, sono vere le seguenti proposizioni: x: x  L F(x)1 x: x  C(LD) F(x)=0

Ordinamento Diremo di aver definito una relazione d’ordine  su L, se valgono le seguenti proprietà: riflessività: x  L: xx antisimmetria: x, y  L: (xy  yx)  x=y transitività: x, y, z  L: (xy  yz)  xz L’insieme (L, ) è un insieme ordinato I lemmi possono essere ordinati alfabeticamente possono, più significativamente, essere disposti in ordine crescente o decrescente di frequenza

Partizioni di testi Se i testi sono suddivisi in parti in base ad un criterio dato (per autore, per argomen-to, per tipologia testuale …): si ottengono due tipi di frequenze: totali e parziali; è possibile utilizzare le seconde per mi-gliorare l’ordinamento effettuato esclusiva-mente in base alle prime.

Indice d’uso nel 1964, JUILLAND e CHANG-RODRIGUEZ (Frequency dictionary of spanish words) propongono un indice d’uso che prevede i seguenti passaggi con p = numero delle parti in cui è diviso il testo s = s²

Indice d’uso U = F× D L’indice U riesce a distinguere i casi in cui due o più lemmi, pur avendo frequenze uguali hanno diverse distribuzioni di frequenza. Es.: nomi e verbi con F=12

Lemma F1 F2 F3 F4 D U Perdono 2 3 7 0,5093 6,1122 Provare 6 1 0,6400 7,6795 Morire 11 0,1076 1,2917 lazzeretto 12 0,0000 galantuomo 5 4

Come è facile vedere, U non è un dato empirico frutto di rilevazione, ma la stima di un parametro. Osservazioni: Quando le frequenze sono concentrate in una sola parte, U=0, indipendentemente dal valore di F. Si elimina, con ciò, la differenza tra lL e lL. Nel calcolo dell’indice U, le distribuzioni seguenti sono equivalenti

Lemma F1 F2 F3 F4 U notizia 1 2 1,0851 domanda violento porto 1 2 1,0851 domanda violento porto Mentre ciò può avere senso quando abbiamo a che fare con un corpus bilanciato, non è così quando le diverse parti hanno dimensioni differenti. Lo scopo di U è individuare quei lemmi per i quali la frequenza è spiegata dalla tipologia del testo. Si veda il lemma lazzeretto dell’esempio precedente (Nella quarta parte, infatti, sono presenti i capitoli nei quali si parla della peste).

Se le frequenze, però, sono concentrate nelle parti con più alto numero di occorrenze, la concentrazione dipende in parte dalla tipologia del testo ed in parte dalla numerosità dei sottocampioni. È possibile correggere U affinché sia sempre U>0 e dia risultati diversi in funzione della numerosità dei sottocampioni?

Per rispondere alla domanda occorre studiare la relazione esistente tra le fre-quenze parziali e i corrispondenti valori indicanti le occorrenze totali dei sottocampioni. Ci serviremo del Coefficiente di contingen-za C, una misura della strettezza della relazione tra dati nominali in una tabella a doppia entrata, basata sul ² Partiamo dal caso dei lemmi con F=1. Per essi il calcolo di U dà valore 0.

Consideriamo la seguente tabella P1 P2 P3 P4 totali Sì 1 No 6414 7383 10677 12390 36864 7384 36865 Per ciascuna casella, moltiplicando i corri-spondenti totali di riga e di colonna e dividendo il risultato per il totale generale, otteniamo le frequenze attese

Casella fo fe (fo - fe)²/ fe a 0,1740 b 1 0,2003 3,1928 c 0,2896 d 0,3361 e 6414 6413,8260 0,000047 f 7383 7383,7997 0,000087 g 10677 10676,7104 0,000008 h 12390 12388,6639 0,000009

Sommando i dati dell’ultima colonna, otteniamo, a meno di arrotondamenti: ²=3,99266 Da cui: C=0,01041 e calcolando il complemento all’unità: C_=0,98959

Sia Uc= U/2 + C_xF/2 Ossia: Uc è uguale alla media aritmetica tra U ed il prodotto del complemento di C per F

Riprendendo il caso dei lemmi con F=1, distingueremo quattro casi così ordinabili Uc a 1 0,49634 b 0,49592 c 0,49480 d 0,49433 Uc diventa tanto più piccolo quanto più è ridotto il sottocampione in cui si presenta il lemma

Riprendendo i lemmi con F=3 Lemma F1 F2 F3 F4 U Uc notizia 1 2 1,0851 2,03120 domanda 2,02990 violento 2,02400 porto 2,02573

E con F=12 Lemma F1 F2 F3 F4 U Uc Perdono 2 3 7 6,1122 8,99050 Provare 2 3 7 6,1122 8,99050 Provare 6 1 7,6795 9,77520 Morire 11 1,2917 6,51177 lazzeretto 12 0,0000 5,84788 galantuomo 5 4 9,75820

L A B C D E Tot U Um UR UC 1 5 5,00 2 3,42 4,31 4,50 4,16 3 2,76 3,62 4,00 4 2,26 3,36 3,83 1,84 2,67 3,33 6 1,13 2,24 3,08 7 0,00 1,00 2,28 8 10 5,82 7,41 5,75 9 8,10 6,45