informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 7 (continua…)
settima lezione: la matematica delle parole vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 7 (continua…)
quante parole compongono un’unità di testo? Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. ma cos’è una “parola”? lezione 7 (continua…)
cosa contare? (nozioni di “parola scritta”) parola come sequenza di caratteri (forma) compresi tra “separatori” (ad es. due spazi bianchi) parola come unità morfosintatticamente atomica (ad es. “ad hoc” costituisce una parola sola in quanto i suoi costituenti non sono sintatticamente “separabili”) parola come esponente lessicale (o “lemma”; la forma calcio può realizzare diversi esponenti lessicali: verbo, nome_1 e nome_2) lezione 7 (continua…)
unità di base per l‘analisi linguistica il “token” unità di base per l‘analisi linguistica parole unità (semplici e complesse) canteremo, darglielo, ad hoc sigle, acronimi, abbreviazioni, indirizzi Nato, ITA,H20, www.google.it, corso Strada Nuova 2 numeri, formule e date 5.4.2005, 28 agosto 1997, log2250, 050 31528 nomi propri Giovanni Paolo II, Poggio a Caiano punteggiatura ecc. 12 kg, 1€ e 32 cent. lezione 7 (continua…)
il “bestiario” del testo L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del 17 maggio 1999, sul sostegno allo sviluppo rurale da parte del Fondo europeo agricolo di orientamento e garanzia (FEAOG), che modifica e abroga taluni regolamenti (GU L 161 del 26.6.1999, pag. 1), … lezione 7 (continua…)
ambiguità nel token tipicamente un elemento di punteggiatura (virgola, punto e virgola, punto fermo) è considerato un separatore di token (e un token esso stesso) ci sono casi però in cui questo non è vero numeri con la virgola: 13,05 date: 18.3.2003 sigle e abbreviazioni: O.N.U., sig.ra, S. Siro ecc. tokenizzare un testo significa segmentarlo in token attraverso regole che risolvono i casi ambigui lezione 7 (continua…)
come contare? (parole unità e parole tipo) il numero di unità (o frequenza) della parola giornale in un testo è uguale a quante volte la stringa giornale appare in quel testo il numero totale di parole unità in un testo è la lunghezza del testo misurata in parole il numero di parole tipo (o cardinalità dell‘insieme) di parole in un testo è uguale a quante parole diverse si trovano nel testo il numero totale di parole tipo in un testo è la grandezza del suo vocabolario lezione 7 (continua…)
esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. numero di parole unità con categoria “preposizione”: di 2 per 1 con 1 numero delle parole tipo con categoria “preposizione” 3 numero totale di parole unità con categoria “preposizione” 4 lezione 7 (continua…)
esempio (II) il testo contiene Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il testo contiene 17 “parole unità” (è esclusa la punteggiatura) 1 parola tipo con 2 occorrenze 15 parole tipo con 1 occorrenza ciascuna lezione 7 (continua…)
il vocabolario di “esempio” Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il vocabolario V consiste di 16 “parole” diverse |V| = 16 chiamiamo Vi la classe di parole che appaiono con frequenza i volte ciascuna nel testo allora |V |= |V1| + |V2| +...+ |Vmax|, dove max è la frequenza massima con cui una parola appare nel nostro testo lezione 7 (continua…)
frequenze e distribuzioni misura lunghezza l di ogni parola raggruppa tra loro le parole con la stessa l conta quante parole cadono in ciascun raggruppamento riporta i valori di l sull’asse delle X riporta le frequenze contate in 3 sull’asse delle Y lezione 7 (continua…)
distribuzioni … lezione 7 (continua…)
lunghezza di una parola e lunghezza di un testo la lunghezza di una parola in caratteri è data dal numero di caratteri che la compongono la lunghezza di un testo in caratteri è data dal numero totale di occorrenze di caratteri nel testo la lunghezza media di una parola dato un testo è uguale alla lunghezza totale del testo in caratteri divisa per la lunghezza dello stesso testo in parole lezione 7 (continua…)
la deviazione standard è una funzione degli “scarti quadratici” dalla media, presa come punto di riferimento dell’intera distribuzione se tutte le nostre unità avessero la stessa lunghezza l, allora lunghezza media = l e = 0 è in grado di quantificare quanto è disomogenea la distribuzione lezione 7 (continua…)
un esempio lezione 7 (continua…)
lunghezza di frase una frase è una sequenza di parole che termina con un punto fermo la lunghezza di una frase in parole è uguale alla frequenza totale delle parole che la formano la lunghezza di una frase in caretteri è uguale alla frequenza totale dei caratteri che la formano dato un testo consistente di più frasi, la lunghezza media di frase in parole è uguale alla lunghezza del testo in parole divisa per il numero di frasi che lo costituiscono dato un testo consistente di più frasi, la lunghezza media di frase in caratteri è uguale alla lunghezza del testo in caratteri divisa per il numero di frasi che lo costituiscono lezione 7 (continua…)
esempio lunghezza frase 1: 17 “parole” lunghezza frase 2: 23 “parole” Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. lunghezza frase 1: 17 “parole” lunghezza frase 2: 23 “parole” lunghezza media di frase: (17+23)/2 = 20 “parole” deviazione standard: 3 lezione 7 (continua…)
quant’è ricco il vocabolario di un testo? il rapporto “tipo/unità” Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. “rapporto tipo/unità”: rapporto tra cardinalità del vocabolario e lunghezza del testo in parole |V| / |T| 37/40 = 0.925 0 < ( |V| / |T| ) 1 lezione 7 (continua…)
quant’è ricco il vocabolario di un testo? il numero di “hapax legomena” Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V1 |V1|/ N 35/40 = 0.875 0 < |V1|/ N |V| / N 1 lezione 7 (continua…)
lo spettro delle frequenze riporta sull’asse delle X le classi di freq per valori crescenti riporta sull’asse delle Y quante parole tipo hanno frequenza i = | Vi | lezione 7 (continua…)
le frequenze cumulate … calcola quante sono le parole tipo (unità) che appaiono non più di i volte nel testo: Fci dividi Fci per |V | (o per |T|) riporta sull’asse delle X le classi di freq per valori crescenti riporta sull’asse delle Y i valori calcolati in 2. lezione 7 (continua…)
le frequenze cumulate (II) lezione 7 (continua…)
la legge di Zipf all‘interno di una porzione di testo, esiste una correlazione inversa tra le frequenza di una parola e la sua posizione relativa (rango) in una lista di parole che va dalla più frequente alla meno frequente lezione 7 (continua…)
Zipf in Pinocchio rango forma frequenza rango forma frequenza 1 e 1752 16 ma 290 2 di 1338 17 i 283 3 che 1019 18 come 234 4 a 932 19 da 233 5 il 925 20 io 225 6 la 711 21 mi 219 7 un 708 22 le 211 8 non 507 23 più 210 9 per 481 24 l' 206 10 in 453 25 disse 202 11 Pinocchio 415 26 lo 199 12 si 393 27 burattino 195 13 gli 364 28 se 189 14 una 360 29 con 188 15 è 296 30 era 185 lezione 7 (continua…)
Zipf (II) lezione 7 (continua…)
Zipf (III) su doppia scala logaritmica la legge di Zipf dà origine a una retta inclinata verso il basso .... (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 7 (continua…)
la famiglia “Zipf” coefficiente come indice inverso di ricchezza lessicale lezione 7 (continua…)
logaritmo e funzione esponenziale lezione 7 (continua…)
conseguenze della scala logaritmica le potenze di 10 vengono compresse in un intervallo unitario il livello di compressione cresce al crescere della potenza lezione 7 (fine excursus)
laboratorio in linea http://foxdrake.ilc.cnr.it/webtools/ lezione 7 (continua…)
settima lezione la matematica delle parole fine settima lezione (lezione 8) lezione 7