La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lezione 7 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

Presentazioni simili


Presentazione sul tema: "Lezione 7 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università"— Transcript della presentazione:

1 lezione 7 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia (continua…)

2 lezione 7 settima lezione: la matematica delle parole vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia (continua…)

3 lezione 7 quante parole compongono ununità di testo? ma cosè una parola? Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. (continua…)

4 lezione 7 cosa contare? (nozioni di parola scritta) parola come sequenza di caratteri (forma) compresi tra separatori (ad es. due spazi bianchi) parola come unità morfosintatticamente atomica (ad es. ad hoc costituisce una parola sola in quanto i suoi costituenti non sono sintatticamente separabili) parola come esponente lessicale (o lemma; la forma calcio può realizzare diversi esponenti lessicali: verbo, nome_1 e nome_2) (continua…)

5 lezione 7 il token unità di base per lanalisi linguistica parole unità (semplici e complesse) canteremo, darglielo, ad hoc sigle, acronimi, abbreviazioni, indirizzi Nato, ITA,H 2 0, corso Strada Nuova 2www.google.it numeri, formule e date , 28 agosto 1997, log 2 250, nomi propri Giovanni Paolo II, Poggio a Caiano punteggiatura ecc. 12 kg, 1 e 32 cent. (continua…)

6 lezione 7 il bestiario del testo L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del 17 maggio 1999, sul sostegno allo sviluppo rurale da parte del Fondo europeo agricolo di orientamento e garanzia (FEAOG), che modifica e abroga taluni regolamenti (GU L 161 del , pag. 1), … (continua…)

7 lezione 7 ambiguità nel token tipicamente un elemento di punteggiatura (virgola, punto e virgola, punto fermo) è considerato un separatore di token (e un token esso stesso) ci sono casi però in cui questo non è vero numeri con la virgola: 13,05 date: sigle e abbreviazioni: O.N.U., sig.ra, S. Siro ecc. tokenizzare un testo significa segmentarlo in token attraverso regole che risolvono i casi ambigui (continua…)

8 lezione 7 come contare? (parole unità e parole tipo) il numero di unità (o frequenza) della parola giornale in un testo è uguale a quante volte la stringa giornale appare in quel testo il numero totale di parole unità in un testo è la lunghezza del testo misurata in parole il numero di parole tipo (o cardinalità dellinsieme) di parole in un testo è uguale a quante parole diverse si trovano nel testo il numero totale di parole tipo in un testo è la grandezza del suo vocabolario (continua…)

9 lezione 7 esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. numero di parole unità con categoria preposizione: di2 per 1 con 1 numero delle parole tipo con categoria preposizione3 numero totale di parole unità con categoria preposizione 4 (continua…)

10 lezione 7 esempio (II) Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il testo contiene 17 parole unità (è esclusa la punteggiatura) 1 parola tipo con 2 occorrenze 15 parole tipo con 1 occorrenza ciascuna (continua…)

11 lezione 7 il vocabolario di esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il vocabolario V consiste di 16 parole diverse |V| = 16 chiamiamo V i la classe di parole che appaiono con frequenza i volte ciascuna nel testo allora |V |= |V 1 | + |V 2 | |V max |, dove max è la frequenza massima con cui una parola appare nel nostro testo (continua…)

12 lezione 7 frequenze e distribuzioni (continua…) 1.misura lunghezza l di ogni parola 2.raggruppa tra loro le parole con la stessa l 3.conta quante parole cadono in ciascun raggruppamento 4.riporta i valori di l sullasse delle X 5.riporta le frequenze contate in 3 sullasse delle Y

13 lezione 7 distribuzioni … (continua…)

14 lezione 7 lunghezza di una parola e lunghezza di un testo la lunghezza di una parola in caratteri è data dal numero di caratteri che la compongono la lunghezza di un testo in caratteri è data dal numero totale di occorrenze di caratteri nel testo la lunghezza media di una parola dato un testo è uguale alla lunghezza totale del testo in caratteri divisa per la lunghezza dello stesso testo in parole (continua…)

15 lezione 7 la deviazione standard deviazione standard (continua…) è una funzione degli scarti quadratici dalla media, presa come punto di riferimento dellintera distribuzione se tutte le nostre unità avessero la stessa lunghezza l, allora lunghezza media = l e = 0 è in grado di quantificare quanto è disomogenea la distribuzione

16 lezione 7 un esempio (continua…)

17 lezione 7 lunghezza di frase una frase è una sequenza di parole che termina con un punto fermo la lunghezza di una frase in parole è uguale alla frequenza totale delle parole che la formano la lunghezza di una frase in caretteri è uguale alla frequenza totale dei caratteri che la formano dato un testo consistente di più frasi, la lunghezza media di frase in parole è uguale alla lunghezza del testo in parole divisa per il numero di frasi che lo costituiscono dato un testo consistente di più frasi, la lunghezza media di frase in caratteri è uguale alla lunghezza del testo in caratteri divisa per il numero di frasi che lo costituiscono (continua…)

18 lezione 7 esempio Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. lunghezza frase 1: 17 parole lunghezza frase 2: 23 parole lunghezza media di frase: (17+23)/2 = 20 parole deviazione standard:3 (continua…)

19 lezione 7 quantè ricco il vocabolario di un testo? il rapporto tipo/unità Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. rapporto tipo/unità: rapporto tra cardinalità del vocabolario e lunghezza del testo in parole |V| / |T| 37/40 = < ( |V| / |T| ) 1 (continua…)

20 lezione 7 quantè ricco il vocabolario di un testo? il numero di hapax legomena Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V 1 |V 1 |/ N 35/40 = < |V 1 |/ N |V| / N 1 (continua…)

21 lezione 7 lo spettro delle frequenze (continua…) 1.riporta sullasse delle X le classi di freq per valori crescenti 2.riporta sullasse delle Y quante parole tipo hanno frequenza i = | V i |

22 lezione 7 le frequenze cumulate … (continua…) 1.calcola quante sono le parole tipo (unità) che appaiono non più di i volte nel testo: Fc i 2.dividi Fc i per |V | (o per |T|) 3.riporta sullasse delle X le classi di freq per valori crescenti 4.riporta sullasse delle Y i valori calcolati in 2.

23 lezione 7 le frequenze cumulate (II) (continua…)

24 lezione 7 la legge di Zipf allinterno di una porzione di testo, esiste una correlazione inversa tra le frequenza di una parola e la sua posizione relativa (rango) in una lista di parole che va dalla più frequente alla meno frequente (continua…)

25 lezione 7 Zipf in Pinocchio rangoformafrequenza rango forma frequenza 1e175216ma290 2di133817i283 3che101918come234 4a93219da233 5il92520io225 6la71121mi219 7un70822le211 8non50723più210 9per48124l'206 10in45325disse202 11Pinocchio41526lo199 12si39327burattino195 13gli36428se189 14una36029con188 15è29630era185 (continua…)

26 lezione 7 Zipf (II) (continua…)

27 lezione 7 Zipf (III) su doppia scala logaritmica la legge di Zipf dà origine a una retta inclinata verso il basso....doppia scala logaritmica (per saperne di più clicca sulle parole evidenziate in giallo!) (continua…)

28 lezione 7 la famiglia Zipf coefficiente come indice inverso di ricchezza lessicale (continua…)

29 lezione 7 logaritmo e funzione esponenziale (continua…)

30 lezione 7 conseguenze della scala logaritmica le potenze di 10 vengono compresse in un intervallo unitario il livello di compressione cresce al crescere della potenza (fine excursus)

31 lezione 7 laboratorio in linea (continua…)

32 lezione 7 fine settima lezione settima lezione la matematica delle parole (lezione 8)


Scaricare ppt "Lezione 7 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università"

Presentazioni simili


Annunci Google