lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia
lezione 5 quinta lezione: la matematica delle parole vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia
lezione 5 livelli di analisi del testo Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri posti di blocco e perquisizioni Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri posti di blocco e perquisizioni Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.
lezione 5 ascii e unicode
lezione 5 ascii e unicode consente la codifica di tutti i caratteri scritti esistenti al mondo; non ricorre a combinazioni di più tasti battuti in sequenza; tratta tutti i caratteri, siano essi alfabetici che ideografici, allo stesso modo; per identificare ciascun carattere Unicode usa una sequenza di 16 bit; in questo modo si possono codificare direttamente più di caratteri diversi
lezione 5 ascii e unicode universale semplice e diretto univoco uniforme (codifica a numero fisso di bit) in questo modo si possono codificare direttamente più di caratteri diversi Unicode si occupa di caratteri in quanto entità astratte (ad es. lettera latina maiuscola), ma non si occupa della loro resa grafica sullo schermo Unicode codifica anche simboli diacritici (tilde, umlaut, cediglia etc.) ed è in grado di combinare caratteri e simboli diacritici, così da poter codificare oltre un milione di grafemi distinti
lezione 5 la struttura di una parola adriatico codifica ASCII
lezione 5 ordinamento alfabetico ionio adriatico tirreno mediterraneo adriatico ionio mediterraneo tirreno
lezione 5 a d r i a t i c o i o n i o <? min a d r i a t i c o ordinamento alfabetico (II) la stringa che precede alfabeticamente è il risultato di una funzione di minino
lezione 5 diagramma di ordinamento i = i+1; NO SI i = N-1? i = 0; metti alli-esimo posto la stringa più piccola tra le ultime N-i stringhe metti alli-esimo posto la stringa più piccola tra le ultime N-i stringhe lista ordinata lista non ordinata di N stringhe lista non ordinata di N stringhe inizializzazione test istruzione (per saperne di più clicca sul box istruzione!) (fai click per far apparire gli altri passi)
lezione 5 passo di ordinamento stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; NO SI k = N? k = k+1; stringa i-esima < stringa k- esima? lista nuova inizializzazione test 1 test 2 NO k = i; SI istruzioni incremento (fai click per far apparire gli altri passi)
lezione 5 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = 1 stringa i-esima = stringa k-esima stringa k-esima = temp (fai click per far apparire gli altri passi)
lezione 5 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = k+1 k = 2 k = N? NO SI
lezione 5 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = k+1 k = 3 k = N? NO SI
lezione 5 corpus, testo e unità testuali
lezione 5 definizioni corpus: collezione di testi tra loro collegati da alcune caratteristiche rilevanti testo: elemento di base, tra le tanti possibili ripartizioni di un corpus, dotato di una sua omogeneità interna di contenuto o di stile unità testuale: frammento di testo individuato sulla base di criteri di struttura formale del testo, come ad esempio il capitolo, il paragrafo, la frase
lezione 5 quante parole compongono ununità di testo? ma cosè una parola? Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.
lezione 5 cosa contare? (nozioni di parola scritta) parola come sequenza di caratteri (forma) compresi tra delimitatori (ad es. due spazi bianchi) parola come unità morfosintatticamente atomica (ad es. ad hoc costituisce una parola sola in quanto i suoi costituenti non sono sintatticamente separabili) parola come esponente lessicale (o lemma; la forma calcio può realizzare diversi esponenti lessicali: verbo, nome_1 e nome_2)
lezione 5 ambiguità della nozione di token tipicamente un elemento di punteggiatura (virgola, punto e virgola, punto fermo) è considerato un delimitatore di token (e quindi non gli appartiene) ci sono casi però in cui questo non è vero numeri con la virgola: 13,05 date: sigle e abbreviazioni: O.N.U., sig.ra, S. Siro ecc. tokenizzare un testo significa segmentarlo in token attraverso regole che risolvono i casi ambigui
lezione 5 come contare? (occorrenza e tipo) il numero di occorrenze (o frequenza) della parola giornale in un testo è uguale a quante volte la stringa giornale appare in quel testo il numero di tipi (o cardinalità dellinsieme) di parole in un testo è uguale a quante parole diverse si trovano nel testo il numero totale di occorrenze in un testo è la lunghezza del testo misurata in parole il numero totale di tipi di parole in un testo è la grandezza del suo lessico
lezione 5 esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. numero di occorrenze di preposizioni: di2 per 1 con 1 numero di tipi di preposizioni3 numero totale di occorrenze di preposizioni4
lezione 5 esempio (II) Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il testo contiene 18 parole diverse (inclusa la punteggiatura) 1 parola con 2 occorrenze 17 parole con 1 occorrenza ciascuna
lezione 5 il vocabolario di esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il vocabolario V consiste di 18 parole diverse |V| = 18 chiamiamo V i la classe di parole che appaiono con frequenza i volte ciascuna nel testo allora |V |= |V 1 | + |V 2 | |V max |, dove max è la frequenza massima con cui una parola appare nel nostro testo
lezione 5 lunghezza di una parola e di un testo la lunghezza di una parola in caratteri è data dal numero di caratteri che la compongono la lunghezza di un testo in caratteri è data dal numero totale di occorrenze di caratteri nel testo la lunghezza media di una parola dato un testo è uguale alla lunghezza totale del testo in caratteri divisa per la lunghezza dello stesso testo in parole deviazione standard
lezione 5 lunghezza di una parola e di un testo (esempio)
lezione 5 lunghezza di frase una frase è una sequenza di parole che termina con un punto fermo la lunghezza di una frase in parole è uguale alla frequenza totale delle parole che la formano la lunghezza di una frase in caretteri è uguale alla frequenza totale dei caratteri che la formano dato un testo consistente di più frasi, la lunghezza media di frase in parole è uguale alla lunghezza del testo in parole divisa per il numero di frasi che lo costituiscono dato un testo consistente di più frasi, la lunghezza media di frase in caratteri è uguale alla lunghezza del testo in caratteri divisa per il numero di frasi che lo costituiscono
lezione 5 esempio Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. lunghezza frase 1: 14 parole lunghezza frase 2: 25 parole lunghezza media: (14+25)/2 = 19.5 parole deviazione standard:7.78
lezione 5 quantè ricco il lessico di un testo? il rapporto type/token Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. type/token ratio: rapporto tra cardinalità del lessico e frequenza globale del testo |V| / N 39/44 = < ( |V| / N )< 1
lezione 5 quantè ricco il lessico di un testo? il numero di hapax legomena Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V 1 |V 1 |/ N 40/44 = 0.91
lezione 5 laboratorio in linea
lezione 5 fine quinta lezione quinta lezione la matematica delle parole (lezione 6)