informatica di base per le discipline umanistiche

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

I dati Qualsiasi contenuto dell’esperienza.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta di un corpo circolare sommerso in un serbatoio 50 cm 28 cm Blocco circolare.
Strutture dati per insiemi disgiunti
Le distribuzioni di probabilità continue
I numeri naturali ….. Definizione e caratteristiche
SCALA INTERVALLO / A RAPPORTO
Modulo 4 – Seconda Parte Foglio Elettronico
Sistema di riferimento sulla retta
20 – Lincertezza di misura Tecnologie Informatiche per la Qualità Università degli Studi di Milano – Polo di Crema - Dipartimento di Tecnologie dellInformazione.
____________________
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
STATISTICA DESCRITTIVA
L’educazione matematica contribuisce all’educazione dell’individuo in modo da consentirgli di partecipare alla vita sociale con consapevolezza e capacità.
Informatica Generale Alessandra Di Pierro
COORDINATE POLARI Sia P ha coordinate cartesiane
DISEGNO TECNICO INDUSTRIALE
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Progetto Pilota 2 Lettura e interpretazione dei risultati
Sistemi e Tecnologie della Comunicazione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Statistica descrittiva
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Costrutti iterativi Marco D. Santambrogio – Ver. aggiornata al 9 Agosto 2013.
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Lab 2 – Info B Marco D. Santambrogio – Riccardo Cattaneo –
La distribuzione normale e normale standardizzata
Informatica di base A.A. 2003/2004 Algoritmi e programmi
Capitolo 9 Il problema della gestione di insiemi disgiunti (Union-find) Algoritmi e Strutture Dati.
Visualizzazione reportistica on-line dellindagine sullopinione degli studenti.
Corso di Informatica A.A Corso di Informatica Laurea Triennale - Comunicazione&Dams Dott.ssa Adriana Pietramala Dott.ssa.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Simulazione di un esperimento di laboratorio: Caduta di un corpo quadrato in.
Istruzioni di selezione in Java Programmazione Corso di laurea in Informatica.
Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 3 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
informatica di base per le discipline umanistiche
Lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 4 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 3 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Misurazione Le osservazioni si esprimono in forma di misurazioni
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
EXCEL FORMATTAZIONE DATI.
2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.
Le operazioni con i numeri
Elementi di Informatica di base
Statistica descrittiva
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
"Questionario MacArthur"
La natura duale della luce
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Pippo.
Vertici, spigoli e facce di cubi a più dimensioni
Monitoraggio verifiche di Istituto
Lez. 3 - Gli Indici di VARIABILITA’
TRASFORMATA DI FOURIER
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Lab 3: 31 Marzo 2014 Marco D. Santambrogio – Gianluca Durelli –
Gli indici di dispersione
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Strumenti statistici in Excell
1 Scrivere su web 1. 2 Ci occuperemo di: Analisi dell’emittente e dell’audience Testo e paratesto Contenuti Disposizione in pagina.
DEFINIZIONE. La statistica è la disciplina che si occupa della raccolta di dati quantitativi relativi a diversi fenomeni, della loro elaborazione e del.
Transcript della presentazione:

informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 7 (continua…)

settima lezione: la matematica delle parole vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 7 (continua…)

quante parole compongono un’unità di testo? Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. ma cos’è una “parola”? lezione 7 (continua…)

cosa contare? (nozioni di “parola scritta”) parola come sequenza di caratteri (forma) compresi tra “separatori” (ad es. due spazi bianchi) parola come unità morfosintatticamente atomica (ad es. “ad hoc” costituisce una parola sola in quanto i suoi costituenti non sono sintatticamente “separabili”) parola come esponente lessicale (o “lemma”; la forma calcio può realizzare diversi esponenti lessicali: verbo, nome_1 e nome_2) lezione 7 (continua…)

unità di base per l‘analisi linguistica il “token” unità di base per l‘analisi linguistica parole unità (semplici e complesse) canteremo, darglielo, ad hoc sigle, acronimi, abbreviazioni, indirizzi Nato, ITA,H20, www.google.it, corso Strada Nuova 2 numeri, formule e date 5.4.2005, 28 agosto 1997, log2250, 050 31528 nomi propri Giovanni Paolo II, Poggio a Caiano punteggiatura ecc. 12 kg, 1€ e 32 cent. lezione 7 (continua…)

il “bestiario” del testo L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del 17 maggio 1999, sul sostegno allo sviluppo rurale da parte del Fondo europeo agricolo di orientamento e garanzia (FEAOG), che modifica e abroga taluni regolamenti (GU L 161 del 26.6.1999, pag. 1), … lezione 7 (continua…)

ambiguità nel token tipicamente un elemento di punteggiatura (virgola, punto e virgola, punto fermo) è considerato un separatore di token (e un token esso stesso) ci sono casi però in cui questo non è vero numeri con la virgola: 13,05 date: 18.3.2003 sigle e abbreviazioni: O.N.U., sig.ra, S. Siro ecc. tokenizzare un testo significa segmentarlo in token attraverso regole che risolvono i casi ambigui lezione 7 (continua…)

come contare? (parole unità e parole tipo) il numero di unità (o frequenza) della parola giornale in un testo è uguale a quante volte la stringa giornale appare in quel testo il numero totale di parole unità in un testo è la lunghezza del testo misurata in parole il numero di parole tipo (o cardinalità dell‘insieme) di parole in un testo è uguale a quante parole diverse si trovano nel testo il numero totale di parole tipo in un testo è la grandezza del suo vocabolario lezione 7 (continua…)

esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. numero di parole unità con categoria “preposizione”: di 2 per 1 con 1 numero delle parole tipo con categoria “preposizione” 3 numero totale di parole unità con categoria “preposizione” 4 lezione 7 (continua…)

esempio (II) il testo contiene Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il testo contiene 17 “parole unità” (è esclusa la punteggiatura) 1 parola tipo con 2 occorrenze 15 parole tipo con 1 occorrenza ciascuna lezione 7 (continua…)

il vocabolario di “esempio” Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il vocabolario V consiste di 16 “parole” diverse |V| = 16 chiamiamo Vi la classe di parole che appaiono con frequenza i volte ciascuna nel testo allora |V |= |V1| + |V2| +...+ |Vmax|, dove max è la frequenza massima con cui una parola appare nel nostro testo lezione 7 (continua…)

frequenze e distribuzioni misura lunghezza l di ogni parola raggruppa tra loro le parole con la stessa l conta quante parole cadono in ciascun raggruppamento riporta i valori di l sull’asse delle X riporta le frequenze contate in 3 sull’asse delle Y lezione 7 (continua…)

distribuzioni … lezione 7 (continua…)

lunghezza di una parola e lunghezza di un testo la lunghezza di una parola in caratteri è data dal numero di caratteri che la compongono la lunghezza di un testo in caratteri è data dal numero totale di occorrenze di caratteri nel testo la lunghezza media di una parola dato un testo è uguale alla lunghezza totale del testo in caratteri divisa per la lunghezza dello stesso testo in parole lezione 7 (continua…)

la deviazione standard è una funzione degli “scarti quadratici” dalla media, presa come punto di riferimento dell’intera distribuzione se tutte le nostre unità avessero la stessa lunghezza l, allora lunghezza media = l e  = 0  è in grado di quantificare quanto è disomogenea la distribuzione lezione 7 (continua…)

un esempio lezione 7 (continua…)

lunghezza di frase una frase è una sequenza di parole che termina con un punto fermo la lunghezza di una frase in parole è uguale alla frequenza totale delle parole che la formano la lunghezza di una frase in caretteri è uguale alla frequenza totale dei caratteri che la formano dato un testo consistente di più frasi, la lunghezza media di frase in parole è uguale alla lunghezza del testo in parole divisa per il numero di frasi che lo costituiscono dato un testo consistente di più frasi, la lunghezza media di frase in caratteri è uguale alla lunghezza del testo in caratteri divisa per il numero di frasi che lo costituiscono lezione 7 (continua…)

esempio lunghezza frase 1: 17 “parole” lunghezza frase 2: 23 “parole” Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. lunghezza frase 1: 17 “parole” lunghezza frase 2: 23 “parole” lunghezza media di frase: (17+23)/2 = 20 “parole” deviazione standard: 3 lezione 7 (continua…)

quant’è ricco il vocabolario di un testo? il rapporto “tipo/unità” Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. “rapporto tipo/unità”: rapporto tra cardinalità del vocabolario e lunghezza del testo in parole |V| / |T| 37/40 = 0.925 0 < ( |V| / |T| )  1 lezione 7 (continua…)

quant’è ricco il vocabolario di un testo? il numero di “hapax legomena” Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V1 |V1|/ N 35/40 = 0.875 0 < |V1|/ N  |V| / N  1 lezione 7 (continua…)

lo spettro delle frequenze riporta sull’asse delle X le classi di freq per valori crescenti riporta sull’asse delle Y quante parole tipo hanno frequenza i = | Vi | lezione 7 (continua…)

le frequenze cumulate … calcola quante sono le parole tipo (unità) che appaiono non più di i volte nel testo: Fci dividi Fci per |V | (o per |T|) riporta sull’asse delle X le classi di freq per valori crescenti riporta sull’asse delle Y i valori calcolati in 2. lezione 7 (continua…)

le frequenze cumulate (II) lezione 7 (continua…)

la legge di Zipf all‘interno di una porzione di testo, esiste una correlazione inversa tra le frequenza di una parola e la sua posizione relativa (rango) in una lista di parole che va dalla più frequente alla meno frequente lezione 7 (continua…)

Zipf in Pinocchio rango forma frequenza rango forma frequenza 1 e 1752 16 ma 290 2 di 1338 17 i 283 3 che 1019 18 come 234 4 a 932 19 da 233 5 il 925 20 io 225 6 la 711 21 mi 219 7 un 708 22 le 211 8 non 507 23 più 210 9 per 481 24 l' 206 10 in 453 25 disse 202 11 Pinocchio 415 26 lo 199 12 si 393 27 burattino 195 13 gli 364 28 se 189 14 una 360 29 con 188 15 è 296 30 era 185 lezione 7 (continua…)

Zipf (II) lezione 7 (continua…)

Zipf (III) su doppia scala logaritmica la legge di Zipf dà origine a una retta inclinata verso il basso .... (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 7 (continua…)

la famiglia “Zipf” coefficiente  come indice inverso di ricchezza lessicale lezione 7 (continua…)

logaritmo e funzione esponenziale lezione 7 (continua…)

conseguenze della scala logaritmica le potenze di 10 vengono compresse in un intervallo unitario il livello di compressione cresce al crescere della potenza lezione 7 (fine excursus)

laboratorio in linea http://foxdrake.ilc.cnr.it/webtools/ lezione 7 (continua…)

settima lezione la matematica delle parole fine settima lezione (lezione 8) lezione 7