Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

Slides:



Advertisements
Presentazioni simili
Introduzione al linguaggio C++
Advertisements

Teoria e Tecniche del Riconoscimento
Insegnamento delle discipline e sviluppo delle competenze IL NUOVO IT IN CLASSE Renzo Vanetti Ischia 27 settembre 2010
Informatica Generale Marzia Buscemi
Informatica Generale Susanna Pelagatti
Rappresentazione dei dati e codifica delle informazioni
CODIFICA DELLE INFORMAZIONI
Milano, 6 marzo 2008 Informazione logica e testuale Goffredo Haus LIM - Laboratorio di Informatica Musicale, scientific director Dipartimento di Informatica.
Tecniche di compressione dei dati
Vincenza Ferrara dicembre 2007 Fondamenti di Matematica e Informatica Laboratorio Informatica I anno a.a
1 Informatica Generale Susanna Pelagatti Ricevimento: Mercoledì ore presso Dipartimento di Informatica, Via Buonarroti,
Laboratorio Matematica e Informatica
Codifica dell’ Informazione non numerica
Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.
Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.
Laboratorio di Linguaggi lezione III: tipi base, espressioni, type-cast Marco Tarini Università dellInsubria Facoltà di Scienze Matematiche, Fisiche e.
Laboratorio di Linguaggi lezione III Marco Tarini Università dellInsubria Facoltà di Scienze Matematiche, Fisiche e Naturali di Varese Corso di Laurea.
Corso di Informatica (Basi di Dati)
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Rappresentazione dellinformazione su calcolatore Anno Accademico 2009/2010.
Corso di Informatica (Programmazione)
Algoritmi e strutture dati
Corso di Informatica per Giurisprudenza
Funzioni di Libreria per le stringhe DICHIARAZIONI CONTENUTE NEL FILE: char *strcpy( char *dest, const char *sorg ); Copia sorg in dest, incluso il carattere.
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA B
La rappresentazione dellinformazione. 7-2 Digitalizzare linformazione Digitalizzare: rappresentare linformazione per mezzo di cifre (ad es: da 0 a 9)
M&R Corrispondenze e codici Il Codice Braille Unità di URBINO
Lezione 2 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 3 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
informatica di base per le discipline umanistiche
Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
informatica di base per le discipline umanistiche
informatica di base per le discipline umanistiche
informatica di base per le discipline umanistiche
Lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 4 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 7 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 3 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Java base I: Sintassi e tipi di dati
Programmazione in Java Claudia Raibulet
Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
Programma del corso Introduzione agli algoritmi Rappresentazione delle Informazioni Architettura del calcolatore Reti di Calcolatori (Reti Locali, Internet)
Scritture Segrete Lezione n. 2
RAPPRESENTAZIONE DELL'INFORMAZIONE
Che cos’è un sistema di numerazione?
CONCETTI DI BASE 1.0 FONDAMENTI 1.1 HARDWARE 1.2 SOFTWARE 1.3 RETI
Digitale!!. Musica satellite (TV GPS) Telefoni rete telefonica, internet Video (DVD)
Codifica dei dati in un elaboratore elettronico
Codifica dell’informazione
Giambattista Salinari Dipartimento di Statistica di Firenze
I computer vengono utilizzati per automatizzare la soluzione di problemi di varia natura trattando le informazioni in entrata (DATI) eseguendo gli opportuni.
Codifica dell’informazione

Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Informatica Lezione 1 Scienze e tecniche psicologiche dello sviluppo e dell'educazione Anno accademico:
Tecnologie Informatiche ed Elettroniche per le Produzioni Animali (corso TIE) CORSO LAUREA MAGISTRALE IN SCIENZE E TECNOLOGIE DELLE PRODUZIONI ANIMALI.
Corsi di Laurea in Biotecnologie
INFORmazione autoMATICA
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Codifica binaria dell’informazione Marco D. Santambrogio – Ver. aggiornata al 11.
Rappresentazione della Informazione
Corso di Laurea in Scienze e Tecnologie Chimiche corso di Informatica Generale Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
I set di caratteri Fabio Vitali. Fabio Vitali - Almaweb Introduzione Qui esaminiamo in breve: Il problema della codifica dei caratteri ASCII (7.
La Rappresentazione dell’Informazione
Corso di Laurea Ingegneria Informatica Fondamenti di Informatica
Codifica binaria dell’informazione
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Codifica binaria dell’informazione Marco D. Santambrogio – Ver. aggiornata al 24.
“ Pseudocodice ” Un programma per computer lavorerà su in insieme di “ variabili ” contenenti i dati del problema, soluzioni intermedie, soluzioni finali.
© 2015 Giorgio Porcu - Aggiornamennto 01/12/2015 I STITUTO T ECNICO SECONDO BIENNIO T ECNOLOGIE E P ROGETTAZIONE Rappresentazione dell’ Informazione Informazione.
La rappresentazione delle informazioni
Transcript della presentazione:

lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia

lezione 5 quinta lezione: la matematica delle parole vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia

lezione 5 livelli di analisi del testo Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri posti di blocco e perquisizioni Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri posti di blocco e perquisizioni Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.

lezione 5 ascii e unicode

lezione 5 ascii e unicode consente la codifica di tutti i caratteri scritti esistenti al mondo; non ricorre a combinazioni di più tasti battuti in sequenza; tratta tutti i caratteri, siano essi alfabetici che ideografici, allo stesso modo; per identificare ciascun carattere Unicode usa una sequenza di 16 bit; in questo modo si possono codificare direttamente più di caratteri diversi

lezione 5 ascii e unicode universale semplice e diretto univoco uniforme (codifica a numero fisso di bit) in questo modo si possono codificare direttamente più di caratteri diversi Unicode si occupa di caratteri in quanto entità astratte (ad es. lettera latina maiuscola), ma non si occupa della loro resa grafica sullo schermo Unicode codifica anche simboli diacritici (tilde, umlaut, cediglia etc.) ed è in grado di combinare caratteri e simboli diacritici, così da poter codificare oltre un milione di grafemi distinti

lezione 5 la struttura di una parola adriatico codifica ASCII

lezione 5 ordinamento alfabetico ionio adriatico tirreno mediterraneo adriatico ionio mediterraneo tirreno

lezione 5 a d r i a t i c o i o n i o <? min a d r i a t i c o ordinamento alfabetico (II) la stringa che precede alfabeticamente è il risultato di una funzione di minino

lezione 5 diagramma di ordinamento i = i+1; NO SI i = N-1? i = 0; metti alli-esimo posto la stringa più piccola tra le ultime N-i stringhe metti alli-esimo posto la stringa più piccola tra le ultime N-i stringhe lista ordinata lista non ordinata di N stringhe lista non ordinata di N stringhe inizializzazione test istruzione (per saperne di più clicca sul box istruzione!) (fai click per far apparire gli altri passi)

lezione 5 passo di ordinamento stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; NO SI k = N? k = k+1; stringa i-esima < stringa k- esima? lista nuova inizializzazione test 1 test 2 NO k = i; SI istruzioni incremento (fai click per far apparire gli altri passi)

lezione 5 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = 1 stringa i-esima = stringa k-esima stringa k-esima = temp (fai click per far apparire gli altri passi)

lezione 5 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = k+1 k = 2 k = N? NO SI

lezione 5 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = k+1 k = 3 k = N? NO SI

lezione 5 corpus, testo e unità testuali

lezione 5 definizioni corpus: collezione di testi tra loro collegati da alcune caratteristiche rilevanti testo: elemento di base, tra le tanti possibili ripartizioni di un corpus, dotato di una sua omogeneità interna di contenuto o di stile unità testuale: frammento di testo individuato sulla base di criteri di struttura formale del testo, come ad esempio il capitolo, il paragrafo, la frase

lezione 5 quante parole compongono ununità di testo? ma cosè una parola? Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.

lezione 5 cosa contare? (nozioni di parola scritta) parola come sequenza di caratteri (forma) compresi tra delimitatori (ad es. due spazi bianchi) parola come unità morfosintatticamente atomica (ad es. ad hoc costituisce una parola sola in quanto i suoi costituenti non sono sintatticamente separabili) parola come esponente lessicale (o lemma; la forma calcio può realizzare diversi esponenti lessicali: verbo, nome_1 e nome_2)

lezione 5 ambiguità della nozione di token tipicamente un elemento di punteggiatura (virgola, punto e virgola, punto fermo) è considerato un delimitatore di token (e quindi non gli appartiene) ci sono casi però in cui questo non è vero numeri con la virgola: 13,05 date: sigle e abbreviazioni: O.N.U., sig.ra, S. Siro ecc. tokenizzare un testo significa segmentarlo in token attraverso regole che risolvono i casi ambigui

lezione 5 come contare? (occorrenza e tipo) il numero di occorrenze (o frequenza) della parola giornale in un testo è uguale a quante volte la stringa giornale appare in quel testo il numero di tipi (o cardinalità dellinsieme) di parole in un testo è uguale a quante parole diverse si trovano nel testo il numero totale di occorrenze in un testo è la lunghezza del testo misurata in parole il numero totale di tipi di parole in un testo è la grandezza del suo lessico

lezione 5 esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. numero di occorrenze di preposizioni: di2 per 1 con 1 numero di tipi di preposizioni3 numero totale di occorrenze di preposizioni4

lezione 5 esempio (II) Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il testo contiene 18 parole diverse (inclusa la punteggiatura) 1 parola con 2 occorrenze 17 parole con 1 occorrenza ciascuna

lezione 5 il vocabolario di esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il vocabolario V consiste di 18 parole diverse |V| = 18 chiamiamo V i la classe di parole che appaiono con frequenza i volte ciascuna nel testo allora |V |= |V 1 | + |V 2 | |V max |, dove max è la frequenza massima con cui una parola appare nel nostro testo

lezione 5 lunghezza di una parola e di un testo la lunghezza di una parola in caratteri è data dal numero di caratteri che la compongono la lunghezza di un testo in caratteri è data dal numero totale di occorrenze di caratteri nel testo la lunghezza media di una parola dato un testo è uguale alla lunghezza totale del testo in caratteri divisa per la lunghezza dello stesso testo in parole deviazione standard

lezione 5 lunghezza di una parola e di un testo (esempio)

lezione 5 lunghezza di frase una frase è una sequenza di parole che termina con un punto fermo la lunghezza di una frase in parole è uguale alla frequenza totale delle parole che la formano la lunghezza di una frase in caretteri è uguale alla frequenza totale dei caratteri che la formano dato un testo consistente di più frasi, la lunghezza media di frase in parole è uguale alla lunghezza del testo in parole divisa per il numero di frasi che lo costituiscono dato un testo consistente di più frasi, la lunghezza media di frase in caratteri è uguale alla lunghezza del testo in caratteri divisa per il numero di frasi che lo costituiscono

lezione 5 esempio Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. lunghezza frase 1: 14 parole lunghezza frase 2: 25 parole lunghezza media: (14+25)/2 = 19.5 parole deviazione standard:7.78

lezione 5 quantè ricco il lessico di un testo? il rapporto type/token Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. type/token ratio: rapporto tra cardinalità del lessico e frequenza globale del testo |V| / N 39/44 = < ( |V| / N )< 1

lezione 5 quantè ricco il lessico di un testo? il numero di hapax legomena Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V 1 |V 1 |/ N 40/44 = 0.91

lezione 5 laboratorio in linea

lezione 5 fine quinta lezione quinta lezione la matematica delle parole (lezione 6)