lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia (continua…)
lezione 5 quinta lezione: la matematica delle parole vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia (continua…)
lezione 5 La codifica digitale del testo che tipo di rappresentazione digitale del testo? (continua…)
lezione 5 Il testo e la sua organizzazione titolo capitolo testo intestazione (continua…)
lezione 5 Il testo e la sua struttura linguistica frase relativa tutti = soggetto sintagma nominale articolo indefinito femminile singolare stanza come luogo V andare pass. rem. 3 sing. stanze = oggetto di riscaldare (continua…)
lezione 5 il testo come sequenza di caratteri Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura. (continua…)
lezione 5 Il testo come sequenza di caratteri surrogato parziale del testo originario completa equivalenza solo dal punto di vista dei caratteri che lo compongono perdita di informazione linformazione implicitamente veicolata dalla formattazione del testo relativa a: le coordinate meta-testuali –il nome dellautore, il titolo, ecc. la struttura e organizzazione testuale –la suddivisione logica in sezioni, capitoli, paragrafi, ecc. nessun guadagno di informazione linformazione sulla struttura linguistica rimane implicita e nascosta (come nel testo originale) (continua…)
lezione 5 livelli di codifica del testo codifica di basso livello (codifica di livello 0) riguarda la rappresentazione binaria della sequenza ordinata dei caratteri codifica di alto livello arricchisce il testo codificato al livello zero con informazione relativa a dimensioni strutturali organizzazione del testo in strutture macrotestuali articolazione del testo in strutture linguistiche La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico, si voglia associare al testo (continua…)
lezione 5 il primo passo: il livello 0 Il testo come sequenza di caratteri dietro le quinte… (continua…)
lezione 5 la codifica di alto livello Il testo codificato al livello zero si presenta come un manoscritto in scriptio continua (continua…)
lezione 5 Trascrizione di un testo a partire da un manoscritto in scriptio continua Codifica digitale di alto livello del testo entrambe rendono esplicito ciò che è congetturale e implicito con lo scopo di guidare il lettore (umano vs computer) nellinterpretazione del testo dietro allanalogia … (continua…)
lezione 5 La codifica di alto livello compito della codifica di alto livello: dare forma alla sequenza dei caratteri del testo rendendo esplicita linformazione che è veicolata attraverso convenzioni tipografiche, testuali e linguistiche: informazioni sullorganizzazione del testo (parti, titoli, paragrafi) la conoscenza linguistica necessaria per la comprensione del testo (per es. la categoria grammaticale di ciascuna parola, o i costituenti sintattici in cui si articolano le frasi del testo) più in generale ogni interpretazione che si voglia affiancare al dato testuale tracciare sentieri di lettura allinterno del testo rendere machine readable informazioni sul testo e tratti del testo che altrimenti non sarebbero elaborabili dal computer (continua…)
lezione 5 i caratteri nel computer A carattere 65 codice (decimale) del carattere codifica binaria del codice del carattere I computer elaborano internamente solo sequenze di bits (0,1) MAESTRO CILIEGIA (continua…)
lezione 5 i caratteri nel computer Repertorio di caratteri un insieme di caratteri (es. A, a, !, à, P, ecc.) i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati graficamente (gliphs) a, a, a, a sono tutti lo stesso carattere a la stessa realizzazione grafica può corrispondere a caratteri diversi (es. A latino e A cirillico e A greco) Set di carattere (codice) una tabella che definisce una corrispondenza biunivoca (1-a-1) tra un repertorio di caratteri e un insieme di numeri interi non negativi a ogni carattere è assegnato un codice numerico (punto di codice o code position) Codifica di carattere algoritmo che determina come i codici dei caratteri sono rappresentati in sequenze di bits (bytes) (continua…)
lezione 5 Il codice ASCII Primo standard per lassegnazione di codici a caratteri (dal 1963) set di caratteri riconosciuto da tutti i computer conosciuto come ASCII Standard o ISO-646 Codifica 7 bits ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bits in realtà 1 byte = 8 bits di cui un bit non è usato per la codifica (bit di parità) 7 bits = 2 7 punti di codice = 128 caratteri rappresentati Sufficiente per rappresentare linglese mancano i caratteri accentati, umlauts, ecc. per rappresentare altri alfabeti occidentali (torna alla lezione 3) (continua…)
lezione 5 ASCII standard (continua…)
lezione 5 Il set di caratteri ISO-Latin-1 ASCII Standard Caratteri di controllo ISO-Latin-1 (ISO o ASCII esteso) unica estensione standard di ASCII 1 byte = 8 bits = 2 8 punti di codice = 256 caratteri rappresentati sufficiente per lingue europee occidentali (italiano, francese, ecc.) (continua…)
lezione 5 La famiglia di caratteri ISO set di caratteri standardizzati da ISO (International Standard Organization) Codifica 1 byte = 256 caratteri rappresentati da ciascun set Soprainsiemi dei caratteri ASCII Standard punti di codice (parte comune) ASCII punti di codice codici di controllo (non corrispondono a caratteri grafici) punti di codice (parte variabile) caratteri aggiuntivi per greco, cirillico, lingue slave, arabo, ebraico, ecc. I set di ISO-8859 sono tutti reciprocamente incompatibili Punto di codice 232 ISO (Latin-1) = è ISO (Cyrillic) = ш ISO-8859 non copre lingue come giapponese, cinese, ecc. (continua…)
lezione 5 The Universal Character Set UNICODE (ISO-10646) Standard internazionale che permette di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti lingue europee, asiatiche, arabo, ebraico, cirillico, ugaritico, ecc. basato su principi di composizione dinamica dei caratteri ç = c + ¸ Assegna un numero di codice univoco ad ogni carattere è = 232 ш = 1096 Risolve i problemi di incompatibilità dei sistemi ISO-8859 estende linsieme dei caratteri supportati permette la realizzazione di documenti multilingui Unicode è un soprainsieme di ASCII (continua…)
lezione 5 UNICODE Circa caratteri grafici rappresentati (Unicode v. 4.0) … ma i punti di codice disponibili sono più di 1 milione !! Molteplici tipi di codifica: UCS-2, UCS-4, UTF-8, UTF-16, ecc. Codifica comune UTF-8 codifica di Unicode a lunghezza variabile che usa da 1 a 4 bytes per ogni carattere UTF-8 usa 1 byte per la codifica dei caratteri corrispondenti al set ASCII totale compatibilità con la codifica ASCII (…ma non con ISO-latin –1!!!) (continua…)
lezione 5 UNICODE (torna alla lezione 3) (continua…)
lezione 5 la struttura di una parola adriatico codice ASCII (continua…)
lezione 5 ordinamento alfabetico ionio adriatico tirreno mediterraneo adriatico ionio mediterraneo tirreno (continua…)
lezione 5 a d r i a t i c o i o n i o <? min a d r i a t i c o ordinamento alfabetico (II) la stringa che precede alfabeticamente è il risultato di una funzione di minino (continua…)
lezione 5 diagramma di ordinamento i = i+1; NO SI i = N-1? i = 0; metti alli-esimo posto la stringa più piccola tra le ultime N-i stringhe metti alli-esimo posto la stringa più piccola tra le ultime N-i stringhe lista ordinata lista non ordinata di N stringhe lista non ordinata di N stringhe inizializzazione test istruzione (fai click per continuare)
lezione 5 passo di ordinamento stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; NO SI k = N? k = k+1; stringa i-esima < stringa k- esima? lista nuova inizializzazione test 1 test 2 NO k = i; SI istruzioni incremento (fai click per continuare)
lezione 5 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = 1 stringa i-esima = stringa k-esima stringa k-esima = temp (fai click per continuare)
lezione 5 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = k+1 k = 2 k = N? NO SI (fai click per continuare)
lezione 5 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = k+1 k = 3 k = N? NO SI esci (fai click per continuare) (continua…)
lezione 5 corpus, testo e unità testuali (continua…)
lezione 5 definizioni corpus: collezione di testi tra loro collegati da alcune caratteristiche rilevanti rispetto a un obiettivo di studio o ricerca testo: elemento di base, tra le tanti possibili ripartizioni di un corpus, dotato di una sua omogeneità interna di contenuto o di stile unità testuale: frammento di testo individuato sulla base di unità macro-strutturali e linguistiche quali, ad esempio, il capitolo, il paragrafo o la frase (continua…)
lezione 5 dati linguistici controllati fonte di dati primaria per la linguistica formale razionalista di derivazione chomskiana obiettivo dellindagine linguistica è ricostruire le conoscenze che i parlanti hanno della lingua indipendentemente dal modo in cui la usano i fenomeni tipici delluso linguistico sono considerati rumore da cui è necessario fare astrazione limiti e problemi dei dati controllati le intuizioni dei parlanti non sono sempre chiare e distinte la ragazza che ci sono uscito ieri (???) la maggior parte di noi non leggono abbastanza (???) esperimenti in vitro eccessivo grado di idealizzazione e astrazione rispetto alluso effettivo del linguaggio (continua…)
lezione 5 dati linguistici ecologici I corpora rappresentano fonti di dati linguistici ecologici, ovvero raccolti nei loro habitat naturali lingua scritta libri (saggistica, narrativa, poesia, ecc.), giornali, riviste, pagine Web, produzioni effimere ( , pubblicità, chat, volantini, ecc. lingua parlata (trascritta) notiziari radio-televisivi, conversazioni telefoniche, conversazioni faccia- a-faccia, ecc. (continua…)
lezione 5 tipologia ed uso principali usi dei corpora applicativo tipico dellingegneria del linguaggio, per progettare strumenti: dotati di conoscenze linguistiche direttamente ricavate da dati rappresentativi di un certo dominio o varietà di linguaggio robusti e ben adattati al linguaggio reale analitico per fondare analisi e descrizioni linguistiche sulleffettiva distribuzione delle costruzioni e fenomeni allinterno di un linguaggio, al fine di valutare ipotesi teoriche sulla sua forma ed organizzazione (continua…)
lezione 5 tipi di corpora corpus specialistico orientato alla descrizione di una particolare varietà del linguaggio (sublanguage) o ad un ristretto dominio applicativo analisi della terminologia biomedica, ecc. linguaggio infantile linguaggio sportivo, economico, ecc. linguaggio patologico corpus generale o di riferimento (reference corpus) trasversale rispetto alle diverse varietà di un linguaggio L plurifunzionale orientato a rappresentare tutti gli aspetti caratteristici di L, proponendosi come risorsa di riferimento per la descrizione di L può essere organizzato in vari sottocorpora specializzati per varietà di L (continua…)
lezione 5 tipi di corpora corpus sincronico descrive un particolare stadio del linguaggio (i testi appartengono tutti ad una stessa finestra temporale) corpus diacronico descrive il mutamento linguistico (i testi appartengono a diverse finestre temporali) corpus monolingue contiene testi di una sola lingua corpus bi/plurilingue corpus parallelo – lo stesso testo è rappresentato (in traduzione) in più di una lingua corpus allineato – ciascuna frase (parola) della lingua L1 è esplicitamente collegata col suo traducente nella lingua L2 corpus comparabile – testi in più lingue (non in traduzione) appartenenti alle stesse tipologie (ciascuna lingua è rappresentata da testi diversi) (continua…)
lezione 5 tipi di corpora corpus di scritto solo testi di linguaggio scritto corpus di parlato solo trascrizioni di linguaggio parlato corpus misto testi scritti e trascrizioni di parlato (in proporzioni variabili) speech database campioni di linguaggio parlato in forma di segnale acustico (più eventualmente la trascrizione ortografica) corpus multimediale testi scritti, video, parlato in forma di segnato acustico, ecc. (continua…)
lezione 5 dimensione del corpus corpus chiuso corpus standard tradizionale la quantità di testi e di parole è prefissata allinizio del progetto corpus statico : fotografa un particolare stadio linguistico corpus aperto (monitor corpus, Sinclair 1991) nuovi testi sono continuamente aggiunti alla collezione, secondo le proporzioni decise in fase progettuale corpus dinamico, ideale per studiare levoluzione del linguaggio (continua…)
lezione 5 british national corpus (BNC) Corpus del British English ( ) creato da un consorzio accademico (Oxford, Lancaster, ecc.) ed editoriale (Oxford University Press, Longman, ecc.) Dimensione: 100 milioni di parole Tratti caratteristici generale monolingue sincronico misto 90% testi scritti di vari generi 10% testi di parlato trascritto (conversazioni spontanee) (continua…)
lezione 5 parole corpora multilingue comparabili per 14 lingue europee catalano, danese, finlandese, francese, francese belga, greco, inglese, irlandese, italiano, norvegese olandese, portoghese, svedese, tedesco tutti i corpora sono stati costruiti secondo criteri e specifiche uniformi PAROLE-Italiano ( ) realizzato presso lILC-CNR (Pisa) Dimensione: 21 milioni di parole tratte da testi scritti di vari generi (libri, giornali periodici, miscellanee) attualmente portate a oltre 70 milioni tratti caratteristici generale sincronico (internamente) monolingue dex.htm dex.htm (continua…)
lezione 5 parole (continua…)
lezione 5 corpora paralleli Canadian Hansard Corpus (2001) 1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese (continua…)
lezione 5 corpora paralleli MULTEXT (1996) 5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese) parole allineate a livello di frase (inglese come lingua pivot) (continua…)
lezione 5 quante parole compongono ununità di testo? ma cosè una parola? Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. (continua…)
lezione 5 cosa contare? (nozioni di parola scritta) parola come sequenza di caratteri (forma) compresi tra separatori (ad es. due spazi bianchi) parola come unità morfosintatticamente atomica (ad es. ad hoc costituisce una parola sola in quanto i suoi costituenti non sono sintatticamente separabili) parola come esponente lessicale (o lemma; la forma calcio può realizzare diversi esponenti lessicali: verbo, nome_1 e nome_2) (continua…)
lezione 5 il token unità di base per lanalisi linguistica parole (semplici e complesse) canteremo, darglielo, ad hoc sigle, acronimi, abbreviazioni, indirizzi Nato, ITA,H 2 0, corso Strada Nuova 2www.google.it numeri, formule e date , 28 agosto 1997, log 2 250, nomi propri Giovanni Paolo II, Poggio a Caiano punteggiatura ecc. 12 kg, 1 e 32 cent. (continua…)
lezione 5 il bestiario del testo L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del 17 maggio 1999, sul sostegno allo sviluppo rurale da parte del Fondo europeo agricolo di orientamento e garanzia (FEAOG), che modifica e abroga taluni regolamenti (GU L 161 del , pag. 1), … (continua…)
lezione 5 ambiguità nel token tipicamente un elemento di punteggiatura (virgola, punto e virgola, punto fermo) è considerato un separatore di token (e un token esso stesso) ci sono casi però in cui questo non è vero numeri con la virgola: 13,05 date: sigle e abbreviazioni: O.N.U., sig.ra, S. Siro ecc. tokenizzare un testo significa segmentarlo in token (parole unità) attraverso regole che risolvono i casi ambigui (continua…)
lezione 5 come contare? (unità e tipo) il numero di unità (o frequenza) della parola giornale in un testo è uguale a quante volte la stringa giornale appare in quel testo il numero di tipi (o cardinalità dellinsieme) di parole in un testo è uguale a quante parole diverse si trovano nel testo il numero totale di unità in un testo è la lunghezza del testo misurata in parole il numero totale di tipi di parole in un testo è la grandezza del suo vocabolario (continua…)
lezione 5 esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. numero di unità di preposizioni: di2 per 1 con 1 numero dei tipi di preposizioni3 numero totale di unità di preposizioni4 (continua…)
lezione 5 esempio (II) Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il testo contiene 19 parole unità (inclusa la punteggiatura) 1 parola tipo con 2 occorrenze 17 parole tipo con 1 occorrenza ciascuna (continua…)
lezione 5 il vocabolario di esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il vocabolario V consiste di 18 parole diverse |V| = 18 chiamiamo V i la classe di parole che appaiono con frequenza i volte ciascuna nel testo allora |V |= |V 1 | + |V 2 | |V max |, dove max è la frequenza massima con cui una parola appare nel nostro testo (continua…)
lezione 5 lunghezza di una parola e di un testo la lunghezza di una parola in caratteri è data dal numero di caratteri che la compongono la lunghezza di un testo in caratteri è data dal numero totale di occorrenze di caratteri nel testo la lunghezza media di una parola dato un testo è uguale alla lunghezza totale del testo in caratteri divisa per la lunghezza dello stesso testo in parole deviazione standard (continua…)
lezione 5 lunghezza di una parola e di un testo (esempio) (continua…)
lezione 5 lunghezza di frase una frase è una sequenza di parole che termina con un punto fermo la lunghezza di una frase in parole è uguale alla frequenza totale delle parole che la formano la lunghezza di una frase in caretteri è uguale alla frequenza totale dei caratteri che la formano dato un testo consistente di più frasi, la lunghezza media di frase in parole è uguale alla lunghezza del testo in parole divisa per il numero di frasi che lo costituiscono dato un testo consistente di più frasi, la lunghezza media di frase in caratteri è uguale alla lunghezza del testo in caratteri divisa per il numero di frasi che lo costituiscono (continua…)
lezione 5 esempio Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. lunghezza frase 1: 19 parole lunghezza frase 2: 25 parole lunghezza media di frase: (19+25)/2 = 22 parole deviazione standard:3 (continua…)
lezione 5 quantè ricco il vocabolario di un testo? il rapporto tipo/unità Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. rapporto tipo/unità: rapporto tra cardinalità del vocabolario e frequenza globale del testo |V| / N 40/44 = < ( |V| / N ) 1 (continua…)
lezione 5 quantè ricco il vocabolario di un testo? il numero di hapax legomena Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V 1 |V 1 |/ N 37/44 = 0.84 (continua…)
lezione 5 laboratorio in linea (continua…)
lezione 5 fine quinta lezione quinta lezione la matematica delle parole (lezione 6)