informatica di base per le discipline umanistiche

informatica di base per le discipline umanistiche
vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 6 (continua…)

sesta lezione: la codifica del testo
vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 6 (continua…)

La codifica digitale del testo
che tipo di rappresentazione digitale del testo? lezione 6 (continua…)

Il testo e la sua organizzazione
intestazione capitolo titolo testo lezione 6 (continua…)

Il testo e la sua struttura linguistica
sintagma nominale V andare pass. rem. 3 sing. frase relativa articolo indefinito femminile singolare stanze = oggetto di riscaldare stanza come luogo tutti = soggetto lezione 6 (continua…)

il testo come sequenza di caratteri
Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura. lezione 6 (continua…)

Il testo come sequenza di caratteri
“surrogato” parziale del testo originario completa equivalenza solo dal punto di vista dei caratteri che lo compongono perdita di informazione l’informazione implicitamente veicolata dalla formattazione del testo relativa a: le coordinate meta-testuali il nome dell’autore, il titolo, ecc. la struttura e organizzazione testuale la suddivisione logica in sezioni, capitoli, paragrafi, ecc. nessun guadagno di informazione l’informazione sulla struttura linguistica rimane implicita e nascosta (come nel testo originale) lezione 6 (continua…)

livelli di codifica del testo
codifica di basso livello (codifica di livello 0) riguarda la rappresentazione binaria della sequenza ordinata dei caratteri codifica di alto livello arricchisce il testo codificato al livello zero con informazione relativa a dimensioni strutturali organizzazione del testo in strutture macrotestuali articolazione del testo in strutture linguistiche La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico, si voglia associare al testo lezione 6 (continua…)

il primo passo: il livello 0
Il testo come sequenza di caratteri dietro le quinte… lezione 6 (continua…)

la codifica di alto livello
Il testo codificato al livello zero si presenta come un manoscritto in scriptio continua lezione 6 (continua…)

Codifica digitale di alto livello del testo
dietro all’analogia … Trascrizione di un testo a partire da un manoscritto in scriptio continua Codifica digitale di alto livello del testo entrambe rendono esplicito ciò che è congetturale e implicito con lo scopo di guidare il lettore (umano vs computer) nell’interpretazione del testo lezione 6 (continua…)

La codifica di alto livello
compito della codifica di alto livello: “dare forma” alla sequenza dei caratteri del testo rendendo esplicita l’informazione che è veicolata attraverso convenzioni tipografiche, testuali e linguistiche: informazioni sull’organizzazione del testo (parti, titoli, paragrafi) la conoscenza linguistica necessaria per la comprensione del testo (per es. la categoria grammaticale di ciascuna parola, o i costituenti sintattici in cui si articolano le frasi del testo) più in generale ogni interpretazione che si voglia affiancare al dato testuale tracciare “sentieri” di lettura all’interno del testo rendere machine readable informazioni sul testo e tratti del testo che altrimenti non sarebbero elaborabili dal computer lezione 6 (continua…)

i caratteri nel computer
MAESTRO CILIEGIA carattere 65 codice (decimale) del carattere codifica binaria del codice del carattere I computer elaborano internamente solo sequenze di bits (0,1) lezione 6 (continua…)

i caratteri nel computer
Repertorio di caratteri un insieme di caratteri (es. “A”, “a”, “!”, “à”, “P”, ecc.) i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati graficamente (gliphs) “a”, “a”, “a”, “a” sono tutti lo stesso carattere “a” la stessa realizzazione grafica può corrispondere a caratteri diversi (es. “A” latino e “A” cirillico e “A” greco) Set di caratteri (codice) una tabella che definisce una corrispondenza biunivoca (1-a-1) tra un repertorio di caratteri e un insieme di numeri interi non negativi a ogni carattere è assegnato un codice numerico (punto di codice o code position) Codifica di caratteri algoritmo che determina come i codici dei caratteri sono rappresentati in sequenze di bits (bytes) lezione 6 (continua…)

Il codice ASCII (torna alla lezione 3) Primo standard per l’assegnazione di codici a caratteri (dal 1963) set di caratteri riconosciuto da tutti i computer conosciuto come “ASCII Standard” o ISO-646 Codifica 7 bits ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bits in realtà 1 byte = 8 bits di cui un bit non è usato per la codifica (bit di parità) 7 bits = 27 punti di codice = 128 caratteri rappresentati Sufficiente per rappresentare l’inglese mancano i caratteri accentati, umlaut, ecc. per rappresentare altri alfabeti occidentali lezione 6 (continua…)

ASCII standard lezione 6 (continua…)

Il set di caratteri ISO-Latin-1
ISO-Latin-1 (ISO o ASCII esteso) unica estensione standard di ASCII 1 byte = 8 bits = 28 punti di codice = 256 caratteri rappresentati sufficiente per lingue europee occidentali (italiano, francese, ecc.) ASCII Standard Caratteri di controllo 0-32 lezione 6 (continua…)

La famiglia di caratteri ISO-8859
14 set di caratteri standardizzati da ISO (International Standard Organization) Codifica 1 byte = 256 caratteri rappresentati da ciascun set Soprainsiemi dei caratteri ASCII Standard punti di codice (parte comune) ASCII punti di codice codici di controllo (non corrispondono a caratteri grafici) punti di codice (parte variabile) caratteri aggiuntivi per greco, cirillico, lingue slave, arabo, ebraico, ecc. I set di ISO-8859 sono tutti reciprocamente incompatibili Punto di codice 232 ISO (Latin-1) = “è” ISO (greco moderno) = “θ” ISO-8859 non copre lingue come giapponese, cinese, ecc. lezione 6 (continua…)

The Universal Character Set UNICODE (ISO-10646)
Standard internazionale che permette di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti lingue europee, asiatiche, arabo, ebraico, cirillico, ugaritico, ecc. basato su principi di composizione dinamica dei caratteri ç = c + ¸ Assegna un numero di codice univoco ad ogni carattere “è” = 232 “θ” = 952 Risolve i problemi di incompatibilità dei sistemi ISO-8859 estende l’insieme dei caratteri supportati permette la realizzazione di documenti multilingui Unicode è un soprainsieme di ASCII lezione 6 (continua…)

UNICODE Circa 96.000 caratteri grafici rappresentati (Unicode v. 4.0)
… ma i punti di codice disponibili sono più di 1 milione !! Molteplici tipi di codifica: UCS-2, UCS-4, UTF-8, UTF-16, ecc. Codifica comune UTF-8 codifica di Unicode a lunghezza variabile che usa da 1 a 4 bytes per ogni carattere UTF-8 usa 1 byte per la codifica dei caratteri corrispondenti al set ASCII totale compatibilità con la codifica ASCII (…ma non con ISO-latin –1!!!) lezione 6 (continua…)

UNICODE (torna alla lezione 3) lezione 6 (continua…)

la struttura di una parola
c o 97 100 114 105 116 99 111 codice ASCII lezione 6 (continua…)

ordinamento alfabetico
ionio adriatico tirreno mediterraneo adriatico ionio mediterraneo tirreno lezione 6 (continua…)

ordinamento alfabetico (II)
<? a d r i t c o i o n a d r i t c o <? <? min la stringa che “precede” alfabeticamente è il risultato di una “funzione di minino” lezione 6 (continua…)

diagramma di ordinamento
inizializzazione lista non ordinata di N stringhe i = 0; NO SI’ i = N-1? lista ordinata metti all’i-esimo posto la stringa più piccola tra le ultime N-i stringhe test istruzione i = i+1; lezione 6 (fai click per continuare)

stringa i-esima < stringa k-esima?
passo di ordinamento k = i; inizializzazione incremento k = k+1; NO SI’ k = N? lista nuova SI’ stringa i-esima < stringa k-esima? test 1 NO test 2 stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; istruzioni lezione 6 (fai click per continuare)

esempio stringa i-esima < stringa k-esima? ionio adriatico tirreno mediterraneo i = 0 adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo k = 1 NO stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; temp = ionio stringa i-esima = stringa k-esima stringa k-esima = temp lezione 6 (fai click per continuare)

esempio stringa i-esima < stringa k-esima? ionio adriatico tirreno mediterraneo i = 0 adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo SI’ NO k = 2 stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; NO temp = ionio k = k+1 k = N? lezione 6 (fai click per continuare)

esempio (continua…) stringa i-esima < stringa k-esima? ionio adriatico tirreno mediterraneo i = 0 adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo SI’ NO esci stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; k = 3 NO temp = ionio k = k+1 k = N? SI’ lezione 6 (fai click per continuare)

corpus, testo e unità testuali
lezione 6 (continua…)

definizioni corpus: collezione di testi tra loro collegati da alcune caratteristiche rilevanti rispetto a un obiettivo di studio o ricerca testo: elemento di base, tra le tanti possibili ripartizioni di un corpus, dotato di una sua omogeneità interna di contenuto o di stile unità testuale: frammento di testo individuato sulla base di unità macro-strutturali e linguistiche quali, ad esempio, il capitolo, il paragrafo o la frase lezione 6 (continua…)

dati linguistici “controllati”
fonte di dati primaria per la linguistica formale “razionalista” di derivazione chomskiana obiettivo dell’indagine linguistica è ricostruire le conoscenze che i parlanti hanno della lingua indipendentemente dal modo in cui la usano i fenomeni tipici dell’uso linguistico sono considerati rumore da cui è necessario fare astrazione limiti e problemi dei dati controllati le intuizioni dei parlanti non sono sempre “chiare e distinte” “la ragazza che ci sono uscito ieri” (???) “la maggior parte di noi non leggono abbastanza” (???) esperimenti “in vitro” eccessivo grado di idealizzazione e astrazione rispetto all’uso effettivo del linguaggio lezione 6 (continua…)

dati linguistici “ecologici”
I corpora rappresentano fonti di dati linguistici “ecologici”, ovvero raccolti nei loro “habitat naturali” lingua scritta libri (saggistica, narrativa, poesia, ecc.), giornali, riviste, pagine Web, produzioni “effimere” ( , pubblicità, chat, volantini, ecc. lingua parlata (trascritta) notiziari radio-televisivi, conversazioni telefoniche, conversazioni faccia-a-faccia, ecc. lezione 6 (continua…)

tipologia ed uso principali usi dei corpora applicativo analitico
tipico dell’ingegneria del linguaggio, per progettare strumenti: dotati di conoscenze linguistiche direttamente ricavate da dati rappresentativi di un certo dominio o varietà di linguaggio “robusti” e ben adattati al linguaggio reale analitico per fondare analisi e descrizioni linguistiche sull’effettiva distribuzione delle costruzioni e fenomeni all’interno di un linguaggio, al fine di valutare ipotesi teoriche sulla sua forma ed organizzazione lezione 6 (continua…)

tipi di corpora corpus specialistico
orientato alla descrizione di una particolare varietà del linguaggio (sublanguage) o ad un ristretto dominio applicativo analisi della terminologia biomedica, ecc. linguaggio infantile linguaggio sportivo, economico, ecc. linguaggio patologico corpus generale o di riferimento (reference corpus) trasversale rispetto alle diverse varietà di un linguaggio L plurifunzionale orientato a rappresentare tutti gli aspetti caratteristici di L, proponendosi come risorsa di riferimento per la descrizione di L può essere organizzato in vari sottocorpora specializzati per varietà di L lezione 6 (continua…)

tipi di corpora corpus sincronico corpus diacronico corpus monolingue
descrive un particolare stadio del linguaggio (i testi appartengono tutti ad una stessa finestra temporale) corpus diacronico descrive il mutamento linguistico (i testi appartengono a diverse finestre temporali) corpus monolingue contiene testi di una sola lingua corpus bi/plurilingue corpus parallelo – lo stesso testo è rappresentato (in traduzione) in più di una lingua corpus allineato – ciascuna frase (parola) della lingua L1 è esplicitamente collegata col suo traducente nella lingua L2 corpus comparabile – testi in più lingue (non in traduzione) appartenenti alle stesse tipologie (ciascuna lingua è rappresentata da testi diversi) lezione 6 (continua…)

tipi di corpora corpus di scritto corpus di parlato corpus misto
solo testi di linguaggio scritto corpus di parlato solo trascrizioni di linguaggio parlato corpus misto testi scritti e trascrizioni di parlato (in proporzioni variabili) speech database campioni di linguaggio parlato in forma di segnale acustico (più eventualmente la trascrizione ortografica) corpus multimediale testi scritti, video, parlato in forma di segnato acustico, ecc. lezione 6 (continua…)

dimensione del corpus corpus chiuso
corpus standard tradizionale la quantità di testi e di parole è prefissata all’inizio del progetto corpus statico : “fotografa” un particolare stadio linguistico corpus aperto (monitor corpus, Sinclair 1991) nuovi testi sono continuamente aggiunti alla collezione, secondo le proporzioni decise in fase progettuale corpus dinamico, ideale per studiare l’evoluzione del linguaggio lezione 6 (continua…)

british national corpus (BNC)
Corpus del British English ( ) creato da un consorzio accademico (Oxford, Lancaster, ecc.) ed editoriale (Oxford University Press, Longman, ecc.) Dimensione: 100 milioni di parole Tratti caratteristici generale monolingue sincronico misto 90% testi scritti di vari generi 10% testi di parlato trascritto (conversazioni spontanee) lezione 6 (continua…)

parole corpora multilingue comparabili per 14 lingue europee
catalano, danese, finlandese, francese, francese belga, greco, inglese, irlandese, italiano, norvegese olandese, portoghese, svedese, tedesco tutti i corpora sono stati costruiti secondo criteri e specifiche uniformi PAROLE-Italiano ( ) realizzato presso l’ILC-CNR (Pisa) Dimensione: 21 milioni di parole tratte da testi scritti di vari generi (libri, giornali periodici, miscellanee) attualmente portate a oltre 70 milioni tratti caratteristici generale sincronico (internamente) monolingue lezione 6 (continua…)

parole lezione 6 (continua…)

corpora paralleli Canadian Hansard Corpus (2001)
1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese lezione 6 (continua…)

corpora paralleli MULTEXT (1996)
5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese) parole allineate a livello di frase (inglese come lingua “pivot”) lezione 6 (continua…)

sesta lezione la codifica del testo
fine sesta lezione (lezione 7) lezione 6

informatica di base per le discipline umanistiche

Presentazioni simili

Presentazione sul tema: "informatica di base per le discipline umanistiche"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

informatica di base per le discipline umanistiche

Presentazioni simili

Presentazione sul tema: "informatica di base per le discipline umanistiche"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back