La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

Presentazioni simili


Presentazione sul tema: "Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università"— Transcript della presentazione:

1 lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia (continua…)

2 lezione 6 sesta lezione: la codifica del testo vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia (continua…)

3 lezione 6 La codifica digitale del testo che tipo di rappresentazione digitale del testo? (continua…)

4 lezione 6 Il testo e la sua organizzazione titolo capitolo testo intestazione (continua…)

5 lezione 6 Il testo e la sua struttura linguistica frase relativa tutti = soggetto sintagma nominale articolo indefinito femminile singolare stanza come luogo V andare pass. rem. 3 sing. stanze = oggetto di riscaldare (continua…)

6 lezione 6 il testo come sequenza di caratteri Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura. (continua…)

7 lezione 6 Il testo come sequenza di caratteri surrogato parziale del testo originario completa equivalenza solo dal punto di vista dei caratteri che lo compongono perdita di informazione linformazione implicitamente veicolata dalla formattazione del testo relativa a: le coordinate meta-testuali –il nome dellautore, il titolo, ecc. la struttura e organizzazione testuale –la suddivisione logica in sezioni, capitoli, paragrafi, ecc. nessun guadagno di informazione linformazione sulla struttura linguistica rimane implicita e nascosta (come nel testo originale) (continua…)

8 lezione 6 livelli di codifica del testo codifica di basso livello (codifica di livello 0) riguarda la rappresentazione binaria della sequenza ordinata dei caratteri codifica di alto livello arricchisce il testo codificato al livello zero con informazione relativa a dimensioni strutturali organizzazione del testo in strutture macrotestuali articolazione del testo in strutture linguistiche La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico, si voglia associare al testo (continua…)

9 lezione 6 il primo passo: il livello 0 Il testo come sequenza di caratteri dietro le quinte… (continua…)

10 lezione 6 la codifica di alto livello Il testo codificato al livello zero si presenta come un manoscritto in scriptio continua (continua…)

11 lezione 6 Trascrizione di un testo a partire da un manoscritto in scriptio continua Codifica digitale di alto livello del testo entrambe rendono esplicito ciò che è congetturale e implicito con lo scopo di guidare il lettore (umano vs computer) nellinterpretazione del testo dietro allanalogia … (continua…)

12 lezione 6 La codifica di alto livello compito della codifica di alto livello: dare forma alla sequenza dei caratteri del testo rendendo esplicita linformazione che è veicolata attraverso convenzioni tipografiche, testuali e linguistiche: informazioni sullorganizzazione del testo (parti, titoli, paragrafi) la conoscenza linguistica necessaria per la comprensione del testo (per es. la categoria grammaticale di ciascuna parola, o i costituenti sintattici in cui si articolano le frasi del testo) più in generale ogni interpretazione che si voglia affiancare al dato testuale tracciare sentieri di lettura allinterno del testo rendere machine readable informazioni sul testo e tratti del testo che altrimenti non sarebbero elaborabili dal computer (continua…)

13 lezione 6 i caratteri nel computer A carattere 65 codice (decimale) del carattere codifica binaria del codice del carattere I computer elaborano internamente solo sequenze di bits (0,1) MAESTRO CILIEGIA (continua…)

14 lezione 6 i caratteri nel computer Repertorio di caratteri un insieme di caratteri (es. A, a, !, à, P, ecc.) i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati graficamente (gliphs) a, a, a, a sono tutti lo stesso carattere a la stessa realizzazione grafica può corrispondere a caratteri diversi (es. A latino e A cirillico e A greco) Set di caratteri (codice) una tabella che definisce una corrispondenza biunivoca (1-a-1) tra un repertorio di caratteri e un insieme di numeri interi non negativi a ogni carattere è assegnato un codice numerico (punto di codice o code position) Codifica di caratteri algoritmo che determina come i codici dei caratteri sono rappresentati in sequenze di bits (bytes) (continua…)

15 lezione 6 Il codice ASCII Primo standard per lassegnazione di codici a caratteri (dal 1963) set di caratteri riconosciuto da tutti i computer conosciuto come ASCII Standard o ISO-646 Codifica 7 bits ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bits in realtà 1 byte = 8 bits di cui un bit non è usato per la codifica (bit di parità) 7 bits = 2 7 punti di codice = 128 caratteri rappresentati Sufficiente per rappresentare linglese mancano i caratteri accentati, umlaut, ecc. per rappresentare altri alfabeti occidentali (torna alla lezione 3) (continua…)

16 lezione 6 ASCII standard (continua…)

17 lezione 6 Il set di caratteri ISO-Latin-1 ASCII Standard Caratteri di controllo ISO-Latin-1 (ISO o ASCII esteso) unica estensione standard di ASCII 1 byte = 8 bits = 2 8 punti di codice = 256 caratteri rappresentati sufficiente per lingue europee occidentali (italiano, francese, ecc.) (continua…)

18 lezione 6 La famiglia di caratteri ISO set di caratteri standardizzati da ISO (International Standard Organization) Codifica 1 byte = 256 caratteri rappresentati da ciascun set Soprainsiemi dei caratteri ASCII Standard punti di codice (parte comune) ASCII punti di codice codici di controllo (non corrispondono a caratteri grafici) punti di codice (parte variabile) caratteri aggiuntivi per greco, cirillico, lingue slave, arabo, ebraico, ecc. I set di ISO-8859 sono tutti reciprocamente incompatibili Punto di codice 232 ISO (Latin-1) = è ISO (greco moderno) = θ ISO-8859 non copre lingue come giapponese, cinese, ecc. (continua…)

19 lezione 6 The Universal Character Set UNICODE (ISO-10646) Standard internazionale che permette di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti lingue europee, asiatiche, arabo, ebraico, cirillico, ugaritico, ecc. basato su principi di composizione dinamica dei caratteri ç = c + ¸ Assegna un numero di codice univoco ad ogni carattere è = 232 θ = 952 Risolve i problemi di incompatibilità dei sistemi ISO-8859 estende linsieme dei caratteri supportati permette la realizzazione di documenti multilingui Unicode è un soprainsieme di ASCII (continua…)

20 lezione 6 UNICODE Circa caratteri grafici rappresentati (Unicode v. 4.0) … ma i punti di codice disponibili sono più di 1 milione !! Molteplici tipi di codifica: UCS-2, UCS-4, UTF-8, UTF-16, ecc. Codifica comune UTF-8 codifica di Unicode a lunghezza variabile che usa da 1 a 4 bytes per ogni carattere UTF-8 usa 1 byte per la codifica dei caratteri corrispondenti al set ASCII totale compatibilità con la codifica ASCII (…ma non con ISO-latin –1!!!) (continua…)

21 lezione 6 UNICODE (torna alla lezione 3) (continua…)

22 lezione 6 la struttura di una parola adriatico codice ASCII (continua…)

23 lezione 6 ordinamento alfabetico ionio adriatico tirreno mediterraneo adriatico ionio mediterraneo tirreno (continua…)

24 lezione 6 a d r i a t i c o i o n i o

25 lezione 6 diagramma di ordinamento i = i+1; NO SI i = N-1? i = 0; metti alli-esimo posto la stringa più piccola tra le ultime N-i stringhe metti alli-esimo posto la stringa più piccola tra le ultime N-i stringhe lista ordinata lista non ordinata di N stringhe lista non ordinata di N stringhe inizializzazione test istruzione (fai click per continuare)

26 lezione 6 passo di ordinamento stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; NO SI k = N? k = k+1; stringa i-esima < stringa k- esima? lista nuova inizializzazione test 1 test 2 NO k = i; SI istruzioni incremento (fai click per continuare)

27 lezione 6 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = 1 stringa i-esima = stringa k-esima stringa k-esima = temp (fai click per continuare)

28 lezione 6 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = k+1 k = 2 k = N? NO SI (fai click per continuare)

29 lezione 6 esempio NO ionio adriatico tirreno mediterraneo stringa i-esima < stringa k- esima? stringa temp = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; temp = ionio adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo i = 0 k = k+1 k = 3 k = N? NO SI esci (fai click per continuare) (continua…)

30 lezione 6 corpus, testo e unità testuali (continua…)

31 lezione 6 definizioni corpus: collezione di testi tra loro collegati da alcune caratteristiche rilevanti rispetto a un obiettivo di studio o ricerca testo: elemento di base, tra le tanti possibili ripartizioni di un corpus, dotato di una sua omogeneità interna di contenuto o di stile unità testuale: frammento di testo individuato sulla base di unità macro-strutturali e linguistiche quali, ad esempio, il capitolo, il paragrafo o la frase (continua…)

32 lezione 6 dati linguistici controllati fonte di dati primaria per la linguistica formale razionalista di derivazione chomskiana obiettivo dellindagine linguistica è ricostruire le conoscenze che i parlanti hanno della lingua indipendentemente dal modo in cui la usano i fenomeni tipici delluso linguistico sono considerati rumore da cui è necessario fare astrazione limiti e problemi dei dati controllati le intuizioni dei parlanti non sono sempre chiare e distinte la ragazza che ci sono uscito ieri (???) la maggior parte di noi non leggono abbastanza (???) esperimenti in vitro eccessivo grado di idealizzazione e astrazione rispetto alluso effettivo del linguaggio (continua…)

33 lezione 6 dati linguistici ecologici I corpora rappresentano fonti di dati linguistici ecologici, ovvero raccolti nei loro habitat naturali lingua scritta libri (saggistica, narrativa, poesia, ecc.), giornali, riviste, pagine Web, produzioni effimere ( , pubblicità, chat, volantini, ecc. lingua parlata (trascritta) notiziari radio-televisivi, conversazioni telefoniche, conversazioni faccia- a-faccia, ecc. (continua…)

34 lezione 6 tipologia ed uso principali usi dei corpora applicativo tipico dellingegneria del linguaggio, per progettare strumenti: dotati di conoscenze linguistiche direttamente ricavate da dati rappresentativi di un certo dominio o varietà di linguaggio robusti e ben adattati al linguaggio reale analitico per fondare analisi e descrizioni linguistiche sulleffettiva distribuzione delle costruzioni e fenomeni allinterno di un linguaggio, al fine di valutare ipotesi teoriche sulla sua forma ed organizzazione (continua…)

35 lezione 6 tipi di corpora corpus specialistico orientato alla descrizione di una particolare varietà del linguaggio (sublanguage) o ad un ristretto dominio applicativo analisi della terminologia biomedica, ecc. linguaggio infantile linguaggio sportivo, economico, ecc. linguaggio patologico corpus generale o di riferimento (reference corpus) trasversale rispetto alle diverse varietà di un linguaggio L plurifunzionale orientato a rappresentare tutti gli aspetti caratteristici di L, proponendosi come risorsa di riferimento per la descrizione di L può essere organizzato in vari sottocorpora specializzati per varietà di L (continua…)

36 lezione 6 tipi di corpora corpus sincronico descrive un particolare stadio del linguaggio (i testi appartengono tutti ad una stessa finestra temporale) corpus diacronico descrive il mutamento linguistico (i testi appartengono a diverse finestre temporali) corpus monolingue contiene testi di una sola lingua corpus bi/plurilingue corpus parallelo – lo stesso testo è rappresentato (in traduzione) in più di una lingua corpus allineato – ciascuna frase (parola) della lingua L1 è esplicitamente collegata col suo traducente nella lingua L2 corpus comparabile – testi in più lingue (non in traduzione) appartenenti alle stesse tipologie (ciascuna lingua è rappresentata da testi diversi) (continua…)

37 lezione 6 tipi di corpora corpus di scritto solo testi di linguaggio scritto corpus di parlato solo trascrizioni di linguaggio parlato corpus misto testi scritti e trascrizioni di parlato (in proporzioni variabili) speech database campioni di linguaggio parlato in forma di segnale acustico (più eventualmente la trascrizione ortografica) corpus multimediale testi scritti, video, parlato in forma di segnato acustico, ecc. (continua…)

38 lezione 6 dimensione del corpus corpus chiuso corpus standard tradizionale la quantità di testi e di parole è prefissata allinizio del progetto corpus statico : fotografa un particolare stadio linguistico corpus aperto (monitor corpus, Sinclair 1991) nuovi testi sono continuamente aggiunti alla collezione, secondo le proporzioni decise in fase progettuale corpus dinamico, ideale per studiare levoluzione del linguaggio (continua…)

39 lezione 6 british national corpus (BNC) Corpus del British English ( ) creato da un consorzio accademico (Oxford, Lancaster, ecc.) ed editoriale (Oxford University Press, Longman, ecc.) Dimensione: 100 milioni di parole Tratti caratteristici generale monolingue sincronico misto 90% testi scritti di vari generi 10% testi di parlato trascritto (conversazioni spontanee) (continua…)

40 lezione 6 parole corpora multilingue comparabili per 14 lingue europee catalano, danese, finlandese, francese, francese belga, greco, inglese, irlandese, italiano, norvegese olandese, portoghese, svedese, tedesco tutti i corpora sono stati costruiti secondo criteri e specifiche uniformi PAROLE-Italiano ( ) realizzato presso lILC-CNR (Pisa) Dimensione: 21 milioni di parole tratte da testi scritti di vari generi (libri, giornali periodici, miscellanee) attualmente portate a oltre 70 milioni tratti caratteristici generale sincronico (internamente) monolingue dex.htm dex.htm (continua…)

41 lezione 6 parole (continua…)

42 lezione 6 corpora paralleli Canadian Hansard Corpus (2001) 1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese (continua…)

43 lezione 6 corpora paralleli MULTEXT (1996) 5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese) parole allineate a livello di frase (inglese come lingua pivot) (continua…)

44 lezione 6 fine sesta lezione sesta lezione la codifica del testo (lezione 7)


Scaricare ppt "Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università"

Presentazioni simili


Annunci Google