La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

Presentazioni simili


Presentazione sul tema: "INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI."— Transcript della presentazione:

1 INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI

2 CONTENUTI DI QUESTA LEZIONE Informazione non strutturata Archivi di testi e Information retrieval Il modello vettoriale di ricerca informazioni Espressioni regolari Archivi di immagini ed image retrieval

3 INFORMATICA ED ARCHIVI Una delle funzioni principali dellinformatica e la creazione ed utilizzo di archivi elettronici: Di testi Di immagini Questi archivi contengono informazione NON STRUTTURATA nel senso che non e organizzata secondo un modello concettuale predefinito, a differenza delle basi di dati

4 ARCHIVI ELETTRONICI Collezioni di testi: Articoli scientifici: e.g., ACL Archive Libri: Project Gutenberg: LiberLiber: Google Books: Collezioni di documenti storici Il Web (da cercare via Google) Collezioni di immagini: Il Web (da cercare via Google Image)

5 5 DATI NON STRUTTURATI (TESTI) E STRUTTURATI (DB) NEL 1996 Lucido di Hinrich Schuetze

6 6 DATI NON STRUTTURATI (TESTI) E STRUTTURATI (DB) NEL 2006 Lucido di Hinrich Schuetze

7 ALCUNI USI DI QUESTI ARCHIVI Per chi fa ricerca: facilitano la DISTRIBUZIONE di documenti e/o articoli Facilitano anche la RICERCA di documenti rilevanti Permettono di condurre analisi Delluso del linguaggio (analisi linguistica / letteraria / storica) Storiche / filosofiche / etc.

8 RICERCA DI TESTI: RUDIMENTI DI INFORMATION RETRIEVAL Information retrieval e il nome dellarea dellInformatica che si occupa del ritrovamento di documenti Idea fondamentale: estrarre automaticamente dai testi informazioni (INDICI) che ne permettano il ritrovamento Richiede metodi per INDICIZZARE i documenti Analizzare la query Cercare i documenti piu rilevanti alla query

9 DOCUMENTI COME INSIEME DI PAROLE broad tech stock rally may signal trend - traders. technology stocks rallied on tuesday, with gains scored broadly across many sectors, amid what some traders called a recovery from recent doldrums. broad may rally rallied signal stock stocks tech technology traders traders trend DOCUMENT INDEX

10 RICERCA DI ARCHIVI TESTUALI: GOOGLE Il Web e un enorme archivio elettronico che contiene sia documenti quanto informazioni di ogni tipo Usato estesamente nelle aree umanistiche per facilitare laccesso a documenti I motori di ricerca come Google permettono di ritrovare documenti rilevanti usando PAROLE CHIAVE (KEYWORDS)

11 RICERCA AVANZATA IN GOOGLE Immagini digitali immagini digitali albergo Trento OR Rovereto

12 RICERCA AVANZATA IN GOOGLE: OR albergo Trento OR Rovereto

13 RICERCA AVANZATA IN GOOGLE: - albergo Trento OR Rovereto –Hotel Verona

14 RICERCA AVANZATA IN GOOGLE Enrico Salerno +la morte +e +la fanciulla Enrico * Salerno

15 ESPRESSIONI REGOLARI Le espressioni per la ricerca avanzata in Google sono una versione semplificata di un linguaggio per la ricerca chiamato ESPRESSIONI REGOLARI Le espressioni regolari sono alla base delle capacita di analisi dei testi in linguaggi di programmazione come Java o Perl (e nel motore di ricerca Google)

16 ESPRESSIONI REGOLARI /agnolotti|ravioli/ /a[b|bb]ecedario/ /ab+ecedario/

17 ESPRESSIONI REGOLARI /[0-9]+/ \d, \w, \s /[^246]/

18 USI DI ESPRESSIONI REGOLARI: TROVARE GLI INDIRIZZI DI POSTA ELETTRONICA Ma non: 9]{1,3}\.[0-9]{1,3}\.)|(([a-zA-Z0-9\- ]+\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\]?)$

19 INDICI E RITROVAMENTO 1 if play contains word, 0 otherwise Brutus AND Caesar but NOT Calpurnia

20 SOMIGLIANZA IN UNO SPAZIO VETTORIALE θ djdj qkqk

21 ALTRI MODI PER STRUTTURARE DATI NON STRUTTURATI Per certi tipi di informazione altri modi di strutturazione sono piu appropriati Molta ricerca corrente si occupa del problema di estrarre automaticamente informazioni che permettano di strutturare diversamente i testi

22 RICERCA PER ENTITA

23 ORGANIZZAZIONE TEMPORALE

24 LIVEMEMORIES

25 ANALISI LESSICOGRAFICA DEI TESTI Tipi di analisi: Concordanze Frequenze Collocazioni Applicazioni: Lessicografia Analisi dello stile Identificazione degli autori (Vedi anche modulo D)

26 ANALISI LESSICOGRAFICA DI TESTI Identificazione delle parole che occorrono in un testo Costruzione di INDICI Calcolo delle loro FREQUENZE Costruzione di CONCORDANZE liste ordinate di parole che si trovano in un testo con il contesto Identificazione di COLLOCAZIONI corpo contundente

27 CONCORDANZE 1 1, 1 | uomini, sono stati e sono o repubbliche o principati. È principati 2 2, 1 | indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3 5, 2 | assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4 8, 1 | dove si trattassi delle repubbliche. Questi sono quando, o per 5 12, 3 | vede a' principi soli e repubbliche armate fare progressi grandissimi, 6 13, 6 | Alessandro Magno, e come molte repubbliche e principi si sono armati 7 15, 1 | molti si sono immaginati repubbliche e principati che non si

28 COLLOCAZIONI NOTTE FONDA, LUNA PIENA, ALTA STAGIONE, CORPO CONTUNDENTE COLLOCAZIONE: sequenza di due o piu parole caratterizzate da un forte legame di associazione

29 TIPI DI COLLOCAZIONI TERMINI TECNICI: sistema operativo, corte dAssise VERBO SUPPORTO: fare attenzione, prendersi un caffe, dar manforte COSTRUZIONI IDIOMATICHE: tagliar la corda, tirare le cuoia

30 PER SAPERNE DI PIU… Modulo D

31 ANALISI STILISTICA AL COMPUTER Analisi dello stile di uno scrittore Esempi: corpo contundente: tipico burocratese broken twig in James Fenimore Cooper Uso dei colori (specialmente rosso) in Red Badge of Courage

32 IDENTIFICAZIONE DI AUTORI Identificazione dellautore di testi storici / testi anonimi Autori dei libri della Bibbia Autori dei Federalist Papers Autore di Primary Colors

33 ARCHIVI NON TESTUALI: IMMAGINI & MULTIMEDIA Applicazioni: beni culturali, archeologia, storia dellarte, film …. Archivi di immagini Ricerca di immagini Analisi statistica di immagini

34 IMAGE RETRIEVAL Ricerca di immagini: Usando didascalie od indici costruiti a mano (LABELS) Usando indici derivati automaticamente

35 RITROVAMENTO DI IMMAGINI USANDO DIDASCALIE

36 CONTENT-BASED IMAGE RETRIEVAL Estraendo automaticamente tratti dallimmagine (CONTENT-BASED IMAGE RETRIEVAL) Ricerca usando immagini simili Vettori di tratti visivi (colore, etc) Esempi: Retrievr Image Miner (Uni Bremen / IBM) VIPER (Universita di Ginevra)

37 CONTENT-BASED IMAGE RETRIEVAL

38 RISULTATI

39 CREAZIONE DI ARCHIVI DI TESTI La creazione di un archivio di testi richiede luso di una grande varieta di tecniche informatiche: Possibilmente SCANNERIZZAZIONE Ripulitura Trasformazione in un formato STANDARD (XML / TEI) Sviluppo di metodi di RICERCA

40 BIBLIOTECHE DIGITALI Sempre piu spesso archivi, biblioteche e musei utilizzano tecniche per la digitalizzazione e la preservazione di documenti in formato digitale Biblioteche digitali vanno oltre archivi di testi ed immagini in quanto documenti contengono METADATI che forniscono informazioni bibliografiche e collegamenti

41 DIGITALIZZAZIONE E CONSERVAZIONE Ora che la memoria sta diventando sempre piu economica, e con lo sviluppo di metodi piu sofisticati di scannerizzazione delle immagini, e pensabile creare versioni elettroniche di documenti antichi e fragili per permetterne laccesso senza danneggiarli Esempio: progetti della British Library

42 PRINCIPALI AREE DI RICERCA NELLE BIBLIOTECHE DIGITALI Preservazione digitale Metadati: Text Encoding Initiative (prossima lezione) DUBLIN CORE Infrastruttura: Open Archival Information System (OAIS)

43 CREAZIONE AUTOMATICA DI DATABASE DA ARCHIVI Larea della INFORMATION EXTRACTION si occupa della creazione automatica o semi- automatica di database a partire da collezioni di documenti Utile soprattutto in aree come la biologia dove il numero di documenti pubblicati e vastissimo (in Biologia: piu di nuovi articoli al mese)

44 RISORSE SU WEB: BENI CULTURALI Il WORLD HERITAGE CENTRE: Il Database Bibliografico del CONSERVATION INFORMATION NETWORK: ICCROM: Il database di immagini Conferenze

45 RIASSUNTO DELLE IDEE PRINCIPALI Modello vettoriale per la ricerca di informazioni non-strutturate Espressioni regolari (e versione semplificata per Google)

46 LETTURE ED APPROFONDIMENTI Tomasi, capitoli 7 e 9 Google search: Google search basics: GriseldaOnline: Robert Harris, The Personal Computer as a tool for literary analysisThe Personal Computer as a tool for literary analysis


Scaricare ppt "INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI."

Presentazioni simili


Annunci Google