INFORMATICA UMANISTICA B

Slides:



Advertisements
Presentazioni simili
Prof. Raimondo Schettini
Advertisements

TIC per ricerca e condivisione dell'informazione
INFORMATICA UMANISTICA MODULI B, C E D
Informatica umanistica moduli B, C e D dit. unitn
SVILUPPATO DA MIT Libraries e Hewlett-Packard (HP)
LE POTENZIALITÀ DI INTERNET NELLAGGIORNAMENTO DISCIPLINARE E DIDATTICO DEGLI INSEGNANTI Obiettivo: Illustrare le potenzialità ma anche i rischi dellutilizzo.
Riunione CIBER Gruppo SFX 24 giugno 2009 Introduzione P. Gargiulo
Informatica umanistica: Moduli B, C e D
INFORMATICA UMANISTICA MODULI B, C E D Massimo Poesio (B, D) Marco Baroni (Lab D) Roberto Zamparelli (C)
Corso di Fondamenti di Informatica
DBMS (DataBase Management System)
Il progetto MICHAEL The MICHAEL Project is funded under the European Commission eTEN Programme Marzia Piccininno - MiBAC.
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
Vincenza Ferrara Corso di Studi in tecnologie per la conservazione e il restauro dei beni culturali classe l-43 Università.
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
Sistemi di supporto alle decisioni 2. Features space
Bioinformatica Prof. Mauro Fasano
Multimedialità Ipertesto Interattività
"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.
Il recupero dellinformazione: strategie, strumenti, guide La pianificazione della ricerca Indici e metaindici Servizi bibliotecari in rete Materialità
BASI DI DATI BIOLOGICHE - 3
Enver Sangineto, Dipartimento di Informatica Multimedia Information Retrieval.
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: le banche dati
UNIVERSITA DEGLI STUDI DI PAVIA Corso di Laurea Interfacoltà in Comunicazione Interculturale e Multimediale Usabilità dei Siti Flash: problemi e strategie.
Approcci avanzati alla ricerca in rete. La capacità dellutente Information literacy: imparare a cercare su Internet La situazione: –problemi di Internet.
Metodi e tecniche per lE-Tutor nella scuola Modulo 1 – Tecnologie didattiche e comunicazione multimediale APG Attività pratica guidata 16/2/2008.
Corso di Informatica per Giurisprudenza Lezione 5
Cosa sono i diritti umani Lezione 1: Introduzione 4 Ottobre 2011.
Corso pratico di EBM n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois Torino,
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni.
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA B STRUTTURE DATI BASI DI DATI RAPPRESENTAZIONE DELLA CONOSCENZA ONTOLOGIE.
Open Archives Initiative e Metadata harvesting ICCU Seminario nazionale sui Metadati Roma 3 aprile 2001 Dr. Valdo Pasqui Università di Firenze.
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Eredità culturale e nuove tecnologie: La digitalizzazione del libro antico tra accesso e conservazione Padova, febbraio 2000 La biblioteca digitale:
MetaLib Lucia Soranzo, Antonella Zane Servizi digitali e portali accademici – Biblioteca del Dipartimento di Filosofia – 10 aprile 2006.
2) Sistemi operativi Lab. Calc. AA2004/05 - cap.2.
informatica di base per le discipline umanistiche
I database per il medico / 2 n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois.
4 Cosa è una rete? ã Punto di vista logico: sistema di dati ed utenti distribuito ã Punto di vista fisico: insieme di hardware, collegamenti, e protocolli.
Cos’è un CMS? Content Management System
1 RISORSE DISPONIBILI PER GLI UTENTI B.A.U. Orientamento bibliografico – II modulo.
Una biblioteca digitale per l e-learning Parma, 26 marzo 2004 E-learning for LIS: a choice of quality?"
Banche dati in rete dateneo Cosa faremo: Primo giorno Introduzione alle principali banche dati umanistiche Secondo giorno Esercitazioni.
La ricerca in rete e la comunicazione/collabor azione Laboratorio Le fonti e la ricerca nel web.
Strategie d’uso del computer nella didattica
ZIC - il piano delle TIC: aggiornamento e ricercazione (Gelpi-Maffini)1 Piano delle TIC anni La verifica.
Note per il corso di Informatica per le discipline umanistiche Biblioteche in rete 2 Marco Lazzari Università di Bergamo Facoltà di Lettere e Filosofia.
Modulo 7 – reti informatiche u.d. 1 (syllabus – )
Database & Information Retrieval
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Motori di Ricerca presente e futuro prossimo
Il VI Programma quadro e il digitale Maria Carla Sotgiu Direttore OPIB Ravenna, 28 marzo 2003.
Multimedia Information Retrieval
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
Biblioteche oggi La ricerca on-line, gli OPAC
Biblioteche oggi La ricerca on-line, gli OPAC Anna Colotto, Elisa Fiocchi Pisa 28/11/2005.
EM 09 INTERNET … UN PO DI STORIA. EM 09 Nasce per garantire comunicazioni efficienti … Tra le sedi delle forze armate americane Tra le sedi delle forze.
LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2
Uso e riuso delle risorse digitali del patrimonio culturale nella didattica Vincenza Ferrara II Summer School H-DATA e ICT.
Il progetto MICHAEL The MICHAEL Project is funded under the European Commission eTEN Programme Rossella Caffo - MiBAC Coordinatore.
Il progetto MICHAEL The MICHAEL Project is funded under the European Commission eTEN Programme Rossella Caffo - MiBAC coordinatore.
MICHAEL e MLA Kate Fernie ICT adviser The MICHAEL Project is funded under the European Commission eTEN Programme.
Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi.
Le basi di dati.
Cercare In Internet. Cercare in Rete La scuola ha un ruolo preciso in relazione a quella che nei paesi anglosassoni viene denominata: Information Literacy.
Corso borsisti DIAG 2015 Banche dati e risorse elettroniche bibliografiche.
OJS & OCS O PEN S OURCE PER LA R ICERCA S CIENTIFICA Le risorse offerte da CSIA-UniMC per la ricerca scientifica: Open Journal System & Open Conference.
Transcript della presentazione:

INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI

CONTENUTI DI QUESTA LEZIONE Informazione non strutturata Archivi di testi e Information retrieval Il modello vettoriale di ricerca informazioni Espressioni regolari Archivi di immagini ed image retrieval

INFORMATICA ED ARCHIVI Una delle funzioni principali dell’informatica e’ la creazione ed utilizzo di archivi elettronici: Di testi Di immagini Questi archivi contengono informazione NON STRUTTURATA nel senso che non e’ organizzata secondo un modello concettuale predefinito, a differenza delle basi di dati

ARCHIVI ELETTRONICI Collezioni di testi: Collezioni di immagini: Articoli scientifici: e.g., ACL Archive http://ucrel.lancs.ac.uk/acl/ Libri: Project Gutenberg: http://www.gutenberg.org/ LiberLiber: http://www.liberliber.it/ Google Books: http://books.google.it/ Collezioni di documenti storici Il Web (da cercare via Google) Collezioni di immagini: http://www.iccrom.org/eng/lib/photo.htm Il Web (da cercare via Google Image)

DATI NON STRUTTURATI (TESTI) E STRUTTURATI (DB) NEL 1996 Lucido di Hinrich Schuetze 5

DATI NON STRUTTURATI (TESTI) E STRUTTURATI (DB) NEL 2006 Lucido di Hinrich Schuetze 6

ALCUNI USI DI QUESTI ARCHIVI Per chi fa ricerca: facilitano la DISTRIBUZIONE di documenti e/o articoli Facilitano anche la RICERCA di documenti rilevanti Permettono di condurre analisi Dell’uso del linguaggio (analisi linguistica / letteraria / storica) Storiche / filosofiche / etc.

RICERCA DI TESTI: RUDIMENTI DI INFORMATION RETRIEVAL Information retrieval e’ il nome dell’area dell’Informatica che si occupa del ritrovamento di documenti Idea fondamentale: estrarre automaticamente dai testi informazioni (INDICI) che ne permettano il ritrovamento Richiede metodi per INDICIZZARE i documenti Analizzare la ‘query’ Cercare i documenti piu’ rilevanti alla query

DOCUMENTI COME INSIEME DI PAROLE INDEX DOCUMENT broad may rally rallied signal stock stocks tech technology traders traders trend broad tech stock rally may signal trend - traders. technology stocks rallied on tuesday, with gains scored broadly across many sectors, amid what some traders called a recovery from recent doldrums. Notice traders traders

RICERCA DI ARCHIVI TESTUALI: GOOGLE Il Web e’ un enorme archivio elettronico che contiene sia documenti quanto informazioni di ogni tipo Usato estesamente nelle aree umanistiche per facilitare l’accesso a documenti I motori di ricerca come Google permettono di ritrovare documenti rilevanti usando PAROLE CHIAVE (KEYWORDS)

RICERCA AVANZATA IN GOOGLE Immagini digitali “immagini digitali” albergo Trento OR Rovereto

RICERCA AVANZATA IN GOOGLE: OR albergo Trento OR Rovereto

RICERCA AVANZATA IN GOOGLE: - albergo Trento OR Rovereto –”Hotel Verona”

RICERCA AVANZATA IN GOOGLE Enrico Salerno Enrico * Salerno +la morte +e +la fanciulla

ESPRESSIONI REGOLARI Le espressioni per la ricerca avanzata in Google sono una versione semplificata di un linguaggio per la ricerca chiamato ESPRESSIONI REGOLARI Le espressioni regolari sono alla base delle capacita’ di analisi dei testi in linguaggi di programmazione come Java o Perl (e nel motore di ricerca Google)

ESPRESSIONI REGOLARI /agnolotti|ravioli/ /a[b|bb]ecedario/ /ab+ecedario/

ESPRESSIONI REGOLARI /[0-9]+/ \d, \w, \s /[^246]/

USI DI ESPRESSIONI REGOLARI: TROVARE GLI INDIRIZZI DI POSTA ELETTRONICA asmith@mactec.com, foo12@foo.edu, bob.smith@foo.tv Ma non: asmith, @mactech.com, a@a ^([a-zA-Z0-9_\-\.]+)@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)|(([a-zA-Z0-9\-]+\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\]?)$

INDICI E RITROVAMENTO 1 if play contains word, 0 otherwise Brutus AND Caesar but NOT Calpurnia

SOMIGLIANZA IN UNO SPAZIO VETTORIALE θ dj qk

ALTRI MODI PER ‘STRUTTURARE’ DATI NON STRUTTURATI Per certi tipi di informazione altri modi di strutturazione sono piu’ appropriati Molta ricerca corrente si occupa del problema di estrarre automaticamente informazioni che permettano di strutturare diversamente i testi

RICERCA PER ENTITA’

ORGANIZZAZIONE TEMPORALE

LIVEMEMORIES

ANALISI LESSICOGRAFICA DEI TESTI Tipi di analisi: Concordanze Frequenze Collocazioni Applicazioni: Lessicografia Analisi dello stile Identificazione degli autori (Vedi anche modulo D)

ANALISI LESSICOGRAFICA DI TESTI Identificazione delle parole che occorrono in un testo Costruzione di INDICI Calcolo delle loro FREQUENZE Costruzione di CONCORDANZE liste ordinate di parole che si trovano in un testo con il contesto Identificazione di COLLOCAZIONI “corpo contundente”

CONCORDANZE 1   1,    1    |    uomini, sono stati e sono o repubbliche o principati. È principati 2   2,    1    |    indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3   5,    2    |  assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4   8,    1    |    dove si trattassi delle repubbliche. Questi sono quando, o per 5  12,    3   |     vede a' principi soli e repubbliche armate fare progressi grandissimi, 6  13,    6   | Alessandro Magno, e come molte repubbliche e principi si sono armati 7  15,    1   |       molti si sono immaginati repubbliche e principati che non si

COLLOCAZIONI COLLOCAZIONE: sequenza di due o piu’ parole caratterizzate da un forte legame di associazione NOTTE FONDA, LUNA PIENA, ALTA STAGIONE, CORPO CONTUNDENTE

TIPI DI COLLOCAZIONI TERMINI TECNICI: sistema operativo, corte d’Assise VERBO SUPPORTO: fare attenzione, prendersi un caffe’, dar manforte COSTRUZIONI IDIOMATICHE: tagliar la corda, tirare le cuoia

PER SAPERNE DI PIU’… Modulo D

ANALISI STILISTICA AL COMPUTER Analisi dello stile di uno scrittore Esempi: “corpo contundente”: tipico burocratese “broken twig” in James Fenimore Cooper Uso dei colori (specialmente rosso) in “Red Badge of Courage”

IDENTIFICAZIONE DI AUTORI Identificazione dell’autore di testi storici / testi anonimi Autori dei libri della Bibbia Autori dei Federalist Papers Autore di “Primary Colors”

ARCHIVI NON TESTUALI: IMMAGINI & MULTIMEDIA Applicazioni: beni culturali, archeologia, storia dell’arte, film …. Archivi di immagini Ricerca di immagini Analisi statistica di immagini

IMAGE RETRIEVAL Ricerca di immagini: Usando didascalie od indici costruiti a mano (LABELS) Usando indici derivati automaticamente

RITROVAMENTO DI IMMAGINI USANDO DIDASCALIE

CONTENT-BASED IMAGE RETRIEVAL Estraendo automaticamente tratti dall’immagine (CONTENT-BASED IMAGE RETRIEVAL) Ricerca usando immagini ‘simili’ Vettori di tratti visivi (colore, etc) Esempi: Retrievr http://labs.systemone.at/retrievr Image Miner (Uni Bremen / IBM) VIPER (Universita’ di Ginevra) http://viper.unige.ch/

CONTENT-BASED IMAGE RETRIEVAL

RISULTATI

CREAZIONE DI ARCHIVI DI TESTI La creazione di un archivio di testi richiede l’uso di una grande varieta’ di tecniche informatiche: Possibilmente SCANNERIZZAZIONE ‘Ripulitura’ Trasformazione in un formato STANDARD (XML / TEI) Sviluppo di metodi di RICERCA

BIBLIOTECHE DIGITALI Sempre piu’ spesso archivi, biblioteche e musei utilizzano tecniche per la digitalizzazione e la preservazione di documenti in formato digitale Biblioteche digitali vanno oltre archivi di testi ed immagini in quanto documenti contengono METADATI che forniscono informazioni bibliografiche e collegamenti

DIGITALIZZAZIONE E CONSERVAZIONE Ora che la memoria sta diventando sempre piu’ economica, e con lo sviluppo di metodi piu’ sofisticati di scannerizzazione delle immagini, e’ pensabile creare versioni elettroniche di documenti antichi e fragili per permetterne l’accesso senza danneggiarli Esempio: progetti della British Library

PRINCIPALI AREE DI RICERCA NELLE BIBLIOTECHE DIGITALI Preservazione digitale Metadati: Text Encoding Initiative (prossima lezione) DUBLIN CORE Infrastruttura: Open Archival Information System (OAIS)

CREAZIONE AUTOMATICA DI DATABASE DA ARCHIVI L’area della INFORMATION EXTRACTION si occupa della creazione automatica o semi-automatica di database a partire da collezioni di documenti Utile soprattutto in aree come la biologia dove il numero di documenti pubblicati e’ vastissimo (in Biologia: piu’ di 60000 nuovi articoli al mese)

RISORSE SU WEB: BENI CULTURALI Il WORLD HERITAGE CENTRE: http://whc.unesco.org/ Il Database Bibliografico del CONSERVATION INFORMATION NETWORK: http://www.bcin.ca/English/home_english.html ICCROM: Il database di immagini http://www.iccrom.org/eng/lib/photo.htm Conferenze

RIASSUNTO DELLE IDEE PRINCIPALI Modello vettoriale per la ricerca di informazioni non-strutturate Espressioni regolari (e versione semplificata per Google)

LETTURE ED APPROFONDIMENTI Tomasi, capitoli 7 e 9 Google search: Google search basics: http://www.google.com/support/websearch/bin/answer.py?answer=136861 http://en.wikipedia.org/wiki/Google_search GriseldaOnline: http://www.griseldaonline.it/ Robert Harris, The Personal Computer as a tool for literary analysis