INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.

Slides:



Advertisements
Presentazioni simili
TIC per ricerca e condivisione dell'informazione
Advertisements

Algebra Booleana Generalità
Informatica Generale Marzia Buscemi
1 Consorzio interuniversitario per le Applicazioni del Supercalcolo Per Università e Ricerca Stelline 2008 Sala Volta, venerdì 7 marzo 2008 Seminario:
Informatica Generale Marzia Buscemi IMT Lucca
Corso di INFORMATICA DI BASE
Sistemi per il recupero delle informazioni SISTEMI PER IL RECUPERO DELLINFORMAZIONE.
Seminario Sicurezza a.a. 2001/2002 Barbara Anconelli
(sommario delle lezioni in fondo alla pagina)
Università degli studi di Modena e Reggio Emilia
Introduzione allo studio dell’informatica
1 Informatica Presentazione del corso ENIAC Electronical Numerical Integrator and Calculator Il primo calcolatore elettronico, lENIAC Electronical Numerical.
Sistemi di supporto alle decisioni 2. Features space
"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Algebra di Boole ed elementi di logica
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Puntatori Marco D. Santambrogio – Ver. aggiornata al 21 Marzo 2013.
Process synchronization
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: il linguaggio della ricerca CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-
Testo consigliato Crittografia, P. Ferragina e F. Luccio, Ed. Bollati Boringhieri, € 16.
Processi Aleatori : Introduzione – Parte I
Corso di Informatica (Programmazione)
1 Corso di Informatica (Programmazione) Lezione 10 (12 novembre 2008) Programmazione in Java: espressioni booleane e controllo del flusso (selezione)
Sistemi per il recupero delle informazioni
Dipartimento di Informatica e Sistemistica Alessandro DE CARLI Anno Accademico MOVIMENTAZIONE CONTROLLATA AZIONAMENTI CON MOTORE BRUSHLESS.
Corso pratico di EBM n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois Torino,
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
INFORMATICA E TECNOLOGIA DELLA COMUNICAZIONE IN RETE MODULO 2
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Laboratorio di Calcolo I 1) Introduzione Università Roma Tre Corso di Studi in Fisica AA 2002/03.
Strutture di controllo in C -- Flow Chart --
Introduzione ai fogli elettronici: EXCEL
I database per il medico / 2 n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois.
Elaborazione (digitale) delle immagini
4 Cosa è una rete? ã Punto di vista logico: sistema di dati ed utenti distribuito ã Punto di vista fisico: insieme di hardware, collegamenti, e protocolli.
1 La biblioteca e le sue risorse ACNP Archivio Collettivo Nazionale dei Periodici.
Claudia Raibulet Algebra Booleana Claudia Raibulet
Elementi di Informatica Simone Scalabrin a.a. 2008/2009.
Informatica per il commercio elettronico Matteo Cristani.
Database & Information Retrieval
Applicazioni di modelli matematici alla ricerca semantica
INFORMATICA MATTEO CRISTANI.
2000 Prentice Hall, Inc. All rights reserved. Capitolo 6 (Deitel) I vettori Sommario Introduzione Vettori Dichiarazione di vettori 6.4.
Sistema di interrogazione intelligente di
Motori di Ricerca presente e futuro prossimo
INFORMATICA PER IL COMMERCIO ELETTRONICO MATTEO CRISTANI.
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
INFORMATICA MATTEO CRISTANI.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
COMUNICAZIONE ONLINE, RETI E VIRTUALITA’
INFORMATICA PER IL COMMERCIO ELETTRONICO
INFORMATICA MATTEO CRISTANI.
INFORMATICA PER IL COMMERCIO ELETTRONICO
Multimedia Information Retrieval
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
Piattaforma ASP (allegato applicazione corsi e f.a.d.) Padova, martedì 10 marzo 2003.
Pippo.
Tesina di fine corso Argomento: Corso: Professore: Autori:
Algebra di Boole.
Sistemi per il recupero delle informazioni INFORMATION RETRIEVAL
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Operatori booleani Gli operatori booleani servono per rendere più efficace la ricerca all'interno dei motori. Non sono "case sensitive", ovvero non tengono.
Copyright © Istituto Italiano Edizioni Atlas
INFORMATICA MATTEO CRISTANI. INTRODUZIONE AL CORSO  OBIETTIVI  CONTENUTI  APPROCCIO  TESTI ADOTTATI  MODALITA’ D’ESAME.
Tecniche di ricerca semantica a supporto del recupero di link di tracciabilità tra artefatti software RelatoreCandidato Chiar.mo Prof. Rocco OlivetoStefano.
Le basi di dati.
Logica di base e Conversione analogico-digitale Lezione 3 / Prima parte Gaetano Arena e.mail: 1.
Informatica Università degli Studi di Sassari Facoltà di Medicina veterinaria Corso di Laurea in Medicina veterinaria Anno Accademico 2015/2016 Docente:
Transcript della presentazione:

INFORMATICA MATTEO CRISTANI

INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE LEZ. 4 MISURE DELLA INFORMAZIONE LEZ. 5 CALCOLO BINARIO: CONVERSIONI DI BASE LEZ. 6 CALCOLO BINARIO: OPERAZIONI IN BASE 2 LEZ. 7 ESERCITAZIONE DI CALCOLO BINARIO LEZ. 8 ESERCITAZIONE DI CALCOLO BINARIO LEZ. 9 PORTE LOGICHE LEZ. 10 PROGETTO DI CIRCUITI DIGITALI LEZ. 11 INTRODUZIONE AGLI ALGORITMI LEZ. 12 PRODUTTIVITA INDIVIDUALE LEZ. 13 IL WEB LEZ. 14 RICERCA DI DOCUMENTI LEZ. 15 USO DEI MOTORI DI RICERCA LEZ. 16 SICUREZZA INFORMATICA LEZ. 17 ELEMENTI DI CRITTOGRAFIA LEZ. 18 ESERCITAZIONE DI CRITTOGRAFIA LEZ. 19 ESERCITAZIONE GENERALE LEZ. 20 SOMMARIO DEL CORSO

AGENDA INFORMATION RETRIEVAL INDICIZZAZIONE DI DOCUMENTI IL WEB E I DOCUMENTI

INFORMATION RETRIEVAL LInformation Retrieval (IR) si occupa della rappresentazione, memorizzazione e organizzazione dellinformazione, al fine di rendere agevole allutente il soddisfacimento dei propri bisogni informativi. Data una collezione di documenti e un bisogno informativo dellutente, lo scopo di un sistema di IR è di trovare informazioni che potrebbero essere utili, o rilevanti, per lutente.

BISOGNI INFORMATIVI Il settore dellInformation Retrieval è stato studiato fin dagli anni `70. Negli anni `90, lesplosione del Web ha moltiplicato linteresse per IR. Il Web infatti non è altro che unenorme collezione di documenti, sui quali gli utenti vogliono fare ricerche informazionali. Il problema principale è che non è semplice caratterizzare esattamente i bisogni informativi dellutente.

ESEMPIO Trova tutti i documenti che contengono informazioni sulle squadre di calcio partecipanti a campionati di prima divisione e che: Provengono da organismi calcistici ufficiali; Contengono informazioni sui risultati raggiunti nei tornei nazionali negli ultimi tre anni; Forniscono lindirizzo o il numero di telefono della società.

DATI STRUTTURATI E NON

ARCHITETTURA DI UN SISTEMA DI IR

INDICIZZAZIONE I sistemi di IR non operano sui documenti originali, ma su una vista logica degli stessi. Tradizionalmente i documenti di una collezione vengono rappresentati tramite un insieme di keyword. La capacità di memorizzazione dei moderni elaboratori permette di rappresentare un documento tramite lintero insieme delle parole in esso contenute; si parla allora di vista logica full text. Per collezioni molto grandi tale tecnica può essere inutilizzabile; si utilizzano allora tecniche di modifica del testo per ridurre la dimensione della vista logica, che diventa un insieme di index term

TECNICHE DI ELABORAZIONE Il numero di termini indicizzati viene ridotto utilizzando una serie di tecniche, tra cui: Eliminazione delle stopword: articoli, congiunzioni ecc.; De-hyphenation: divisione in più parole di parole contenenti un trattino; Stemming: riduzione delle parole alla loro radice grammaticale; Thesauri: gestione dei sinonimi.

MODELLI DI RICERCA DI TESTO MODELLO BOOLEANO MODELLO VETTORIALE

MODELLO BOOLEANO Il modello booleano è il modello più semplice; si basa sulla teoria degli insiemi e lalgebra booleana. Storicamente, è stato il primo ed il più utilizzato per decenni. I documenti vengono rappresentate come insiemi di termini. Le query vengono specificate come espressioni booleane, cioè come un elenco di termini connessi dagli operatori booleani AND, OR e NOT. La strategia di ricerca è basata su un criterio di decisione binario, senza alcuna nozione di grado di rilevanza: un documento viene considerato rilevante o non rilevante.

MODELLO VETTORIALE Il modello vettoriale è giustificato dallosservazione che assegnare un giudizio binario ai documenti (1=rilevante, 0=non rilevante) è troppo limitativo. Nel modello vettoriale ad ogni termine nei documenti o nelle query viene assegnato un peso (un numero reale). I documenti e le query vengono quindi rappresentati come vettori in uno spazio n-dimensionale (n = numero di termini indicizzati). La ricerca viene svolta calcolando il grado di similarità tra il vettore che rappresenta la query e i vettori che rappresentano ogni singolo documento: i documenti con più alto grado di similarità con la query hanno più probabilità di essere rilevanti per lutente.

CARATTERISTICHE DEL WEB Come detto, lInformation Retrieval è nata per gestire collezioni statiche e ben conosciute: testi di legge, enciclopedie ecc. Quando la collezione di riferimento diventa il Web, le cose cambiano completamente: La collezione è dinamica, molto variabile nel tempo; Le dimensioni sono enormi; I documenti non sono sempre disponibili; Le query degli utenti sono ancora più imprecise e vaghe.

LA RICERCA DI DOCUMENTI GIURIDICI