Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Slides:



Advertisements
Presentazioni simili
Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.
Advertisements

Testo, ipertesto e ipermedia
Prof. Raimondo Schettini
TIC per ricerca e condivisione dell'informazione
Principi di Information Retrieval
LE POTENZIALITÀ DI INTERNET NELLAGGIORNAMENTO DISCIPLINARE E DIDATTICO DEGLI INSEGNANTI Obiettivo: Illustrare le potenzialità ma anche i rischi dellutilizzo.
Esame di Stato Prova scritta di Informatica
DBMS (DataBase Management System)
Linguaggi di Programmazione e compilatori
L’azienda Volocom.
Progetto Campus One: Azione e-learningGenova, 9 aprile 2002 Giancarlo Parodi DIBE Esperienze dal progetto Ingegneria On Line.
CORSO Lim-Elearning A.F
Elementi di Informatica
I.R.R.S.A.E.LIGURIA La rete telematica nella didattica.
Elaborazione di Immagini e Suoni Syllabus
Rinasco Il recupero retrospettivo degli inventari degli archivi storici comunali nella Regione Lazio Arezzo, 7 settembre 2010
Web Information Systems (I parte) Prof. Barbara Pernici Politecnico di Milano.
Enver Sangineto, Dipartimento di Informatica Multimedia Information Retrieval.
Tecnologie della Comunicazione Applicate allImpresa canale A-L Prof. Carlo Maria Medaglia
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: le banche dati
TECNOLOGIE PER DOCUMENTI DIGITALI
Azione D1-F.S.E Conoscenza per una nuova didattica Docente Esperto: Simona Riolo Docente Tutor: Alfio Messina Lezione # I.C.S.
I PRIMI FILE NELLE CARTELLE CLASSE VIRTUALE EDULAB PROGETTO LIM Laura Antichi.
Comunicazione on-line, reti e virtualità Matteo Cristani.
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Ulteriori Abilità Informatiche
Informatica e Tecnologie per la comunicazione in rete 1
INFORMATICA E TECNOLOGIA DELLA COMUNICAZIONE IN RETE MODULO 2
Lautore e il ricercatore nellambiente digitale 2. edizione 12 aprile 2007 Introduzione al Portale AIRE A cura di Cristina Capodaglio (Biblioteca del Dipartimento.
Statistica per la valutazione dei servizi turistici
LIP Laboratorio di Informatica: Programmazione Rosario Pugliese
Il futuro delle tecnologie nelleParticipation. Il punto di vista di DEMO-net Claudia Soria Istituto di Linguistica Computazionale del CNR.
I database per il medico / 2 n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois.
Programmare Introduzione alla programmazione ovvero Che ci faccio in questaula?? Paolo Bernardi.
Corso di Editoria multimediale Letizia Catarini Università di Macerata Corso di laurea Scienze della Comunicazione.
Corso di Editoria multimediale Letizia Catarini Università di Macerata Corso di laurea Scienze della Comunicazione.
1 RISORSE DISPONIBILI PER GLI UTENTI B.A.U. Orientamento bibliografico – II modulo.
Informatica Com Multimediale Informatica per la COMUNICAZIONE multimediale!
La ricerca in rete e la comunicazione/collabor azione Laboratorio Le fonti e la ricerca nel web.
Intelligenza Artificiale
1 Informatica Grafica Daniele Marini. 2 Informazioni generali Corso in teledidattica: –Videoconferenza –Learning community Frequentare le lezioni! Cercare.
Codifica di Testi Il corso e lesame. Argomenti del corso La teoria della codifica XML: introduzione e livello avanzato (DTD, Schema W3C) La Text Encoding.
Note per il corso di Informatica per le discipline umanistiche Biblioteche in rete 2 Marco Lazzari Università di Bergamo Facoltà di Lettere e Filosofia.
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Classe 5 A Pr1 Il Sito Web Internet è la rete mondiale grazie alla quale possiamo comunicare via computer con ogni parte del globo. Di Internet fa parte.
Database & Information Retrieval
CampusBlog - Campuswin Sistema Informativo di Ateneo CampusBlog.
Applicazioni di modelli matematici alla ricerca semantica
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Note per il corso di Teorie e … multimediale lezione 1 Marco Lazzari Università di Bergamo Facoltà di Lettere e Filosofia A.A
INFORMATICA & COMUNICAZIONE
IGEA un corso di informatica grafica edile-architettura.
Architettura degli Elaboratori
Multimedia Information Retrieval
Multimedia information retrieval. Problematica Materiale multimediale: non solo testo, ma audio (speech, musica..) immagini, video Retrieval basato su.
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
Informatica Grafica sez. A-G
Computer, ausili tecnologici e modelli applicativi specifici possono essere di aiuto per colmare il gap tra competenze e possibilità di espressione e per.
WEBQUEST per la classe 3° ITC
Fondamenti di Programmazione
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso
Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version:
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
PROGETTO… Internet Providers, registrazione del dominio Costruire una home page … e renderla visibile sul Web.
CORSO DI INFORMATICA DOCENTE PROF. N. REALE.
Didattica della lettura Prof. Giovanni Moretti
Grafica interattiva a.a. 2003/2004 Docente: Prof. Enrico Puppo Laboratorio: Dott. Paola Magillo.
Introduzione a Captivate Brevi note a cura di Silvio Grosso e di Emanuele Lana
Transcript della presentazione:

Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Argomento del corso Metodi per estrarre informazioni di interesse da archivi documentali –Come viene espresso linteresse: mediante una richiesta (query) la cui complessità varia: Parole-chiave (web information retrieval) Un testo in LN (qual è la città più grande della Florida?) Una richiesta vocale.. Unimmagine o documento (query by example) –Dove si cerca : memorizzati su un computer, o distribuiti su una rete locale, o nellintero web. –Cosa si cerca: Documenti: txt, pdf, html, video, immagini, musica.. –Cosa si estrae: i documenti (probabilmente) di interesse, una risposta in LN, una lista di fatti rilevanti

Information Retrieval

Query by example Query risposte

Question Answering

Information Extraction foodscience.com-Job2 JobTitle: Ice Cream Guru Employer: foodscience.com JobCategory: Travel/Hospitality JobFunction: Food Services JobLocation: Upper Midwest ContactPhone: DateExtracted: January 8, 2001 Source: OtherCompanyJobs: foodscience.com-Job1

Criteri di classificazione dei sistemi di estrazione di informazioni In base a: Query: keyword, frase, categoria di interesse, domanda.. Spazio di ricerca: un archivio, un insieme di archivi distribuiti, il web Oggetto della ricerca: testi, immagini, multimedia.. Risposta: una lista di documenti, una risposta in linguaggio naturale, un database di fatti rilevanti

Syllabus del corso Information Retrieval (IR) –Ricerca: archivio locale –Query: lista di keywords –Oggetto: testi –Risposta: elenco ordinato di testi Web Information retrieval –Ricerca: web –Come IR Information Extraction –Ricerca: web o archivio locale –Query: fatti di interesse (es. offerte di lavoro in informatica) –Oggetto: testi o media –Risposta: un database Question Answering –Ricerca: web o archivio locale –Query: domanda in linguaggio naturale –Oggetto:testi –Risposta: risposta in LN Multimedia Retrieval –Ricerca: web o archivio locale –Query: voce, immagine, suono.. –Oggetto: filmati, immagini, musica, registrazioni vocali –Risposta: elenco ordinato di oggetti multimediali

Prerequisiti Strutture dati, algoritmi Algebra (vettori, matrici) Probabilità..se avete seguito Apprendimento Automatico è un po meglio.. Ma non essenziale

Materiale omehttp://twiki.di.uniroma1.it/twiki/view/Estrinfo/WebH ome –Lucidi –Articoli e approfondimenti –Siti di interesse Modern Information Retrieval Ricardo-Baeza-Yates/dp/ X Ricardo-Baeza-Yates/dp/ X Un libro on-line: csli.stanford.edu/~hinrich/information-retrieval- book.htmlhttp://www- csli.stanford.edu/~hinrich/information-retrieval- book.html

ESAME Un esercizio su Lucene (open-source text search engine in Java) a metà corso Un progetto a fine corso (questanno si utilizzerà la piattaforma open-source di IE GATE), applicazioni (opzioni): –Analizzare opinioni su social networks –Estrarre informazioni da databases con trame di film Una prova scritta a fine corso Chi non fa lesame a fine corso deve fare un orale su appuntamento (ma progetto e prova Lucene sono obbligatori)