Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi
Argomento del corso Metodi per estrarre informazioni di interesse da archivi documentali –Come viene espresso linteresse: mediante una richiesta (query) la cui complessità varia: Parole-chiave (web information retrieval) Un testo in LN (qual è la città più grande della Florida?) Una richiesta vocale.. Unimmagine o documento (query by example) –Dove si cerca : memorizzati su un computer, o distribuiti su una rete locale, o nellintero web. –Cosa si cerca: Documenti: txt, pdf, html, video, immagini, musica.. –Cosa si estrae: i documenti (probabilmente) di interesse, una risposta in LN, una lista di fatti rilevanti
Information Retrieval
Query by example Query risposte
Question Answering
Information Extraction foodscience.com-Job2 JobTitle: Ice Cream Guru Employer: foodscience.com JobCategory: Travel/Hospitality JobFunction: Food Services JobLocation: Upper Midwest ContactPhone: DateExtracted: January 8, 2001 Source: OtherCompanyJobs: foodscience.com-Job1
Criteri di classificazione dei sistemi di estrazione di informazioni In base a: Query: keyword, frase, categoria di interesse, domanda.. Spazio di ricerca: un archivio, un insieme di archivi distribuiti, il web Oggetto della ricerca: testi, immagini, multimedia.. Risposta: una lista di documenti, una risposta in linguaggio naturale, un database di fatti rilevanti
Syllabus del corso Information Retrieval (IR) –Ricerca: archivio locale –Query: lista di keywords –Oggetto: testi –Risposta: elenco ordinato di testi Web Information retrieval –Ricerca: web –Come IR Information Extraction –Ricerca: web o archivio locale –Query: fatti di interesse (es. offerte di lavoro in informatica) –Oggetto: testi o media –Risposta: un database Question Answering –Ricerca: web o archivio locale –Query: domanda in linguaggio naturale –Oggetto:testi –Risposta: risposta in LN Multimedia Retrieval –Ricerca: web o archivio locale –Query: voce, immagine, suono.. –Oggetto: filmati, immagini, musica, registrazioni vocali –Risposta: elenco ordinato di oggetti multimediali
Prerequisiti Strutture dati, algoritmi Algebra (vettori, matrici) Probabilità..se avete seguito Apprendimento Automatico è un po meglio.. Ma non essenziale
Materiale omehttp://twiki.di.uniroma1.it/twiki/view/Estrinfo/WebH ome –Lucidi –Articoli e approfondimenti –Siti di interesse Modern Information Retrieval Ricardo-Baeza-Yates/dp/ X Ricardo-Baeza-Yates/dp/ X Un libro on-line: csli.stanford.edu/~hinrich/information-retrieval- book.htmlhttp://www- csli.stanford.edu/~hinrich/information-retrieval- book.html
ESAME Un esercizio su Lucene (open-source text search engine in Java) a metà corso Un progetto a fine corso (questanno si utilizzerà la piattaforma open-source di IE GATE), applicazioni (opzioni): –Analizzare opinioni su social networks –Estrarre informazioni da databases con trame di film Una prova scritta a fine corso Chi non fa lesame a fine corso deve fare un orale su appuntamento (ma progetto e prova Lucene sono obbligatori)