Documenti non strutturati sul Web e Semantica Dott. Matteo Palmonari.

Slides:



Advertisements
Presentazioni simili
MIP International Patent Forum 2011
Advertisements

Sfogliandomi… Viaggio tra me e me alla scoperta dellaltro… A travel between me and myself discovering the other…
L’esperienza di un valutatore nell’ambito del VII FP Valter Sergo
Cache Memory Prof. G. Nicosia University of Catania
Teoria e Tecniche del Riconoscimento
Business Models and Technology Watch
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
A. Oppio, S. Mattia, A. Pandolfi, M. Ghellere ERES Conference 2010 Università Commerciale Luigi Bocconi Milan, june 2010 A Multidimensional and Participatory.
Modalità di ricerca semantica nelle Biblioteche digitali Maria Teresa Biagetti DIPARTIMENTO DI SCIENZE DOCUMENTARIE LINGUISTICO-FILOLOGICHE E GEOGRAFICHE.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
DG Ricerca Ambientale e Sviluppo FIRMS' FUNDING SCHEMES AND ENVIRONMENTAL PURPOSES IN THE EU STRUCTURAL FUNDS (Monitoring of environmental firms funding.
La stenosi carotidea a rischio: evoluzione dell’inquadramento US
SQL (Standard query language) Istruzioni per la creazione di una tabella: Create table ( tipo, (, [vincoli]) Primary key ( ) CHIVE PRIMARIA Foreign key(
Laurea Magistrale in Informatica Thecnologies for Innovation
Copia darchivio (Preservation copy) A Preservation copy (or Archive copy) is the artefact designated to be stored and maintained as the preservation master.
1.E un algoritmo ricorsivo: Tutti le istanze di oggetti raggiungibili da un oggetto persistente diventano anchessi persistenti.
© and ® 2011 Vista Higher Learning, Inc.4B.1-1 Punto di partenza Italian uses two principal tenses to talk about events in the past: the passato prossimo.
Cancer Pain Management Guidelines
Il presente del congiuntivo (the present subjunctive)
Un DataBase Management System (DBMS) relazionale client/server.
MySQL Esercitazioni. Ripasso Connessione a MySQL. Creazione delle basi di dati e delle tablelle. Inserimento dei dati. Interrogazioni.
Raffaele Cirullo Head of New Media Seconda Giornata italiana della statistica Aziende e bigdata.
J0 1 Marco Ronchetti - Corso di Formazione Sodalia – Febbraio 2001 – Modulo Web Programming Tomcat configuration.
Directory services Directory offline –Elenchi telefonici –Guide TV –Cataloghi acquisti Directory online –Application specific (lotus notes, MS Exchange.
C Consiglio Nazionale delle Ricerche - Pisa Iit Istituto per lInformatica e la Telematica Reasoning about Secure Interoperation using Soft Constraints.
Biometry to enhance smart card security (MOC using TOC protocol)
Corso di Laurea in Ingegneria Elettronica - U niversità di N apoli F EDERICO II Autori XXXXX XXXXXXX YYYYY YYYYYYY ZZZZZ ZZZZZZZ Titolo tesina Parte X:
LInnovazione di Prodotto. Lo sviluppo di nuovi prodotti e nuovi servizi: una vecchia sfida per le imprese innovative. [emilio bellini]
1. Conoscere luso delle collezioni in Java Comprendere le principali caratteristiche nelle varie classi di Collection disponibili Saper individuare quali.
2000 Prentice Hall, Inc. All rights reserved. 1 Capitolo 3 - Functions Outline 3.1Introduction 3.2Program Components in C++ 3.3Math Library Functions 3.4Functions.
SQL Esercitazione per il corso “Basi di Dati” Gabriel Kuper
Magnetochimica AA Marco Ruzzi Marina Brustolon
Metadati gestionali e amministrativi per oggetti digitali nativi Antonio Scolari Seminario nazionale sui metadati Roma, 3 aprile 2001.
DISSIMILARITIES AND MATCHING BETWEEN SYMBOLIC OBJECTS Prof. Donato Malerba Department of Informatics, University of Bari, Italy ASSO.
DISSIMILARITIES AND MATCHING BETWEEN SYMBOLIC OBJECTS Prof. Donato Malerba Department of Informatics, University of Bari, Italy ASSO.
Introduzione Grid1 Introduzione ai Sistemi Grid. Introduzione Grid2 Generalità Un sistema Grid permette allutente di richiedere lesecuzione di un servizio.
Chistmas is the most loved holiday of the years. Adults and children look forward to Chistmas and its magical atmosphere. It is traditional to decorate.
VARO SRL LOGISTIC, QUALITY, SERVICE
1 Attivita di ricerca Carlo Batini. 2 Aree Come costruire ed esprimere il contenuto informativo integrato di sistemi informativi complessi basati.
Concord A tool for the analysis and concordances of the terminological constituents P. Plini, N. Mastidoro* * - Èulogos, Rome Institute for Atmospheric.
Francesca Pizzorni Ferrarese 05/05/2010
Palermo, may 2010 F.Doumaz, S.Vinci (INGV-CNT- Gruppo di telerilevamento)
Ischia, giugno 2006Riunione Annuale GE 2006 Exploiting the Body Effect to Improve Analog CMOS Circuit Performances *P. Monsurrò, **S. Pennisi, *G.
Project Review byNight byNight December 6th, 2011.
UNIVERSITÀ DEGLI STUDI DI PAVIA FACOLTÀ DI ECONOMIA, GIURISPRUDENZA, INGEGNERIA, LETTERE E FILOSOFIA, SCIENZE POLITICHE. Corso di Laurea Interfacoltà in.
Guardate le seguenti due frasi:
ROBINSON CRUSOE ROBINSON CRUSOE’S ISLAND L’ ISOLA DI
Calibrating (Partial Equilibrium) Mathematical Programming Spatial Models Open questions … (filippo arfini) III Workshop PUE&PIEC - Treia (Mc), 3-4 febbraio.
Frequency Domain Processing (part 2) and Filtering C. Andrés Méndez 03/04/2013.
Tutor: Elisa Turrini Mail:
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
Project Review byNight byNight December 21th, 2011.
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
Project Review byNight byNight December 5th, 2011.
FARE ADESSO Describe the people in the picture in three words in Italian. Think of their size compared to each other, colors of their clothes.
1 Basi di dati (Sistemi Informativi) Scuola di Dottorato in Scienze Veterinarie per la Salute Animale e la Sicurezza Alimentare a.a Ing. Mauro.
Collection & Generics in Java
EMPOWERMENT OF VULNERABLE PEOPLE An integrated project.
Introduction to automatic ABMs documentation Keywords: Doxygen ODD protocol MASON documentation Simone Romano.
Content packaging Concetti principali Descrizione del package.
Passato Prossimo. What is it?  Passato Prossimo is a past tense and it is equivalent to our:  “ed” as in she studied  Or “has” + “ed” as in she has.
Lezione n°27 Università degli Studi Roma Tre – Dipartimento di Ingegneria Corso di Teoria e Progetto di Ponti – A/A Dott. Ing. Fabrizio Paolacci.
Italian 1 -- Capitolo 2 -- Strutture
Scenario e Prospettive della Planetologia Italiana
Well and Truly by Roni Horn. Mind map Artist’s name Techniques Life Groupworks Artworks My opinion Her message My artwork inspiried by…
Studente : Andrea Cassarà Classe: 5AII A.S. 2014/2015 Link Sito
La Grammatica Italiana Avanti! p
Accesso al corpus it. / ing. parola cercata sintagmi preposizioni.
Place Title / Heading Here
Transcript della presentazione:

Documenti non strutturati sul Web e Semantica Dott. Matteo Palmonari

–2–2 –Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill Semantica nelle basi di dati relazionali La semantica di una base di dati è definita in accordo con la struttura relazionale (algebra relazionale) ed è determinata, relativamente ai suoi elementi costitutivi (valori, tuple, relazioni), sostanzialmente da: Livello dello schema: schema logico definisce la macro-organizzazione della rappresentazione di un dominio vincoli di integrità definiscono vincoli relazionali di dettaglio tra specifici oggetti e fatti rappresentati Livello delle istanze: insieme delle istanze costituisce linsieme di oggetti e fatti effettivamente rappresentati come veri nella bas di dati

–3–3 –Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill Semantica, Schemi e Istanze Lo schema di una base di dati definisce le regole generali cui deve aderire ciascun insieme di istanze (per essere considerato valido); è in questi termini che lo schema costituisce una parte fondamentale della semantica di una base di dati Tali regole (ad esempio i vincoli di integrità) supportano linterrogazione delle basi di dati (verifica della sussistenza o non sussistenza di alcuni fatti nella base di dati) permettono di controllare la validità dello schema non permettono di dedurre nuove conoscenze

–4–4 –Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill Query nel modello relazionale Il linguaggio di interrogazione piùdiffuso per le basi di dati è SQL (Structured Query Language) Ragionamento piuttosto debole

SQL Query Example SQL (base/select) Principio: soddisfazione/correttezza Meccanismo/semantica: algebra relazionale –5–5 –Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill

–6–6 Esempi di altri data model

The Object-Oriented Data Model –7–7 –Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill Objects/id Attributes Methods Classes Class Hierachies Alla base di JAVA/C++ etc

Object-Oriented Schema (Example) –8–8 –Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill

Cosa succede nel Web? –9–9 –Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill Ci sono ancora schemi e istanze? Che tipo di interrogazioni si possono fare? Che tipo di ragionamenti si possono fare?

Web page (Web 1.0) Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill 10

Information Retrieval The information retrieval system has to deal with the following tasks…

Micro-Introduction to Information Retrieval & Search Engines Slides and material from Karl Aberer EPFL-IC, Laboratoire de systèmes d'informations répartis

Information Retrieval – Document Model Generating structured representations of information items: this process is called feature extraction and can include simple tasks, such as extracting words from a text as well as complex methods, e.g. for image or video analysis.

Information Retrieval – Query Model Generating structured representations of information needs: often this task is solved by providing users with a query language and leave the formulation of structured queries to them. This is the case for example for simple keyword based query languages, as used in Web search engines. Some information retrieval systems also support the user in the query formulation, e.g. through visual interfaces.

Information Retrieval – Matching Model Matching of information needs with information items: this is the algorithmic task of computing similarity of information items and information need and constitutes the heart of the information retrieval model. Similarity of the structured representations is used to model relevance of information for users. As a result a selection of relevant information items or a ranked result can be presented to the user.

Information Retrieval - Efficiency Since information retrieval systems deal usually with large information collections and/or large user communities, the efficiency of an information retrieval system is crucial. This imposes fundamental constraints on the retrieval model. Retrieval models that would capture relevance very well, but are computationally prohibitively expensive are not suitable for an information retrieval system.

Text Retrieval (search engines) The currently most popular information retrieval systems are Web search engines. To a large degree, they are text retrieval system, since they exploit only the textual content of Web documents for retrieval. However, more recently Web search engines also start to exploit link information and even image information (e.g. Googles page Rank). The three tasks of a Web search engine for retrieval are:

Text Retrieval (search engines) 1.extracting the textual features, which are the words or terms that occur in the documents. We assume that the web search engine has already collected the documents from the Web using a Web crawler.

Text Retrieval (search engines) 2.support the formulation of textual queries. This is usually done by allowing the entry of keywords through Web forms.

Text Retrieval (search engines) 3.computing the similarity of documents with the query and producing from that a ranked result. Here Web search engines use standard text retrieval methods, such as Boolean retrieval and vector space retrieval.

The Retrieval Model Determines –the structure of the document representation –the structure of the query representation –the similarity matching function• Relevance –determined by the similarity matching function –should reflect right topic, user needs, authority, recency –no objective measure• Quality of a retrieval model depends on how well it matches user needs ! Comparison to database querying –correct evaluation of a class of query language expressions –can be used to implement a retrieval model

The Retrieval Model The heart of an information retrieval system is its retrieval model. The model is used to capture the meaning of documents and queries, and determine from that the relevance of documents with respect to queries. Although there exist a number of intuitive notions of what determines relevance one must keep clearly in mind that it is not an objective measure. The quality of a retrieval system can principally only be determined through the degree of satisfaction of its users. This is fundamentally different to database querying, where there exists a formally verifiable criterion for the task to be performed: whether a result set retrieved from a database matches the conditions specified in a query.

The Vector Space Model

Example

The document model the structure of the document representation –Term-document matrix

Example Vector-Space Retrieval

–Emanuele Della Valle - Introduction What does Google understand? Understanding that [page1] links [page2] page2 is interesting Google is able to rank results! The heart of our software is PageRank, a system for ranking web pages […] (that) relies on the uniquely democratic nature of the web by using its vast link structure as an indicator of an individual page's value. –27

Pagine Web: query model Principio: rilevanza (documenti rilevanti) Meccanismo/semantica: –Contenuto: indicizzazione (feature extraction): keywords + testo –Provenienza: pageRank –… Meccanismi sintattici e basati su criteri di trust 28

Directories File system Web

Directories Web

Directories Blogs by topics

Directories: query model Principio: appartenenza alla directory (correttezza) Meccanismo/semantica: –Contenuto: documenti appartenenti alle categorie / relazione di contenimento tra categorie Meccanismi di organizzazione gerarchica delle informazioni 32

Metadata / Tag / Folksonomies Metadati: dati che descrivono altri dati /documenti –E.g. creatore, autore, ultima modifica etc. –E.g. contenuto, caratteristiche, etc Sistemi di metadati Attributo-Valore –E.g. creatore: Matteo Palmonari –Spesso sistematizzati in standard o standard di fatto E.g. Dublincore (metadati generici) – E.g. MPEG-7 (audio/video) – Sistemi di tag –E.g. Viaggi, Malesia, Mare

Metadata / Attribute-Value File system Music

Metadata / Attribute-Value File system / Images

Metadata / Attribute-Value Web / Images

Metadata & Search Web / Images

Metadata & Search Web / Images / Search: where=malaysia

Folksonomies Tagging systems –Tags (sort of concepts) associated with pieces of information E.g. blog posts, videos, pictures Tagging systems –Tags (sort of concepts) associated with pieces of information E.g. blog posts, videos, pictures

Folksonomies & Search Tag Clouds

Folksonomies Blogs

Folksonomies Tagging systems –Tags (sort of concepts) associated wit pieces of information E.g. blog posts, videos, pictures –Semantic weaknesses: 1.the ambiguity of tags, for one tag may refer to several concepts ; 2.the variability of the spelling, for several tags may refer to the same concept; 3.the lack of explicit representations of the knowledge contained in folksonomies, ambiguous relations between the piece of information and the tag; 4.the difficulties to deal with tags from different languages.

Folksonomies: query model Principio: rilevanza/correttezza Meccanismo/semantica: –Associazione tag: Per una query con un tag T, si trovano tutti I documenti relativi a T (annotati con T, annotati con tags simili a T etc…) Costruzione collaborativa dei sistemi di tag (tag cloud) Semantic Ambigua 43

Schema vs Schemaless Uno schema per un insieme di dati specifica vincoli di carattere generale tra i dati –Tali vincoli organizzano in dati strutture –I dati organizzati in strutture per mezzo di schemi si dicono dati strutturati (esempio: dati delle basi di dati relazionali) –La struttura fornisce una chiave interpretativa per i dati –La struttura può essere utilizzata per definire interrogazioni corrette rispetto al modello in oggetto

Schema vs Schemaless Esprimere vincoli su dati ha un costo: –Costo di creazione –Costo di mantenimento –Costo di gestione –Costo in termini di efficienza delle procedure di interrogazione

Schema vs Schemaless Sistemi di metadati quali i sistemi di tag (annotazione) suppliscono alla mancanza di schema associando informazioni aggiuntive ai dati Tali informazioni possono supportare le procedure di interrogazione fornendo diverse dimensioni di ricerca e rendendole più precise La semantica di tali dati resta tuttavia più ambigua e, in generale, imprecisa

Schema vs Schemaless Come associare semantica in modo meno ambiguo sul Web? Annotazione dei contenuti sul Web con tecniche più sofisticate (XML, RDF, Ontologie)

Intensione/Estensione Nei dati strutturati è possibile individuare due aspetti delle informazioni e conoscenze rappresentate: –Intensione: vincoli generali di dominio –Estensione: dati, istanze di oggetti che soddisfano determinati vincoli StudenteVotoLodeCorso e lode e lode Esami Parte Intensionale Parte Estensionale Estensione del concetto voto di studente

Intensione/Estensione Linguaggi formali per rappresentare la conoscenza: Cosa rappresentare? Concetti Predicati unari P(x) Relazioni Predicati binari, ternari... R(x,y), R(x,y,z) Semantica standard su base insiemistica: Concetti Insiemi Relazioni Insiemi di n-uple Rappresentazione ESTENSIONALE! Statica... Linguaggio (L) Semantica (M) Conoscenza sulla realtà inferenza

Intensione/Estensione Linguaggi formali per rappresentare la conoscenza: Cosa rappresentare? Concetti Predicati unari P(x) Relazioni Predicati binari, terziari... R(x,y), R(x,y,z) Semantica standard su base insiemistica: Concetti Insiemi Relazioni Insiemi di n-uple Rappresentazione ESTENSIONALE! Statica... Linguaggio (L) Semantica (M) Conoscenza

Intensione/Estensione Quello che interessa dal punto di vista della possibilità di fare inferenza è una caratterizzazione della rappresentazione che tratti concetti e relazioni indipendentemente dagli oggetti che nella circostanza specifica entrano a darne la definizione estensionale. INTENSIONE di concetti e relazioni: Proprietà formali di alto livello Necessità di un linguaggio per definirle Linguaggio (L) Semantica (M) Conoscenza E.g. IN è transitiva E.g. Inferire IN(x,z) Da: IN(x,y) + IN(y,z) inferenza

Intensione e inferenza Proprietà di alto livello (aspetti intensionali di una base di conoscenza ) 1. Coinvolgono una sola relazione: e.g. simmetria: 2. Coinvolgono più concetti/relazioni: a - Interdipendenze e interdefinizioni tra relazioni e.g. Nord Est = Nord Est e.g. ? b - Relazioni tra concetti e.g. FiguraGeometrica e Triangolo...

1- Inferenza: proprietà delle relazioni a b c d e f ab c d e f 1 – Proprietà delle relazioni e.g. IN: Transitività... IN(a,b); IN(b,d); IN(d,e); IN(e,c) Assioma di L

1- Inferenza: proprietà delle relazioni a b c d e f ab c d e f IN: Transitività... IN(a,b); IN(b,d); IN(d,e); IN(e,c) Altre proprietà? e.g. antisimmetria? Più proprietà? (coerenza?) e.g. antisim + rifl + trans? antisim + irrifl + trans

Relazioni tra concetti e.g. FiguraGeometrica e Triangolo... Figura geometrica TriangoloSfera... Triangolo IS-A FigGeometrica Triangolo è sussunto da FigGeometrica ? Triangolo eredita le proprietà di FigGeometrica ? haPerimetro(x)... Da 1.a: NordEst IS-A Nord ???

Schema, Vincoli, Ontologie Schema vs Schemaless: un continuoum Schema, logicamente: un insieme più o meno ricco di vincoli –Schema di database: insieme di vincoli piuttosto ristretto –Schema di database più vincoli di integrità: insieme di vincoli più sofisticato –Schema di database più vincoli di integrità più business rules: insieme di vincoli molto sofisticato (infatti, intrattabile computazionalmente) –Ontologie