Referente per il progetto: Roberto Navigli

Slides:



Advertisements
Presentazioni simili
Digressione: il linguaggio di query CQP
Advertisements

Concord A tool for the analysis and concordances of the terminological constituents P. Plini, N. Mastidoro* * - Èulogos, Rome Institute for Atmospheric.
Il Semantic Web applicato ai percorsi formativi nelle organizzazioni innovative By CSTAdvising CSTAdvising, professionisti della conoscenza,
PART 3: DATA ANALYSIS THROUGH OMNIFIND. Il cliente: una sorgente importante di informazioni Mercato iper-competitivo, altamente caotico. Cliente al centro.
Costruzione semi-automatica di una tassonomia nel dominio “caso Aldo Moro” SAPIENZA (UNIMED)
Spunti per la sperimentazione in aula. Obiettivi della sperimentazione:  To develop a sense of community in terms of peer  To learn to take a critical.
Università degli Studi di Torino Torino, 18 maggio 2016 Maria Alisia Poggio Training Specialist – Italia, Israele, Malta, Spagna e Svizzera Italiana
Oltre il web 2.0: il web semantico Seminario. World Wide Web ● Nasce nel 1991 al CERN di Ginevra Evoluzione: web dinamico ● Si basa su ● URL ● HTTP ●
1 Come cercare le fonti di informazione scientifica Operatori e wildcards a cura della Biblioteca di Agraria.
Inserire Titolo Inserire sottotitolo. Aggiungere titolo paragrafo. Modello testo a elenco punti. Testo a elenco. Punto 1 Testo a elenco. Punto 2 1.È possibile.
.  I tipi di dati non primitivi sono gli array, le struct e le union.  Gli array sono degli aggregati di variabili dello stesso tipo.  La dichiarazione.
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
L’ ORGANIZZAZIONE DEI DATI IN AZIENDA
Comunicazione web Università degli studi di Ferrara Ufficio web: Corso Plone Base 22 Novembre 2016 Diapositiva :
GLI IPERMEDIA LA COMUNICAZIONE è una forma di relazione sociale che coinvolge aspetti ed elementi diversi. E’ composta da: MITTENTE= chi manda.
Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill
“Vivere insieme” – Lezione4
Questa è la piattaforma d’Istituto
“Lenuove tecnologie” – Lezione2
Come e dove chiedere aiuto su tematiche CDISC: CDISC Forum, Linkedin e presentazione CDISC Italian UN Linkedin Group Riccardo Bezzo (Helsinn) Fabio Montanaro.
GNALIS: Grid technologies for Natural Language Interaction System
Introduzione al linguaggio C
Scrittura collaborativa su Google Documents
Termini CINAHL/MeSH su EBSCOhost
Tutorial help.ebsco.com.
Slide a: Summer School LDA Libraries in the digital age: linked data technologies for a global.
Le basi dati CINAHL Tutorial sulla ricerca semplice
Catturare l’attenzione dell’uditorio
Benvenuti nel mondo McGraw-Hill
Drupal tipi di contenuto
Benvenuti nel mondo McGraw-Hill
Excel 1 - Introduzione.
“Vivere insieme” – Lezione3
Tipo di dato: array Un array è un tipo di dato usato per memorizzare una collezione di variabili dello stesso tipo. Per memorizzare una collezione di 7.
PROGRAMMAZIONE BASH – ISTRUZIONE IF
FAQ.
I tag essenziali.
SAS® OnDemand for Academics SAS Studio
Che cosa è un problema matematico
Ardis e il sistema qualità
1.
Consultare un corpus con AntConc
Aggiungere un titolo di diapositiva - 1
realizzato dal prof.Conti Riccardo
המים בגוף האדם. מגישות:קרישטל אירית אנגיל עירית.
Introduzione alla normalizzazione
INTRODUZIONE A EXCEL Il foglio elettronico o foglio di calcolo è una tabella che contiene parole e numeri che possono essere elaborati applicando formule.
Introduzione alla materia sistemi
Consultare un corpus con AntConc
4.
Catturare l’attenzione dell’uditorio
le fonti di informazione scientifica
QUESTIONARIO PER LA RILEVAZIONE DELLE COMPETENZE DIGITALI E LINGUISTICHE DEI DOCENTI SINTESI Anno scolastico 2016/2017.
Corsi di Laurea in Biotecnologie
Terza Lezione Elaborazione testi con Microsoft OfficeWord
Aggiungere un titolo di diapositiva - 1
Registrazione …Registro CONI 2.0
Macchine Parlanti A.A. 2018/19 Titolo progetto (es. orologio parlante senza display) template per il progetto finale del corso di Documentazione Linguistica.
Corso di Algoritmi e Strutture Dati APPUNTI SUL LINGUAGGIO C
Fogli di Calcolo Elettronici
Tutorial connect.ebsco.com.
Inserire Titolo Inserire sottotitolo.
Accesso al corpus it. / ing. parola cercata sintagmi preposizioni.
Aggiungere un titolo diapositiva 1
Unico 2009 – Esempi per la crisi
A-to-Z Consente di Localizzare e Accedere a tutte le risorse della biblioteca: riviste online riviste cartacee riviste nelle banche dati in full text riviste.
Modulo 2 Colombo Claudio  EU Web Agency Academy 
JavaScript 3. Le basi di JavaScript A. Ferrari.
Il questionario: progettazione e redazione II Modulo
Full Text Finder, panoramica di Publication Finder
Transcript della presentazione:

Referente per il progetto: Roberto Navigli Corso di Metodi di Estrazione delle Informazioni dal Web A.A. 2006/07 Progetto 1 Referente per il progetto: Roberto Navigli 24/02/2019

L’architettura del sistema Term Extractor Validazione della terminologia con TermExtractor Terminologia di dominio Corpus di documenti di dominio Conversione in OWL Creazione della tassonomia per string inclusion Terminologia di dominio validata Invio dell’ontologia a Navigli via email Indicizzazione semantica con Lucene Ricerca Semantica con Lucene Taxonomy Validator (TAV)

Da terminologia di Dominio Validata a Tassonomia per String Inclusion ambiguous word unambiguous word compound multi-word expression bag of words machine-readable dictionary reference dictionary lexical knowledge base lexical semantics lexicon structure linguistic knowledge base word ambiguous word unambiguous word compound expression multi-word expression words bag of words dictionary machine-readable dictionary reference dictionary base knowledge base lexical knowledge base linguistic knowledge base semantics lexical semantics structure lexicon structure codice java

Conversione in formato OWL della tassonomia Non è richiesto di utilizzare Jena Per ogni termine nella tassonomia, create un frammento OWL con questo schema: Id_concetto e id_padre sono gli identificativi univoci del concetto e del padre (potete utilizzare id numerici progressivi, ma per questioni di implementazione aggiungete un prefisso ID_ o qualsiasi prefisso con caratteri dell’alfabeto, es. ID_0000001 o MY_ONTOLOGY_0000001) <owl:Class rdf:about="http://lcl.di.uniroma1.it/ontologies/nome_file.owl#id_concetto"> <rdfs:subClassOf rdf:resource="http://lcl.di.uniroma1.it/ontologies/nome_file.owl#id_padre"/> <rdfs:label>multi-word expression</rdfs:label> </owl:Class>

Intestazione del file OWL In cima al file owl dovete aggiungere la seguente intestazione: <rdf:RDF xmlns="http://lcl.di.uniroma1.it/ontologies/nome_ontologia#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:daml="http://www.daml.org/2001/03/daml+oil#" xmlns:dc="http://purl.org/dc/elements/1.1/"> In coda al file owl dovete definire la relazione related-to (se pensate di usarla) e chiudere il tag <rdf:RDF>: <owl:DatatypeProperty rdf:about="http://lcl.di.uniroma1.it/ontologies/nome_ontologia#related-to"> <rdfs:range rdf:resource="xsd:string"/> </owl:DatatypeProperty> </rdf:RDF>

Formato dell’ontologia dopo la validazione con TAV Si ottiene il file in formato testo cliccando su “Download txt” concept_id|termine|numero_figli|lista di id dei figli separata da barra verticale (ovvero:|)|id_padre|nome_ relazione|numero_di_ istanze_della_relazione| elenco_di_istanze separate da barra verticale

Indicizzazione e ricerca semantica Utilizzate Lucene per indicizzare i documenti del corpus di dominio con i concetti dell’ontologia definitiva Se utilizzate formati non testuali, dovete occuparvi della conversione in formato txt Inserite la semantica nella fase di ricerca: Dato un termine w, indicizzo con w tutti i documenti che contengono w o un discendente di w nell’ontologia definitiva Se cerco le parole w1 e w2 => la query sarà (w1 OR (figli(w1)) AND (w2 OR (figli(w2)) oppure: (w1 OR (padre(w1)) AND (w2 OR (padre(w2)) oppure entrambi (sia discendenti che padre/i) Vi consigliamo di utilizzare solo discendenti e antenati di primo livello (ovvero, solo figli e padri diretti) Scegliete 10 query di vostro gradimento del tipo: w1 AND w2 e valutate le prestazioni con e senza semantica (ovvero, con e senza l’espansione di padri e figli) Potete valutare solo la precision, ovvero la percentuale di documenti restituiti che effettivamente hanno a che fare con il concetto richiesto