UNIVERSITÀ DEGLI STUDI DI BARI FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI CORSO DI LAUREA IN INFORMATICA TESI DI LAUREA IN METODI AVANZATI DI PROGRAMMAZIONE.

Slides:



Advertisements
Presentazioni simili
Trieste, 26 novembre © 2005 – Renato Lukač Using OSS in Slovenian High Schools doc. dr. Renato Lukač LinuxDay Trieste.
Advertisements

IRCCS Fondazione Salvatore Maugeri Clinica del Lavoro e della Riabilitazione, Pavia (founder) Università degli Studi, Pavia (founder) IRCCS Fondazione.
“FIBROSI NEFROGENICA SISTEMICA”
Divisione in gruppi di tre persone
Estrazione di informazioni da testo. Perchè occuparsene? E unapplicazione particolarmente complessa. Sfrutta la maggior parte delle risorse utilizzate.
Cache Memory Prof. G. Nicosia University of Catania
Teoria e Tecniche del Riconoscimento
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
A. Oppio, S. Mattia, A. Pandolfi, M. Ghellere ERES Conference 2010 Università Commerciale Luigi Bocconi Milan, june 2010 A Multidimensional and Participatory.
EUROPA TERRA DI MISSIONE. Flags of Europe This page contains flags and maps for Europe and its countries. European Union MAPS Europe 1 -- no flag references.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
DG Ricerca Ambientale e Sviluppo FIRMS' FUNDING SCHEMES AND ENVIRONMENTAL PURPOSES IN THE EU STRUCTURAL FUNDS (Monitoring of environmental firms funding.
VOICE and MOISE Projects - Madrid I PROGETTI VOICE E MOISE Presentazione di Giuliano Pirelli European Commission Joint Research Centre Institute for the.
WSDL (Web Services Description Language) Laurea Magistrale in Informatica Reti 2 (2006/07) dott. Federico Paoloni
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:
Copia darchivio (Preservation copy) A Preservation copy (or Archive copy) is the artefact designated to be stored and maintained as the preservation master.
Cancer Pain Management Guidelines
A. Nuzzo U.O. di Oncologia Medica ospedale Renzetti di Lanciano (CH)
L’albero della famiglia
1 Ricerca del bosone di Higgs nel canale di decadimento WW (*) 2l2 nel canale di decadimento WW (*) 2l2 Dati Spring07 CMSSW_1_3_x 100 pb -1 (47 pagine)
A Glossary of Social Sciences
ANALISI DELLE ISTITUZIONI POLITICHE corso progredito Biennio di laurea magistrale Politica e Istituzioni Comparate Lezione 25 – Il processo legislativo.
Raffaele Cirullo Head of New Media Seconda Giornata italiana della statistica Aziende e bigdata.
DISP, Tor Vergata The AI-NLP group at Computer Science Dept Prof. Maria Teresa PAZIENZA Prof. Roberto BASILI 2-4 Researchers 1-2 PhD students 1-2.
HDM Information Design notation v.4. HDM Information Design.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Pubmed CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.
Biometry to enhance smart card security (MOC using TOC protocol)
Corso di Laurea in Ingegneria Elettronica - U niversità di N apoli F EDERICO II Autori XXXXX XXXXXXX YYYYY YYYYYYY ZZZZZ ZZZZZZZ Titolo tesina Parte X:
TIPOLOGIA DELLE VARIABILI SPERIMENTALI: Variabili nominali Variabili quantali Variabili semi-quantitative Variabili quantitative.
1. Conoscere luso delle collezioni in Java Comprendere le principali caratteristiche nelle varie classi di Collection disponibili Saper individuare quali.
Metodi di simulazione numerica in Chimica Fisica Dario Bressanini Universita degli Studi dellInsubria III anno della Laurea triennale in Scienze Chimiche.
2000 Prentice Hall, Inc. All rights reserved. 1 Capitolo 3 - Functions Outline 3.1Introduction 3.2Program Components in C++ 3.3Math Library Functions 3.4Functions.
Watson et al. , BIOLOGIA MOLECOLARE DEL GENE, Zanichelli editore S. p
1 laboratorio di calcolo II AA 2003/04 ottava settimana a cura di Domizia Orestano Dipartimento di Fisica Stanza tel. ( )
FONDAMENTI DI INFORMATICA III WfMC-1. FONDAMENTI DI INFORMATICA III WfMC-2 WFMC Cose WfMC Workflow Management Coalition (WfMC), Brussels, è unorganizzazione.
Compito desame del Svolgimento della Sezione 5: CONTROLLORI Esempio preparato da Michele MICCIO.
SOURCE TERM ON NPP SAFETY ANALYSES Marino Mazzini Professore Ordinario nel s.s.d. Impianti Nucleari Università di Pisa Facoltà di Ingegneria Dipartimento.
Palermo, may 2010 F.Doumaz, S.Vinci (INGV-CNT- Gruppo di telerilevamento)
25/09/2009 In un bar italiano Un ripasso Vocabolario Pagina 28.
PASTIS CNRSM, Brindisi – Italy Area Materiali e Processi per lAgroindustria Università degli Studi di Foggia, Italy Istituto di Produzioni e Preparazioni.
Ischia, giugno 2006Riunione Annuale GE 2006 Exploiting the Body Effect to Improve Analog CMOS Circuit Performances *P. Monsurrò, **S. Pennisi, *G.
Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea Specialistica in Ingegneria Informatica Analisi e valutazione.
UNIVERSITÀ DEGLI STUDI DELLINSUBRIA Facoltà di Scienze matematiche, fisiche e naturali Corso di Laurea in SCIENZE DELLA COMUNICAZIONE Dott. Nicola AMATO.
ICF e Politiche del Lavoro
Attività Formativa Sviluppo di un WORKFLOW ENGINE di Dott. Riccardo Gasperoni Alessandro Caricato Gabriele Trabucco in collaborazione con Progesi S.p.A.
UNIVERSITÀ DEGLI STUDI DI PAVIA FACOLTÀ DI ECONOMIA, GIURISPRUDENZA, INGEGNERIA, LETTERE E FILOSOFIA, SCIENZE POLITICHE. Corso di Laurea Interfacoltà in.
Guardate le seguenti due frasi:
ROBINSON CRUSOE ROBINSON CRUSOE’S ISLAND L’ ISOLA DI
CORE STRENGTH SYNERGY AND ITS INFLUENCE IN NON CHRONIC LBP Anna Rita Calavalle, Davide Sisti, Giuseppe Andolina, Marco Gervasi, Carla Spineto, Marco Rocchi,
Tutor: Elisa Turrini Mail:
Models of Knowledge and Models of Data: Social Network Analysis between Mathematical Relations and Social Relations Alfredo Givigliano Department of Philosophy.
Quale Europa? Riscopriamo le radici europee per costruire unEuropa PIÙ vicina a noi ISTITUTO COMPRENSIVO MAZZINI CASTELFIDARDO PROGETTO COMENIUS 2010/2012.
INVECCHIAMENTO CEREBRALE
Interoperabilità tra servizi eterogenei M. Missikoff – F. Taglino LEKS, IASI-CNR Una piattaforma inferenziale per il Web Semantico: Jena2 Roma, 2006 Web.
Each meeting was an opportunity to pause; to listen and to find God in the quiet. Ogni incontro si è presentato come un'opportunità per ascoltare, riflettere.
Obesity surgery triples among U.S. teens Long-term outcomes unknown, especially for patients as young as 12 Surgeons to carry out plastic surgery on obese.
1 Basi di dati (Sistemi Informativi) Scuola di Dottorato in Scienze Veterinarie per la Salute Animale e la Sicurezza Alimentare a.a Ing. Mauro.
Analysis and Development of Functions in REST Logic: Application to the «DataView» Web App UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA DIPARTIMENTO.
Collection & Generics in Java
PLURALI - with NOUNS PAY ATTENTION TO THE ENDING OF THE NOUN! “O” ---> “I” ex) il quaderno -> i quaderni “A” ---> “E” ex) la matita -> le matite “E” --->
La DNA Polimerasi può commettere errori Nei batteri: 1 errore ogni 10 9 basi in ogni generazione.
Guida alla compilazione del Piano di Studi Curricula Sistemi per l’Automazione Automation Engineering.
Lezione n°27 Università degli Studi Roma Tre – Dipartimento di Ingegneria Corso di Teoria e Progetto di Ponti – A/A Dott. Ing. Fabrizio Paolacci.
Italian 1 -- Capitolo 2 -- Strutture
Interrogazioni private di database mediante Filtri di Bloom:
Castelpietra G., Bassi G., Frattura L.
Cancer First-second most common cause of death in Western world One in 2-3 Western people will die of cancer.
Transcription termination RNA polymerase I terminates transcription at an 18 base terminator sequence. RNA polymerase III terminates transcription in poly(U)
Transcript della presentazione:

UNIVERSITÀ DEGLI STUDI DI BARI FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI CORSO DI LAUREA IN INFORMATICA TESI DI LAUREA IN METODI AVANZATI DI PROGRAMMAZIONE REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI TEXT-MINING IN BIOINFORMATICA Relatori: Prof. Donato Malerba Correlatore: Dr. Corrado Loglisci Laureando: Pietro La Grotta

Un sistema di Information Extraction (IE) : Dato un testo scritto in un linguaggio naturale e contenente informazione non strutturata, IE identifica informazione di interesse e la rappresenta in forma strutturata. Tale informazione può essere utilizzata in processi di Text Mining (TM) ovvero il Data Mining applicato a collezioni di testi. IE – Attività: Named Entity Recognition (NE) Coreference Resolution (CO) Template Element Construction (TE) Template Relation Construction (TR) Scenario Template Production (ST) TM – Algoritmi: Classificazione Clustering Scoperta di trend Scoperta di pattern Summarization Scoperta di dipendenze Laureando: Pietro La Grotta Laureando: Pietro La Grotta

TF: riconoscere un insieme di entità nominate e legate tra loro concettualmente e rappresentare questa informazione in strutture pre-definite NER: riconoscere entità nominate di interesse presenti allinterno dei testi. Il processo di identificazione impiega features morfologiche, sintattiche e semantiche delle entità. … starting approximately 35kb upstream (telomeric) to the GJB2 gene was identified in 7 patients from 4 unrelated Jewish Ashkenazi families with non-syndromic hearing loss. These patients were heterozygous for one of the common mutations 167delT or 35delG … gene malattia mutazione … The authors describe a novel pathogenic G5540A transition in the mitochondrial transfer RNA (tRNA)Trp gene of a sporadic encephalomyopathy characterized by spinocerebellar ataxia. Clinical features also included neurosensorial deafness, peripheral neuropathy, and dementia … disease symptoms clinics Laureando: Pietro La Grotta Laureando: Pietro La Grotta

1.Named Entity Recognition per un task di Textual Profile Clustering 2.Named Entity Recognition per un task di Semantic Search Engine 3.Template Filling con strutture Predicato-Argomento per un task di Pattern Discovery Laureando: Pietro La Grotta Laureando: Pietro La Grotta

Textual Profile Clustering (TPC): Tecnica di raggruppamento di testi basata su similarità tra testi rappresentati in forma di textual profile: un profile tiene conto di keyword presenti nel testo e di loro caratteristiche (posizione, frequenza,…) Ruolo di NER per TPC: …35kb upstream (telomeric) to the GJB2 (CX26) gene was identified… …of inheritance of GJB2 and GJB6 genes that encode two different connexins; connexin 26 and connexin 30, or it may abolish… GJB2 GJB6 Laureando: Pietro La Grotta Laureando: Pietro La Grotta

1. Riconoscimento delle Entità Biomediche di interesse presenti nei documenti 2.Normalizzazione di nomi varianti (sinonimie, abbreviazioni, acronimi) con nomi canonici 3.Interpretazione delle entità secondo conoscenza di dominio Soluzione Proposta …35kb upstream (telomeric) to the GJB2 (CX26) gene was identified… …connexin 26 and connexin 30, or it may abolish… GJB6 …35kb upstream to the GJB2 gene Laureando: Pietro La Grotta Laureando: Pietro La Grotta

Impiego di librerie di Text Analytics (GATE) Laureando: Pietro La Grotta Laureando: Pietro La Grotta 1. Riconoscimento di Entità Biomediche di interesse 2. Normalizzazione di varianti con canonici 3. Interpretazione delle entità

Laureando: Pietro La Grotta Laureando: Pietro La Grotta Risultati Sperimentali Dataset: 10 artificiali + 10 reali Sperimentazioni condotte per il riconoscimento di 1)entità del problema specifico, 2)entità biomediche generali) Valutazione manuale Precision & Recall

Laureando: Pietro La Grotta Laureando: Pietro La Grotta Risultati Sperimentali Mutation CD44 the Genes GJB2 encoding GJB2, a RGS6PL-5283, have been shown to be responsible WWOX a majority BRIP1 recessive nonsyndromic hereditary hearing impairment CD44 children. Over 60 different Mutation CD44 GJB2 have been reported. To obviate the need WWOX direct sequencing BRIP1 each specimen, a variety BRIP1 screening techniques have been used to detect Mutation CD44 GJB2. Mutations in the gene GJB2 encoding connexin 26 (Cx26), a gap junction protein, have been shown to be responsible for a majority of recessive nonsyndromic hereditary hearing impairment in children. Over 60 different mutations in Cx26 have been reported. To obviate the need for direct sequencing of each specimen, a variety of screening techniques have been used to detect mutations in Cx26. input output

Semantic Search Engine (SSE): Tecnica di Information Retrieval basata su indicizzazione semantica dei termini rappresentativi del documento (index term): operazioni di trasformazione del testo sono necessarie per ridurre il numero degli index term Ruolo di NER per SSE: Laureando: Pietro La Grotta Laureando: Pietro La Grotta …35kb upstream (telomeric) to the GJB2 (CX26) gene was identified… …of inheritance of GJB2 and GJB6 genes that encode two different connexins; connexin 26 and connexin 31, or it may abolish… GJB6

Laureando: Pietro La Grotta Laureando: Pietro La Grotta Soluzione Proposta 1.Riconoscimento delle Entità Biomediche di interesse presenti nei documenti 2.Interpretazione delle entità secondo conoscenza di dominio 3.Labeling di entità riconosciute 4.Rappresentazione in formalismo standard IOB-2 GJB6 B – Genes Index Term Singoli Connexin B – Connexins 31 I Index Term Multi-Word …35kb upstream to the GJB2 gene …35kb upstream (telomeric) to the GJB2 (CX26) gene was identified… …of inheritance of GJB2 and GJB6 genes that encode two different connexins; connexin 26 and connexin 31, or it may abolish… Genes Connexins

Laureando: Pietro La Grotta Laureando: Pietro La Grotta Impiego di librerie di Text Analytics (GATE) 1. Riconoscimento di Entità Biomediche di interesse 2. Interpretazione delle entità 1. Riconoscimento di Entità Biomediche di interesse 3.& 4. Labeling & Rappresentazione IOB-2

Laureando: Pietro La Grotta Laureando: Pietro La Grotta Dataset: 10 artificiali + 10 reali Sperimentazioni condotte per il riconoscimento di 1)entità del problema specifico, 2)entità biomediche generali) Valutazione manuale Precision & Recall Risultati Sperimentali

Pattern Discovery (PD): Estrazione di regolarità statistiche nella forma di co- occorrenze di items/eventi. Luso di strutture Predicato-Argomento (PAS) supporta la scoperta di co-occorrenze di items in termini di predicati verbali che li mettono in relazione. Ruolo di Template Filling per PD: Laureando: Pietro La Grotta Laureando: Pietro La Grotta …A 342-kb deletion truncating the GJB6 gene (encoding connexin-30)… PAS-truncate template Pubblicazioni Scientifiche Pattern Discovery Relazionale Template FillingEstrazione di PAS

1. Estrazione di PAS dai testi 2. Filling di Templates pre-definiti sulla base di PAS di background 3.Rappresentazione in formalismo relazionale (Datalog) Laureando: Pietro La Grotta Laureando: Pietro La Grotta Soluzione Proposta predicate …A 342-kb deletion truncating the GJB6 gene (encoding connexin-30)… ["truncate" "342-kb deletion" "GJB6 Gene] chromosomal name locus name gene name ["truncate" "342-kb " "GJB6 ] pas(paper_1,structure_1). predicate(structure_1,truncate). chromosomal_name(structure_1,342-kb). gene_name(structure_1,GJB6). locus_name(structure_1,generic_locus_name).

Laureando: Pietro La Grotta Laureando: Pietro La Grotta Impiego di librerie di Text Analytics (MontyLingua, GATE) 1.Estrazione di PAS dai testi 2. Filling di PAS templates 3.Rappres. in formalismo relazionale

Laureando: Pietro La Grotta Laureando: Pietro La Grotta Risultati Sperimentali Pubblicazioni con minimo 5 istanze PAS 13 PAS templates di background Dataset: 6584 Minsup: 2% 2382 Pattern relazionali in termini di PAS Pattern più informativi (4) con PAS-structure inhibit abs(A),pas(A,B),verb_rule(B,inhibit), homosapiens_gene_role0(B,prkab1), chemicals_and_drugs_role2(B,metformin), biological_sciences_role1(B,growth) supporto:2.9% abs(A),pas(A,B),verb_rule(B,inhibit),organisms_role2(B,brucella_abortus), homosapiens_gene_role1(B,sema6a), homosapiens_gene_role0(B,taf8) supporto: 2.9%

Laureando: Pietro La Grotta Laureando: Pietro La Grotta Sviluppo di tre strumenti di IE a supporto della investigazione di biomedicina basata su analisi di dati testuali. Valutazione dell accuratezza mostra buona performance degli strumenti di NER. Applicazione dello strumento di TF per PD ad insiemi di testi più voluminosi e ad altri domini (esempio, web news).

GRAZIE PER LA VOSTRA CORTESE ATTENZIONE