Text Mining Informatica applicata alla comunicazione multimediale

Slides:



Advertisements
Presentazioni simili
Prof. Reale Nicola Studentessa Parcesepe Federica
Advertisements

Giuditta Cantoni, 4 E S.I.A I DATABASE. Definizione databese In informatica, il termine database, banca dati o base di dati (a volte abbreviato con il.
CORSO elementare su DATABASE Applicativo utilizzato OpenOffice 3.0.
H T M L Hyper Text Markup Language L' HTML è un linguaggio di markup usato per la creazione di documenti ipertestuali sotto forma di pagine web.
PGDay 2009 FSGateway Ing. Torello Querci Resp. Architetture SW - Negens S.r.l. 4 Dicembre 2009, Pisa.
Gruppo Alpini Rivoli sezione Torino
Basi di dati - Fondamenti
Il Parallel Turin University Treebank
HTML5 Tools Pearson
Corso per Webmaster base
Lato Server - OMNIS Web Web Services.
GLI IPERMEDIA LA COMUNICAZIONE è una forma di relazione sociale che coinvolge aspetti ed elementi diversi. E’ composta da: MITTENTE= chi manda.
Laboratorio di produzione editoriale
NILDE per la scuola e le biblioteche pubbliche
“Vivere insieme” – Lezione4
Progetto ADEP Alovisi Davide Baroni Manuel Cotet Corneliu
Rete e comunicazione Appunti.
Rielaborato da Atzeni et al., Basi di dati, Mc-Graw Hill
materiali e supporti didattici verifiche didattiche
The English Language Centre 20/07/ /07/2015 Brighton
Come cercare le fonti di informazione scientifica RISORSE
EasyGraph Dynamic web-based dashboard
Universal Dependencies e treebank
Dal problema al processo risolutivo
Basi di Dati: Introduzione
Didattica speciale : codici del linguaggio logico e matematico
Linguistica e treebank
Il riassunto Scritto e orale.
Computer assisted translation e terminologia
LE BANCHE DATI PER LE RICERCHE BIBLIOGRAFICHE
COMUNICHIAMO E CONFRONTIAMOCI CON I MASS MEDIA
UML Creato da: Enrico Tarantino Alessandro Vilucchi Roberta Barcella.
Come si scrive un poster scientifico
Situazione attuale CSN4
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Gestione Informatica dei Dati Aziendali Sistemi Informativi Gestionali
Le banche dati digitali per la storia dell’arte
Internet.
IL TESTO ESPOSITIVO - INFORMATIVO
© 2007 SEI-Società Editrice Internazionale, Apogeo
POWER POINT Il programma, all'interno del pacchetto Office della Microsoft, è quello dedicato alla realizzazione di audiovisivi. Consente di creare documenti.
Che cos’e’ l’Informatica
Semantizzare la rete Web 3.0 ed Ontologie Dott. Michele Stingo
Legame fra orario della pubblicazione e ciclo di vita dei post sui social network esiste un momento ideale per la promo-comunicazione? Claudio Rossi.
Introduzione alle basi di dati
Informatica - Prof. Gregorio Cosentino
Il modello Puntoedu.
Statistica Scienza che studia i fenomeni collettivi.
Basi di dati - Fondamenti
Introduzione alla materia sistemi
HYPER TEXT MARK-UP LANGUAGE
Gli automi.
ADO Per gestire i database con tecnologia ASP si utilizzano strumenti ADO (ActiveX Data Objects): un'architettura che fornisce oggetti.
Lineamenti di italiano contemporaneo
Marco Panella Internet e WWW Marco Panella
Le reti informatiche di Roberto Minotti 17/01/2019.
Le reti informatiche di Roberto Minotti 15/02/2019.
I fogli elettronici Microsoft Excel.
© 2007 SEI-Società Editrice Internazionale, Apogeo
8. Altri oggetti JavaScript
Excel 3 - le funzioni.
Gli archivi e le basi di dati
CATALOGAZIONE EBOOK.
Fogli di Calcolo Elettronici
UNIVERSITÀ DI MODENA E REGGIO EMILIA
I siti web: statici e dinamici
ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining.
Come cercare le fonti di informazione scientifica RISORSE
Competenze Informatiche Avanzate
Gentica e Biologia Molecolare
Transcript della presentazione:

Text Mining Informatica applicata alla comunicazione multimediale 2016-2017 Cristina Bosco

Di cosa parleremo Che cosa significa text mining Dati eterogenei e dati strutturati Cosa sono i big data

Dati in forma testuale Siamo costantemente esposti ad una enorme quantità di dati eterogenei e non strutturati, i cosiddetti BIGDATA: oltre 80% di essi sono in forma testuale, in linguaggio naturale e spesso provenienti da social media

Dati eterogenei I dati sono eterogenei, cioè oggetti tra loro diversi, ed organizzati in reti eterogenee, formati da diversi tipi di legami tra gli oggetti, ad esempio: network medico (pazienti, medici, malattie, terapie, ...) network bibliografico (autori, testi, editori, biblioteche, ...)

Dati eterogenei Oggi (3 febbraio 17) alle ore 15,15 ho visitato Il sig. Rossi. Il paziente presenta una patologia all’articolazione della mano destra che oltre ad essere molto dolorosa può aggravarsi nell’arco di breve tempo. Si tratta di una lesione di origine traumatica al legamento ... Dott. Bianchini Un esempio di documento che contiene informazioni di natura medica.

Reti di dati patologia medico IL 2 giugno 20 16, alle ore 16 ho visitato Il sig. Verdi che presenta una patologia articolare alla mano sinistra provocata da trauma al legamento ... Dott. Gialli Oggi (3 febbraio 17) alle ore 15,15 ho visitato Il sig. Rossi. Il paziente presenta una patologia all’articolazione della mano destra che oltre ad essere molto dolorosa può aggravarsi nell’arco di breve tempo. Si tratta di una lesione di origine traumatica al legamento ... Dott. Bianchini patologia IL 12 giugno 20 16, alle ore 18 ho visitato Il sig. Marroni che ha un eczema sulle braccia ... Dott. Bianchini medico

Dati e problemi L’eterogeneità dei dati e delle loro reti è la loro maggiore ricchezza. I dati sono prodotti ed utilizzati da secoli in forma non strutturata dagli esseri umani. Gli esseri umani sono abituati ad accedere con grande facilità a dati eterogenei e non strutturati. E allora dove sta il problema?

Dai dati alla conoscenza Il problema è che la conoscenza è diluita e nascosta all’interno dei dati, che variano nel tempo e nello spazio Come esseri umani, per i nostri limiti fisici, possiamo purtroppo accedere ad una porzione molto limitata di dati.

Dai dati alla conoscenza La conoscenza è spesso data solo da un accesso ai dati nel loro complesso. Assaporare una fetta di una torta non è la stessa cosa che mangiare (parte de)i suoi singoli ingredienti!

Data mining e text mining Rispetto agli esseri umani i computer hanno capacità di accedere a quantità molto maggiori di dati. Tuttavia, pur lavorando molto bene sui dati strutturati, hanno difficoltà ad estrarre conoscenza da dati che non sono strutturati, perché non sanno distinguere la conoscenza dal “rumore”.

Dati non strutturati Oggi (3 febbraio 17) alle ore 15,15 ho visitato Il sig. Rossi. Il paziente presenta una patologia all’articolazione della mano destra che oltre ad essere molto dolorosa può aggravarsi nell’arco di breve tempo. Si tratta di una lesione di origine traumatica al legamento ... Dott. Bianchini In documenti non strutturati le informazioni compaiono in ordine sparso, cosa che rende difficile identificarle.

Dati molto strutturati: database I database sono strutture informatiche (insiemi di tabelle) in cui i dati sono presenti esclusivamente in forma strutturata. Ogni tabella ha righe e colonne eventualmente messe in relazione con altre tabelle. L’aspetto con cui i dati si presentano all’utente può essere di vario tipo.

Dati molto strutturati: database medico paziente data-visita Bianchini Rossi 13/2/16 Gialli 26/5/15 Verdi 23/6/16 Marroni 4/4/16 ... paziente patologia data Rossi articolare 13/2/16 ematologica 26/5/15 Verdi gastrica 23/6/16 Marroni dermatologica 7/9/16 ...

Un esempio di dati molto strutturati: dblp Quale conoscenza possiamo estrarre da dati (molto) strutturati (>2 milioni di articoli)? - chi è l’autore principale di testi su un dato argomento? ranking con chi ha collaborato un certo autore? relationship network come si sono evolute le pubblicazioni su un dato argomento? network

Un esempio di dati molto strutturati: dblp Che cosa possiamo fare con questa conoscenza? predire chi saranno i prossimi co-autori di un autore dato, sulla base di precedenti esperienze come co-autori, citazioni reciproche o degli stessi articoli, argomenti trattati, partecipazione agli stessi eventi o pubblicazioni

Un esempio di dati molto strutturati: dblp Uno studio, condotto utilizzando i dati raccolti tra il 1996 e il 2002 in DBLP, dimostra che erano prevedibili i casi di co-authoring del periodo 2003-2009, con una precisione molto alta (solo 42 tra 4809 autori (>0,9%) non hanno pubblicato con i co-autori previsti)

Dai dati alla conoscenza Per accedere automaticamente alla conoscenza dietro ai dati non strutturati occorre: strutturare i dati (riconoscere parti, eventi, entità e relazioni tra di esse) riconoscere la struttura di rete (network) sottostante (legami tra entità ed argomenti) applicare meccanismi di deduzione

Dai dati alla conoscenza text analysis corpora network analysis knowledge knowledge basis

Dai dati alla conoscenza Le tecniche di analisi del testo, nate nell’ambito della linguistica computazionale, svolgono una parte cruciale del lavoro: text mining. Trovano i legami sintattici e quelli semantici, di identificare argomenti, entità e relazioni di cui si parla nei testi, contribuendo a strutturare dati non strutturati.

Strutturare dati Oggi (3 febbraio 17) alle ore 15,15 ho visitato Il sig. Rossi. Il paziente presenta una patologia all’articolazione della mano destra che oltre ad essere molto dolorosa può aggravarsi nell’arco di breve tempo. Si tratta di una lesione di origine traumatica al legamento ... Dott. Bianchini Si può tradurre il documento in una forma strutturata utilizzando una sorta di template dove si mostrano le informazioni.

Strutturare dati: template DATA: 3 febbraio 17 ORA: 15,15 PAZIENTE: Rossi. PATOLOGIA: articolare e del legamento CAUSA: trauma LOCALIZZAZIONE: mano destra MEDICO: Bianchini Si può tradurre il documento in una forma strutturata utilizzando una sorta di template dove si mostrano le informazioni.

Dai dati alla conoscenza Un contributo importante viene anche dall’applicazione ai dati di annotazioni o marcature. La marcatura è un modo per associare ai dati dei metadati, fornendo così una struttura ai documenti stessi. Le più diffuse forme di marcatura sono oggi i formati HTML, XML e Json.

Strutturare dati Oggi (3 febbraio 17) alle ore 15,15 ho visitato Il sig. Rossi. Il paziente presenta una patologia all’articolazione della mano destra che oltre ad essere molto dolorosa può aggravarsi nell’arco di breve tempo. Si tratta di una lesione di origine traumatica al legamento ... Dott. Bianchini Si può arricchire il documento con metadati tramite una marcatura atta ad evidenziare le informazioni in esso contenute.

Strutturare dati: marcatura Oggi (<DATA>3 febbraio 17</DATA>) alle ore <ORA>15,15</ORA> ho visitato Il sig. <PAZIENTE>Rossi</PAZIENTE>. Il paziente presenta una patologia all’articolazione della <LOCALIZZAZIONE>mano destra</LOCALIZZAZIONE> che oltre ad essere molto dolorosa può aggravarsi nell’arco di breve tempo. Si tratta di una <PATOLOGIA>lesione di origine <CAUSA>traumatica</CAUSA> al legamento</PATOLOGIA> ... Dott. <MEDICO>Bianchini</MEDICO>

HTML, XML e Json HTML: HyperText Markup Language, linguaggio di marcatura per la visualizzazione di ipertesti XML: eXtendible Markup Language, linguaggio di marcatura di metadati Json: JavaScript Object Notation, formato per immagazzinare varie tipologie di informazioni

HTML È il linguaggio più utilizzato per scrivere le pagine web. Gestisce tramite tag predefiniti tutte le funzioni dei documenti di Internet, gli aspetti grafici e quelli logico-strutturali legati alla navigazione o delle pagine statiche. Descrive alcuni metadati (lingua, carattere, ...).

XML Grazie a dei tag definiti dall’utente consente di organizzare secondo una struttura di metadati le informazioni contenute nei documenti. Ne consegue che i dati diventano interrogabili come nei database.

Json Json è un formato adatto ad immagazzinare varie tipologie di informazioni, e quindi a scambiarle tra applicazioni client/server.

Json vs XML <persone> var person = { <persona>       <name>Nicolas</name>       <age>22</age>       <alive>true</alive>       <gender>Male</gender>       <power>1</power>    </persona> </persone> var  person = {    "name"   : "Nicolas",    "age"    : "22",    "alive"  : true,    "gender"    : "Male",    "power"  : "1" }