Un’introduzione al Trattamento Automatico del Linguaggio

Slides:



Advertisements
Presentazioni simili
La SistanCommunity Luciano Fanfoni Senior Technologist at ISTAT Daniela Docci Tecnologo informatico at ISTAT.
Advertisements

Giuditta Cantoni, 4 E S.I.A I DATABASE. Definizione databese In informatica, il termine database, banca dati o base di dati (a volte abbreviato con il.
Presentazione della piattaforma e - learning MOODLE a cura di Davide Afretti Bologna, 24 aprile 2013.
Privacy e fiducia nel social network IGF Italia Oreste Signore.
FACEBOOK attualmente, è il social network più famoso al mondo dove, a disposizione dell’utente, esiste uno spazio per la creazione di IN CUI POTER INSERIRE.
COMUNICARE SUL WEB! La prima cosa da sapere per scrivere sul web è riconoscere che internet non ha lettori tradizionali: l’80% dei navigatori non legge.
Corso di Web Marketing 8 Maggio – 8 Giugno 2017.
Statistica a scuola. Esperienze condivise
PNSD - Modulo D1A marzo 2017 Piattaforme di e-­learning e cloud:​ installazione e gestione (azione #22) Prof. Rocca Marcello
Synapse Gestione e Flussi documentali
Tecnopolo - Reggio Emilia
Progetto e tema scelti su OpenCoesione (nome, breve descrizione, tema)
PNSD - Modulo D3A marzo 2017 Piattaforma e risorse educative aperte (OER) per la costruzione di contenuti digitali - G Suite For Education - Storage.
SMART WORKING E RUOLO DEL MIDDLE MANAGEMENT Pierluigi Richini
Giovanni Boccia Artieri | Università Urbino Carlo Bo
Osservatorio Mercato Lavoro
Le nuove frontiere dei mestieri del libro
Poseidon – IV fase Simulazione Coordinamento Gruppi
PNSD - Modulo D1A 27 aprile 2017 Piattaforme di e-­learning e cloud:​ installazione e gestione (azione #22) Prof. Rocca Marcello
IL COMMUNITY ONLINE.
PNSD - Modulo M5 e M11 Ravenna
L’approccio EY per una sostenibilità a 360°
Strumenti e metodologie per la condivisione a livello europeo di risorse educative digitali per la formazione degli insegnanti Genova, 26 Settembre 2008.
Algoritmi e soluzioni di problemi
PNSD - Modulo M6 Faenza 6 settembre 2017
Basi di Dati: Introduzione
Alla Ricerca di una Rete Libera
PNSD - 24 ottobre 2017 Piattaforma e risorse educative aperte (OER) per la costruzione di contenuti digitali - G Suite For Education - Storage e repository.
I Social Media -> caratteristiche
UML Creato da: Enrico Tarantino Alessandro Vilucchi Roberta Barcella.
PNSD - Modulo M6 Lugo 4 settembre 2017
Web Marketing Il web marketing applica al web le tradizionali strategie di Marketing reinterpretandole, adattandole al contesto e ai differenti canali.
analizzatore di protocollo
Le banche dati digitali per la storia dell’arte
CAPIRE I CONSUMATORI E I MERCATI Capitolo 8
Corso di Ingegneria del Web A A Domenico Rosaci 1
MODULO 1 – Computer essentials
Estratto da « Democrazia e lavoro nell’era digitale: è possibile trasformare una catastrofe in sogno? » Mario Rasetti Fondazione ISI – Torino ISI Global.
Un’introduzione al Trattamento Automatico del Linguaggio
Il modello Puntoedu.
NUOVI MEDIA E UTILIZZO DEL WEB
Mezzi di comunicazione di massa e tecnologia
Programmare.
nel processo decisionale
Il caso d’uso “Data On Travel”
Presentazione Servizi Educativi a cura di Angela Dini 13 luglio 2012
Società Italiana di Andrologia Sezione Marche - Emilia Romagna – RSM
© 2007 SEI-Società Editrice Internazionale, Apogeo
Commercialisti & Revisori
Dott. Stefano Carrara - Amministratore Leanus Roma, 4 Dicembre 2015
Marco Panella Internet e WWW Marco Panella
Sistemi informativi statistici
FORME DI DEMOCRAZIA ELETTRONICA
Diventa Agente di Keepsporting!
PNSD novembre 2017 Piattaforma e risorse educative aperte (OER) per la costruzione di contenuti digitali - G Suite For Education - Storage e repository.
Practical Methodology for Teachers working with CLIL
Prof. Andrea Rea A.A. 2018/2019.
I.C. “ANTONIO UGO”.
FORME DI DEMOCRAZIA ELETTRONICA
Dalle prove INVALSI alla didattica
Prof. Andrea Rea A.A. 2018/2019.
Caterina Viviano Istat – Responsabile del
La Mappa dei servizi pubblici per l’impiego
Cella A. - Hila S. - Motta L. - Lunardelli C. - Panontin C
ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining.
1Il processo produttivo
G Suite for Education Una suite di prodotti Google disponibile solamente per scuole, organizzazioni non profit ed enti governativi.
LA SCUOLA NELLA NUVOLA GA4E
UTILIZZO DIDATTICO DELLA PIATTAFORMA MOODLE
CLOUD.
Transcript della presentazione:

Un’introduzione al Trattamento Automatico del Linguaggio Cosa sono e come si analizzano i Big Data

A cosa serve la Linguistica Computazionale

L’Importanza dei Dati Testuali

L’NLP nella vita di tutti i giorni Correzione automatica Siri, Google Now, Cortana… “Cerca e Sostituisci” “Suggerimenti” Google “Consigli” Amazon “Amici” Facebook Google Translate

Pattern Matching

Pattern Matching

Il Testo Digitale

Metadati Strutturali

Annotazione Linguistica

Informazioni Strutturali

Informazioni Linguistiche

Big Data

Big Data circa 7 miliardi e mezzo di esseri umani popolano il mondo due terzi della popolazione mondiale ha un cellulare più della metà del mondo utilizza uno smartphone quasi 4 miliardi di persone navigano su internet circa 3 miliardi sono attive sui social media

Big Data dataset eterogenei e non correlati tra loro; dati raw; modelli predittivi complessi.

Filtrare l’informazione automaticamente É possibile estrarre valore da caos? É indispensabile, per Il monitoraggio della reputazione aziendale online; La valutazione dei punti di forza e debolezza propri e dei competitors; La determinazione dei prezzi; La previsione della domanda; Ecc..

Filtrare l’informazione automaticamente Dati Non sono dotati di un significato intrinseco Informazioni Dati organizzati in un contesto di interpretazione vs STRUTTURA + RELAZIONI TRA DATI DATI NON STRUTTURATI DATI STRUTTURATI

User Generated Contents, Social Network, Raw Data e Semantic Web Dal Web 2.0 al Web 3.0 User Generated Contents, Social Network, Raw Data e Semantic Web

I Pilastri del Web 2.0 Interazione: ogni soggetto può usufruire in tempo reale e senza vincoli dei contenuti che maggiormente gli interessano Condivisione: dei contenuti con altri utenti della rete Partecipazione: ogni utente può contribuire a diffondere contenuti in rete, contenuti che saranno accessibili a chiunque. In questo modo il soggetto attiva un processo di creazione e condivisione di valore. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

I Concetti Base del Web 2.0 Innovazione: adozione di nuovi strumenti o social software (social network, blog, wiki, podcast, feed RSS), che riducono le distanze rispetto agli utenti e rispetto alle fonti di informazione. Creatività: la tecnologia disponibile, affiancata al desiderio da parte degli utenti di confrontarsi, da vita a nuove idee e nuova conoscenza Collaborazione: gli utenti del Web 2.0 creano una vera e propria intelligenza collettiva, in grado di creare un senso di comunità, attivando collaborazione e appartenenza. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

Gli User Generated Contents e i Raw Data

User Generated Content (UGC) “contenuto generato dagli utenti” i.e. YouTube che deve il suo successo al coinvolgimento degli utenti Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

User Generated Content (UGC) La diffusione del fenomeno UGC, insieme a modelli aperti di innovazione e di consumo cambia la relazione tra organizzazioni e mercato. Il cliente diventa parte integrante di molti processi aziendali. gli utenti diventano prosumer, cioè producer e consumer allo stesso tempo. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

Condivisione e diritto alla riservatezza Gli utenti generano contenuti: software gratuiti, enciclopedie, forum, blog, social network, news. La condivisione, parola d’ordine della rivoluzione digitale, sancisce il primato dello sharing sul diritto di riservatezza e sulla tutela della privacy. il contenuto dei social network siamo noi stessi Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

User Generated Content (UGC) L’elemento comune è la relazione. i mercati diventano conversazioni tra clienti. strumenti e applicazioni di web 2.0 sono: tag, wiki, feed RSS, podcast, blog, social network. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

Social Tagging Tassonomie Folksonomie Web 2.0 Top-down le informazioni sono collocate in classi e sottoclassi e ad ognuna è possibile attribuire un’etichetta, distribuita gerarchicamente secondo una struttura ad albero. Folksonomie Bottom-up classificazione dei contenuti in rete da parte di chi naviga. sono gli individui che classificano le pagine web associandole a parole chiave, i tag.

Social Tagging Folksonomie Quali vantaggi? Web 2.0 Bottom-up classificazione dei contenuti in rete da parte di chi naviga. sono gli individui che classificano le pagine web associandole a parole chiave, i tag. Quali vantaggi? la loro affidabilità non sta nella precisione del risultato di ricerca, quanto nell’ampia partecipazione popolare che, attraverso l’attribuzione di tag (o parole chiave) ad argomenti particolari, ne crea di fatto una categorizzazione sempre aperta al contributo degli altri.

Social Tagging Folksonomie Quali vantaggi? Web 2.0 Bottom-up classificazione dei contenuti in rete da parte di chi naviga. sono gli individui che classificano le pagine web associandole a parole chiave, i tag. Quali vantaggi? strumenti preziosi per analizzare il modo in cui gli individui definiscono le caratteristiche prodotti e servizi presenti sul mercato. Così è possibile osservare direttamente il punto di vista dei consumatori nel momento in cui stanno utilizzando questi strumenti.

Wiki Un wiki è un sito web collaborativo, composto da pagine collegate tra loro, il cui contenuto può essere modificato dagli stessi utenti attraverso un semplice browser, seguendo le indicazioni precise del sito. devono la loro notorietà a Jimmy Wales e Larry Sanger, che nel 2001 crearono e misero in rete Wikipedia, la nota enciclopedia online. Nuovi modelli di business hanno cominciato a basarsi sul concetto di wikieconomia (creazione di comunità virtuali attorno ad un prodotto, frutto della collaborazione tra diverse figure in modo tale che la sua realizzazione e la sua promozione possano avvalersi del contributo di ciascuno dei protagonisti coinvolti.

Blog La parola blog è la contrazione di web-log, cioè diario in rete, con l’uso del termine log che originariamente indicava il giornale di bordo nella terminologia nautica. la possibilità di creare e gestire un blog è fornita gratuitamente da numerose piattaforme di blogging definite CMS (Content Management System). mentre prima la costruzione dei siti web era prerogativa di programmatori, oggi i CMS permettono a chiunque di creare siti web più o meno complessi.

Social network Il web ha favorito lo sviluppo di reti sociali che utilizzano le tecnologie della comunicazione. Rispetto alle tradizionali community e ai gruppi di discussione che tendono ad aggregare le persone attorno ad un interesse, i social network sono incentrati sulle relazioni che si intrecciano e sulla capacità di generarne di nuove.

Web 2.0 e Imprese Solo il 23% delle imprese usa software per monitorare i dati dei social network, di queste il 10% utilizza software specifici per il recupero del sentiment

Web 2.0 e Imprese l’utilizzo dei dati provenienti dai social network è condizionato dall’esistenza di strumenti software che possano ricavare automaticamente indicazioni relative al sentiment, ai temi importanti e agli utenti più dinamici

Web 2.0 e Imprese Enterprise 2.0: l’uso di tecnologie sociali del web 2.0 come strumenti di business da parte delle imprese Le tecnologie collaborative, basate sui contributi dei social network, possono sostenere e rafforzare il vantaggio competitivo delle imprese, a patto che le aziende intraprendano strategie che fanno leva sugli utenti per creare valore e per costruire una più solida reputazione.

Web 2.0 e Imprese Enterprise 2.0 socialità: i software sono creati per facilitare la nascita di comunità che collaborino; piattaforme: contributi e relazioni si sviluppano in ambienti digitali; emergenza: struttura, processi, modalità d’uso sono frutto dell’interazione tra persone, anziché essere definiti a priori.

Verso il Web 3.0 Con lo sviluppo del Web 2.0 si assiste a un’incredibile moltiplicazione di discorsi condivisi e scambiati tra i navigatori. I nuovi settori di frontiera sono quelli dei big data e delle tecnologie semantiche, che rappresentano la futura sfida per le imprese. Il punto è come estrarre valore dai dati presenti in rete e sui social network.

Verso il Web 3.0 In questi ultimi dieci anni i ricercatori di tutto il mondo si sono concentrati, con metodologie diverse, su il raffinamento delle strategie di Information Retrieval; la creazione di nuove metodologie per Information Extraction a partire dai discorsi.

Verso il Web 3.0 il computer ha la necessità di “comprendere” il significato delle informazioni, affinché possa poi non solo mostrarle, ma anche manipolarle e integrarle. Tim Berners-Lee auspica un futuro in cui in cui i contenuti della rete diventino significativi non solo per l’essere umano, ma anche per il computer. L’accesso di un agente software ad insiemi strutturati di informazioni e di regole d’inferenza apre al calcolatore la possibilità di fare ragionamenti automatizzati.

Il Semantic Web

Il Semantic Web

Il Semantic Web Il SW rappresenta un terreno di collaborazione multidisciplinare. Le discipline che interroga con le sue questioni irrisolte, con le sue sfide e con le sue promesse di sviluppo vanno dalla filosofia al diritto, passando per la sociologia e l’economia.

Architettura del WS Tim Berners-Lee ha immaginato la struttura del nuovo Web come un’architettura a livelli.

Architettura del WS Tim Berners-Lee ha immaginato la struttura del nuovo Web come un’architettura a livelli. L’XML crea una struttura che rispetta il dominio semantico dell’informazione tramite marcatori tag. L’RDF consente di esprimere le relazioni tra concetti L’OWL opera inferenze e deduzioni. È solo grazie alle ontologie che è possibile associare i concetti a eventuali regole logiche.

eXtensible Markup Language Con l’XML (eXtensible Markup Language), abbiamo per la prima volta la possibilità di separare il markup relativo ai contenuti da quello di presentazione. L’XML è un metodo per mettere dati strutturati in un file di testo L’XML è molto simile all’HTML ma non è l’HTML L’XML è un testo, ma non è fatto per essere letto

eXtensible Markup Language

Resource Description Model Uno strumento necessario per la codifica e lo scambio di metadati strutturati e per l’interoperabilità tra applicazioni sul Web è il Resource Description Model (RDF). Fornisce la base per poter definire la semantica dei tag Xml.

Web Ontology Language Un’ontologia è la specifica di una concettualizzazione; è rappresentata da insiemi di modelli concettuali definiti a partire dalle categorizzazioni del mondo reale, dall’accordo sul significato dei concetti e in base alle relazioni intercorrenti tra di essi.

Web Ontology Language Quando ci si allontana dalla semplicità e dalla chiarezza dei linguaggi artificiali e si ha a che fare con la ricchezza e con l’imperfezione del linguaggio naturale ci si scontra con i problemi di natura teorica. Problema del coordinamento e della negoziazione, è legato all’individuazione di “protocolli di comunicazione” per la ricerca dell’accordo sul significato dei termini. Problema dell’eterogeneità semantica, è legato alla complessità della standardizzazione delle ontologie. Spesso gruppi diversi di individui o ricercatori danno personali e diverse definizioni agli stessi item. Problema della polisemia e della sinonimia, un termine può avere significati diversi in contesti diversi oppure termini diversi possono essere utilizzati per denotare uno stesso concetto.

Disambiguazione del significato È importante progettare e sviluppare strumenti per la condivisione del significato dei termini che siano in grado di supportare la comunicazione tra agenti dotati di vocabolari e di ontologie diverse. Per fare ciò possono essere usate delle ontologie di carattere più generale e rigoroso, definite “ontologie top level” o “ontlogie fondazionali”. Le ligthtweight ontologies o “ontologie di dominio” invece sono sviluppate per domini specifici di applicazione o per compiti predeterminati e non comportano particolari problemi di ambiguità dato che comprendono termini dal significato generalmente noto e condiviso in comunità d’uso chiuse.