La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Un’introduzione al Trattamento Automatico del Linguaggio

Presentazioni simili


Presentazione sul tema: "Un’introduzione al Trattamento Automatico del Linguaggio"— Transcript della presentazione:

1 Un’introduzione al Trattamento Automatico del Linguaggio
Cosa sono e come si analizzano i Big Data

2 A cosa serve la Linguistica Computazionale

3 L’Importanza dei Dati Testuali

4 L’NLP nella vita di tutti i giorni
Correzione automatica Siri, Google Now, Cortana… “Cerca e Sostituisci” “Suggerimenti” Google “Consigli” Amazon “Amici” Facebook Google Translate

5 Pattern Matching

6 Pattern Matching

7 Il Testo Digitale

8 Metadati Strutturali

9 Annotazione Linguistica

10 Informazioni Strutturali

11 Informazioni Linguistiche

12 Big Data

13 Big Data circa 7 miliardi e mezzo di esseri umani popolano il mondo
due terzi della popolazione mondiale ha un cellulare più della metà del mondo utilizza uno smartphone quasi 4 miliardi di persone navigano su internet circa 3 miliardi sono attive sui social media

14

15 Big Data dataset eterogenei e non correlati tra loro; dati raw;
modelli predittivi complessi.

16 Filtrare l’informazione automaticamente
É possibile estrarre valore da caos? É indispensabile, per Il monitoraggio della reputazione aziendale online; La valutazione dei punti di forza e debolezza propri e dei competitors; La determinazione dei prezzi; La previsione della domanda; Ecc..

17 Filtrare l’informazione automaticamente
Dati Non sono dotati di un significato intrinseco Informazioni Dati organizzati in un contesto di interpretazione vs STRUTTURA + RELAZIONI TRA DATI DATI NON STRUTTURATI DATI STRUTTURATI

18 User Generated Contents, Social Network, Raw Data e Semantic Web
Dal Web 2.0 al Web 3.0 User Generated Contents, Social Network, Raw Data e Semantic Web

19 I Pilastri del Web 2.0 Interazione: ogni soggetto può usufruire in tempo reale e senza vincoli dei contenuti che maggiormente gli interessano Condivisione: dei contenuti con altri utenti della rete Partecipazione: ogni utente può contribuire a diffondere contenuti in rete, contenuti che saranno accessibili a chiunque. In questo modo il soggetto attiva un processo di creazione e condivisione di valore. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

20 I Concetti Base del Web 2.0 Innovazione: adozione di nuovi strumenti o social software (social network, blog, wiki, podcast, feed RSS), che riducono le distanze rispetto agli utenti e rispetto alle fonti di informazione. Creatività: la tecnologia disponibile, affiancata al desiderio da parte degli utenti di confrontarsi, da vita a nuove idee e nuova conoscenza Collaborazione: gli utenti del Web 2.0 creano una vera e propria intelligenza collettiva, in grado di creare un senso di comunità, attivando collaborazione e appartenenza. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

21 Gli User Generated Contents e i Raw Data

22 User Generated Content (UGC)
“contenuto generato dagli utenti” i.e. YouTube che deve il suo successo al coinvolgimento degli utenti Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

23 User Generated Content (UGC)
La diffusione del fenomeno UGC, insieme a modelli aperti di innovazione e di consumo cambia la relazione tra organizzazioni e mercato. Il cliente diventa parte integrante di molti processi aziendali. gli utenti diventano prosumer, cioè producer e consumer allo stesso tempo. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

24 Condivisione e diritto alla riservatezza
Gli utenti generano contenuti: software gratuiti, enciclopedie, forum, blog, social network, news. La condivisione, parola d’ordine della rivoluzione digitale, sancisce il primato dello sharing sul diritto di riservatezza e sulla tutela della privacy. il contenuto dei social network siamo noi stessi Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

25 User Generated Content (UGC)
L’elemento comune è la relazione. i mercati diventano conversazioni tra clienti. strumenti e applicazioni di web 2.0 sono: tag, wiki, feed RSS, podcast, blog, social network. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

26 Social Tagging Tassonomie Folksonomie Web 2.0 Top-down
le informazioni sono collocate in classi e sottoclassi e ad ognuna è possibile attribuire un’etichetta, distribuita gerarchicamente secondo una struttura ad albero. Folksonomie Bottom-up classificazione dei contenuti in rete da parte di chi naviga. sono gli individui che classificano le pagine web associandole a parole chiave, i tag.

27 Social Tagging Folksonomie Quali vantaggi? Web 2.0 Bottom-up
classificazione dei contenuti in rete da parte di chi naviga. sono gli individui che classificano le pagine web associandole a parole chiave, i tag. Quali vantaggi? la loro affidabilità non sta nella precisione del risultato di ricerca, quanto nell’ampia partecipazione popolare che, attraverso l’attribuzione di tag (o parole chiave) ad argomenti particolari, ne crea di fatto una categorizzazione sempre aperta al contributo degli altri.

28 Social Tagging Folksonomie Quali vantaggi? Web 2.0 Bottom-up
classificazione dei contenuti in rete da parte di chi naviga. sono gli individui che classificano le pagine web associandole a parole chiave, i tag. Quali vantaggi? strumenti preziosi per analizzare il modo in cui gli individui definiscono le caratteristiche prodotti e servizi presenti sul mercato. Così è possibile osservare direttamente il punto di vista dei consumatori nel momento in cui stanno utilizzando questi strumenti.

29 Wiki Un wiki è un sito web collaborativo, composto da pagine collegate tra loro, il cui contenuto può essere modificato dagli stessi utenti attraverso un semplice browser, seguendo le indicazioni precise del sito. devono la loro notorietà a Jimmy Wales e Larry Sanger, che nel crearono e misero in rete Wikipedia, la nota enciclopedia online. Nuovi modelli di business hanno cominciato a basarsi sul concetto di wikieconomia (creazione di comunità virtuali attorno ad un prodotto, frutto della collaborazione tra diverse figure in modo tale che la sua realizzazione e la sua promozione possano avvalersi del contributo di ciascuno dei protagonisti coinvolti.

30 Blog La parola blog è la contrazione di web-log, cioè diario in rete, con l’uso del termine log che originariamente indicava il giornale di bordo nella terminologia nautica. la possibilità di creare e gestire un blog è fornita gratuitamente da numerose piattaforme di blogging definite CMS (Content Management System). mentre prima la costruzione dei siti web era prerogativa di programmatori, oggi i CMS permettono a chiunque di creare siti web più o meno complessi.

31 Social network Il web ha favorito lo sviluppo di reti sociali che utilizzano le tecnologie della comunicazione. Rispetto alle tradizionali community e ai gruppi di discussione che tendono ad aggregare le persone attorno ad un interesse, i social network sono incentrati sulle relazioni che si intrecciano e sulla capacità di generarne di nuove.

32 Web 2.0 e Imprese Solo il 23% delle imprese usa software per monitorare i dati dei social network, di queste il 10% utilizza software specifici per il recupero del sentiment

33 Web 2.0 e Imprese l’utilizzo dei dati provenienti dai social network è condizionato dall’esistenza di strumenti software che possano ricavare automaticamente indicazioni relative al sentiment, ai temi importanti e agli utenti più dinamici

34 Web 2.0 e Imprese Enterprise 2.0: l’uso di tecnologie sociali del web 2.0 come strumenti di business da parte delle imprese Le tecnologie collaborative, basate sui contributi dei social network, possono sostenere e rafforzare il vantaggio competitivo delle imprese, a patto che le aziende intraprendano strategie che fanno leva sugli utenti per creare valore e per costruire una più solida reputazione.

35 Web 2.0 e Imprese Enterprise 2.0
socialità: i software sono creati per facilitare la nascita di comunità che collaborino; piattaforme: contributi e relazioni si sviluppano in ambienti digitali; emergenza: struttura, processi, modalità d’uso sono frutto dell’interazione tra persone, anziché essere definiti a priori.

36 Verso il Web 3.0 Con lo sviluppo del Web 2.0 si assiste a un’incredibile moltiplicazione di discorsi condivisi e scambiati tra i navigatori. I nuovi settori di frontiera sono quelli dei big data e delle tecnologie semantiche, che rappresentano la futura sfida per le imprese. Il punto è come estrarre valore dai dati presenti in rete e sui social network.

37 Verso il Web 3.0 In questi ultimi dieci anni i ricercatori di tutto il mondo si sono concentrati, con metodologie diverse, su il raffinamento delle strategie di Information Retrieval; la creazione di nuove metodologie per Information Extraction a partire dai discorsi.

38 Verso il Web 3.0 il computer ha la necessità di “comprendere” il significato delle informazioni, affinché possa poi non solo mostrarle, ma anche manipolarle e integrarle. Tim Berners-Lee auspica un futuro in cui in cui i contenuti della rete diventino significativi non solo per l’essere umano, ma anche per il computer. L’accesso di un agente software ad insiemi strutturati di informazioni e di regole d’inferenza apre al calcolatore la possibilità di fare ragionamenti automatizzati.

39 Il Semantic Web

40 Il Semantic Web

41 Il Semantic Web Il SW rappresenta un terreno di collaborazione multidisciplinare. Le discipline che interroga con le sue questioni irrisolte, con le sue sfide e con le sue promesse di sviluppo vanno dalla filosofia al diritto, passando per la sociologia e l’economia.

42 Architettura del WS Tim Berners-Lee ha immaginato la struttura del nuovo Web come un’architettura a livelli.

43 Architettura del WS Tim Berners-Lee ha immaginato la struttura del nuovo Web come un’architettura a livelli. L’XML crea una struttura che rispetta il dominio semantico dell’informazione tramite marcatori tag. L’RDF consente di esprimere le relazioni tra concetti L’OWL opera inferenze e deduzioni. È solo grazie alle ontologie che è possibile associare i concetti a eventuali regole logiche.

44 eXtensible Markup Language
Con l’XML (eXtensible Markup Language), abbiamo per la prima volta la possibilità di separare il markup relativo ai contenuti da quello di presentazione. L’XML è un metodo per mettere dati strutturati in un file di testo L’XML è molto simile all’HTML ma non è l’HTML L’XML è un testo, ma non è fatto per essere letto

45 eXtensible Markup Language

46 Resource Description Model
Uno strumento necessario per la codifica e lo scambio di metadati strutturati e per l’interoperabilità tra applicazioni sul Web è il Resource Description Model (RDF). Fornisce la base per poter definire la semantica dei tag Xml.

47 Web Ontology Language Un’ontologia è la specifica di una concettualizzazione; è rappresentata da insiemi di modelli concettuali definiti a partire dalle categorizzazioni del mondo reale, dall’accordo sul significato dei concetti e in base alle relazioni intercorrenti tra di essi.

48 Web Ontology Language Quando ci si allontana dalla semplicità e dalla chiarezza dei linguaggi artificiali e si ha a che fare con la ricchezza e con l’imperfezione del linguaggio naturale ci si scontra con i problemi di natura teorica. Problema del coordinamento e della negoziazione, è legato all’individuazione di “protocolli di comunicazione” per la ricerca dell’accordo sul significato dei termini. Problema dell’eterogeneità semantica, è legato alla complessità della standardizzazione delle ontologie. Spesso gruppi diversi di individui o ricercatori danno personali e diverse definizioni agli stessi item. Problema della polisemia e della sinonimia, un termine può avere significati diversi in contesti diversi oppure termini diversi possono essere utilizzati per denotare uno stesso concetto.

49 Disambiguazione del significato
È importante progettare e sviluppare strumenti per la condivisione del significato dei termini che siano in grado di supportare la comunicazione tra agenti dotati di vocabolari e di ontologie diverse. Per fare ciò possono essere usate delle ontologie di carattere più generale e rigoroso, definite “ontologie top level” o “ontlogie fondazionali”. Le ligthtweight ontologies o “ontologie di dominio” invece sono sviluppate per domini specifici di applicazione o per compiti predeterminati e non comportano particolari problemi di ambiguità dato che comprendono termini dal significato generalmente noto e condiviso in comunità d’uso chiuse.


Scaricare ppt "Un’introduzione al Trattamento Automatico del Linguaggio"

Presentazioni simili


Annunci Google