La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

governare l’Information Overload

Presentazioni simili


Presentazione sul tema: "governare l’Information Overload"— Transcript della presentazione:

1 governare l’Information Overload
Text Mining STALKER/OML Analisi dati Analisi risultati Intro Text Mining governare l’Information Overload Federico Neri LEXICAL SYSTEMS LAB

2 Information Overload 80% testuali 20% numerici
Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Migliaia di documenti vengono prodotti ogni giorno: 80% testuali 20% numerici

3 Information Overload Internet/Intranet, DB, ...
Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Internet/Intranet, DB, ... HTML, XML, PDF, Word, TXT, … Inglese, Francese, Tedesco, Italiano, Arabo, Cinese, Russo…

4 Percezione e Conoscenza della realtà che ci circonda
Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Brevetti, Pubblicazioni scientifiche WEB Telefonate Stampa Percezione e Conoscenza della realtà che ci circonda

5 Che cosa è il Text Mining
Intro STALKER/OML Analisi dati Analisi risultati Text Mining Che cosa è il Text Mining Insieme di tecniche linguistico-matematiche per Analizzare fonti testuali Strutturare e classificare automaticamente il contenuto Trovare l’informazione nascosta Supporto nel Processo Decisionale

6 Che cosa non è il Text Mining
Intro STALKER/OML Analisi dati Analisi risultati Text Mining Che cosa non è il Text Mining Non è analisi puntuale di un testo, ma analisi quantitativa e qualitativa di un insieme esteso di testi. Non è una metodologia di archiviazione di testi in argomenti predefiniti, noti a priori. Non è routing dell’informazione.

7 Informazione come Supporto nel Processo Decisionale
Intro STALKER/OML Analisi dati Analisi risultati Text Mining Informazione come Supporto nel Processo Decisionale Text Mining per Ottenere una visione di insieme degli argomenti Accedere all’informazione su base tematica Trovare l’informazione nascosta Trovare l’informazione d’interesse

8 Come gestire migliaia di documenti?
Intro Text Mining Analisi dati Analisi risultati STALKER/OML Come gestire migliaia di documenti? Database Banche dati Internet

9 Come gestire migliaia di documenti? Innovazione online
Intro Text Mining Analisi dati Analisi risultati STALKER/OML Come gestire migliaia di documenti? Innovazione online Banche dati STALKER/OML server SEARCHBOX+TWIDEXPERT (Analisi linguistica, statistica) Modelli Dizionari Grammatiche Back-end Internet Clustering engine Search engine Front-end Ufficio1 Intranet Banca dati Ufficio3 Ufficio2

10 Architettura (STALKER)
Intro Text Mining Analisi dati Analisi risultati STALKER/OML Architettura (STALKER) Banche dati Banca dati Crawler Modelli Dizionari Grammatiche Clustering engine Search engine Stalker server Internet Lexical plugin TWID TWIDExpert Reverse indexes SearchBox

11 Monitoraggio, consultazione e approfondimento
STALKER/OML Intro Text Mining Analisi dati Analisi risultati Il processo produttivo Back-end Scelta e preparazione dei dati Analisi dei dati e storage Front-end Ricerca e Analisi dei risultati Monitoraggio, consultazione e approfondimento

12 Scelta e Preparazione dati (BackEnd)
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Scelta e Preparazione dati (BackEnd) Scelta: Preparazione:

13 Preparazione dei Dati (BackEnd) (brevetti, pubblicazioni, e-mail, …)
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (brevetti, pubblicazioni, , …) Analisi Lessicale per Distinguere “ciò che è detto” da “come viene detto” trovare convergenze nel significato cogliere l’informazione da classificare

14 Identicazione automatica dei descrittori per ciascun documento
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale) Analisi Morfo-sintattica e/o Terminologica Identicazione automatica dei descrittori per ciascun documento rimuovere Ambiguità Analisi Logica Analisi Semantica trovare Sinonimi espandere Acronimi raggruppare Varianti Grafiche estrarre Espressioni Composte

15 Analisi Grammaticale riduce le ambiguità
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-sintattica) DETTI DETTO: nome, masc. plur. DETTARE: verbo, ind. pres. 2a pers. sing. DARE: verbo, ind. pass. rem. 1a pers. sing. DIRE: verbo, part. pass. masc. plur. TRATTO TRATTO, TRATTARE Analisi Grammaticale riduce le ambiguità Lemma invio, inviati, invia  inviare [verb] capi stazione  capo stazione [noun]

16 Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-sintattica)
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-sintattica)

17 trovare convergenza nel significato
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Semantica) trovare Sinonimi ( $, dollaro, biglietto verde, … ) espandere Acronimi ( ANP  Autorità Nazionale Palestinese ) raggruppare Varianti Grafiche ( visto, veduto ) estrarre Espressioni Composte ( carta di credito, Ministro degli Esteri ) trovare convergenza nel significato

18 Multilingual Teminology
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) Lemmatizer/ Teminology detector Mono-lingual Dictionaries, Grammars Identificazione della lingua Parsing, lemmatizzazione Estrazione terminologica Multi-lingual Dictionaries Multilingual Teminology matcher Allineamento multilingua Indexer Documents DB Indicizzazione terminologica Ricerca e clustering non solo lemmi, ma soprattutto terminologie

19 Trovare l’informazione rilevante
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-statistica) Analisi Morfologica + pattern matching (n+base(n)  credit card, fuel cell, … ) ( base(n)+prep+n+prep+n  arma di distruzione di massa, ... ) Analisi Statistica Soglia di Frequenza Soglia di Significatività (n > 1, 1 = f(SW-MW,nTot,…) ) ( log((1/n) * (nTot/nDoc) * f(POS)*...) > 2 ) Trovare l’informazione rilevante

20 non solo lemmi, ma terminologie
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) guanto[NOUN] paraffina [NOUN] guanto di paraffina [NOUN] rilevare [VERB] traccia[NOUN] polvere[NOUN] polvere da sparo[NOUN] non solo lemmi, ma terminologie

21 Multilingual Teminology
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi Statistica Lemmatizer/ Teminology detector Mono-lingual Dictionaries, Grammars Multi-lingual Dictionaries Indexer Multilingual Teminology matcher Identificazione della lingua Parsing, lemmatizzazione Estrazione terminologica Allineamento multilingua Indicizzazione terminologica Documents DB Ricerca e clustering

22 Analisi Statistica neri@synthema.it Intro Text Mining STALKER/OML
Analisi dati Analisi risultati Analisi Statistica

23 classi affini per contenuto
STALKER/OML Intro Text Mining Analisi dati Analisi risultati Ricerca e Classificazione Ricerca per chiavi ed accesso puntuale Raggruppamento in classi affini per contenuto Concatenazione fra classi correlate

24 Analisi dei risultati Liste ordinate Mappe neri@synthema.it Intro
Text Mining STALKER/OML Analisi dati Analisi risultati Analisi dei risultati Liste ordinate Mappe

25 Scoperta di risultati inaspettati
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Scoperta di risultati inaspettati Consultare documenti per tema Trovare relazioni nascoste

26 I nuovi sviluppi: motore di ricerca in linguaggio naturale multilingua
Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: motore di ricerca in linguaggio naturale multilingua

27 I nuovi sviluppi: document analyser
Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: document analyser

28 Indirizzi utili Trovare l’informazione neri@synthema.it
Intro Text Mining STALKER/OML Analisi dati Info Indirizzi utili Trovare l’informazione


Scaricare ppt "governare l’Information Overload"

Presentazioni simili


Annunci Google