La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Text Mining governare lInformation Overload Federico Neri LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati.

Presentazioni simili


Presentazione sul tema: "1 Text Mining governare lInformation Overload Federico Neri LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati."— Transcript della presentazione:

1 1 Text Mining governare lInformation Overload Federico Neri LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati

2 2 Information Overload Migliaia di documenti vengono prodotti ogni giorno : 80% testuali 20% numerici Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi

3 3 Information Overload HTML, XML, PDF, Word, TXT, … Inglese, Francese, Tedesco, Italiano, Arabo, Cinese, Russo… Internet/Intranet, DB,... Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi

4 4 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Information Overload Brevetti, Pubblicazioni scientifiche Stampa Telefonate Percezione e Conoscenza della realtà che ci circonda WEB

5 5 Che cosa è il Text Mining Insieme di tecniche linguistico-matematiche per l Analizzare fonti testuali l Strutturare e classificare automaticamente il contenuto l Trovare linformazione nascosta Supporto nel Processo Decisionale Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi

6 6 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Che cosa non è il Text Mining l Non è analisi puntuale di un testo, ma analisi quantitativa e qualitativa di un insieme esteso di testi. l Non è una metodologia di archiviazione di testi in argomenti predefiniti, noti a priori. Non è routing dellinformazione.

7 7 Informazione come Supporto nel Processo Decisionale Text Mining per l Ottenere una visione di insieme degli argomenti l Accedere allinformazione su base tematica l Trovare linformazione nascosta Trovare linformazione dinteresse Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi

8 8 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Come gestire migliaia di documenti? Banche dati Internet Database

9 9 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Come gestire migliaia di documenti? Innovazione online Banche dati Banca dati SEARCHBOX+TWIDEXPERT (Analisi linguistica, statistica) ModelliDizionariGrammaticheBack-end Clustering engine Search engine Front-end Ufficio2 Ufficio1 Intranet STALKER/OML server Internet Ufficio3

10 10 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Architettura (STALKER) Banche dati Banca dati Crawler ModelliDizionariGrammatiche Clustering engine Search engine Stalker server Internet Lexicalplugin TWIDplugin TWIDExpert Reverseindexes SearchBox TWIDExpert

11 11 Il processo produttivo l Scelta e preparazione dei dati l Analisi dei dati e storage l Ricerca e Analisi dei risultati Monitoraggio, consultazione e approfondimento Back-end Front-end Intro Text Mining Text Mining STALKER/OM L STALKER/OM L Analisi dati Analisi dati Analisi risultati Analisi

12 12 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati l Scelta: l Preparazione: Scelta e Preparazione dati (BackEnd)

13 13 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Preparazione dei Dati (BackEnd) (brevetti, pubblicazioni, , …) Distinguere ciò che è detto dacome viene detto trovare convergenze nel significato cogliere linformazione da classificare Analisi Lessicale per

14 14 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Analisi Morfo-sintattica e/o Terminologica Analisi Semantica rimuovere Ambiguità rimuovere Ambiguità raggruppare Varianti Grafiche trovare Sinonimi Identicazione automatica dei descrittori per ciascun documento Preparazione dei Dati (BackEnd) (Analisi lessicale) Analisi Logica espandere Acronimi estrarre Espressioni Composte

15 15 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Analisi Grammaticale riduce le ambiguità DETTI DETTO : nome, masc. plur DETTO : nome, masc. plur. DETTARE : verbo, ind. pres. 2a pers. sing. DARE : verbo, ind. pass. rem. 1a pers. sing. DIRE : verbo, part. pass. masc. plur. TRATTO TRATTO, TRATTARE LemmaLemma invio, inviati, invia inviare [verb] capi stazione capo stazione [noun] capi stazione capo stazione [noun] Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-sintattica)

16 16 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-sintattica)

17 17 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati raggruppare Varianti Grafiche trovare Sinonimi ( $, dollaro, biglietto verde, … ) ( ANP Autorità Nazionale Palestinese ) ( visto, veduto ) ( carta di credito, ( carta di credito, Ministro degli Esteri ) trovare convergenza nel significato Preparazione dei Dati (BackEnd) (Analisi lessicale - Semantica) estrarre Espressioni Composte espandere Acronimi

18 18 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Preparazione dei Dati (BackEnd) non solo lemmi, ma soprattutto terminologie Multi-lingual Dictionaries Multilingual Teminology matcher Lemmatizer/ Teminology detector Mono-lingual Dictionaries, Grammars Identificazione della lingua Parsing, lemmatizzazione Estrazione terminologica Allineamento multilingua Indicizzazione terminologica Ricerca e clustering Indexer Documents DB

19 19 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Trovare linformazione rilevante Analisi Morfologica + pattern matching (n+base(n) credit card, fuel cell, … ) ( base(n)+prep+n+prep+n arma di distruzione di massa,... ) Analisi Statistica Soglia di Frequenza Soglia di Frequenza Soglia di Significatività Soglia di Significatività (n > 1, 1 = f(SW-MW,nTot,…) ) ( log( ( 1 /n) * (nTot/nDoc) * f(POS)*...) > 2 ) Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-statistica)

20 20 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi paraffina [NOUN] guanto[NOUN] guanto di paraffina [NOUN] rilevare [VERB] traccia[NOUN] polvere da sparo[NOUN] polvere[NOUN] non solo lemmi, ma terminologie Preparazione dei Dati (BackEnd)

21 21 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultati Analisi Statistica Documents DB Lemmatizer/ Teminology detector Mono-lingual Dictionaries, Grammars Multi-lingual Dictionaries Indexer Multilingual Teminology matcher Identificazione della lingua Parsing, lemmatizzazione Estrazione terminologica Allineamento multilingua Indicizzazione terminologica Ricerca e clustering

22 22 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi Analisi Statistica

23 23 Concatenazione fra classi correlate Concatenazione fra classi correlate Raggruppamento in classi affini per contenuto Raggruppamento in classi affini per contenuto Ricerca e Classificazione Intro Text Mining Text Mining STALKER/O ML STALKER/O ML Analisi dati Analisi dati Analisi risultati Analisi risultati Ricerca per chiavi ed accesso puntuale Ricerca per chiavi ed accesso puntuale

24 24 Analisi dei risultati Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi risultatiMappe Liste ordinate

25 25 Consultare documenti per tema Trovare relazioni nascoste Scoperta di risultati inaspettati Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Analisi risultati Analisi

26 26 Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati New I nuovi sviluppi: motore di ricerca in linguaggio naturale multilingua

27 27 I nuovi sviluppi: document analyser Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati New

28 28 Indirizzi utili Intro Text Mining Text Mining STALKER/OML Analisi dati Analisi dati Info Trovare linformazione


Scaricare ppt "1 Text Mining governare lInformation Overload Federico Neri LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati."

Presentazioni simili


Annunci Google