governare l’Information Overload

Slides:



Advertisements
Presentazioni simili
VIA GIULIO RATTI, CREMONA – Tel. 0372/27524
Advertisements

ALMA MATER STUDIORUM - UNIVERSITÀ DI BOLOGNA
Informatica II – Basi di Dati (08/09) – Parte 1
Prof. Ermenegildo Ferrari - CIDI - Milano 1 Il nuovo obbligo di istruzione: cosa cambia nella scuola?
Sistema per la gestione del
/ fax
IL MODELLO ENTITA’ - RELAZIONE I costruttori di base
I SEGRETI PER IL SUCCESSO SU LAVORO
Scuola della Società Italiana di Statistica Una breve presentazione: passato e prospettive Monica Pratesi | Università di Pisa Direttore della Scuola della.
Corsi per il personale Bicocca-Insubria
File System Cos’è un File System File e Directory
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
CORSO DI PERFEZIONAMENTO IN TECNICHE E METODOLOGIE INFORMATICHE PER LE DISCIPLINE GIURIDICHE Strumenti per laccesso allinformazione giuridica Dott.ssa.
La conoscenza del diritto e le scienze dellinformazione Nicola Palazzolo.
TRENTO FESTIVAL DELLECONOMIA EDIZIONE 2007 Nobodys Unpredictable Cosa vediamo?
THE SHAMANS TOOLBOX SW PLATFORM SW APPLICATIONS AD-HOC SW DEVELOPMENT MANAGEMENTCONSOLE SPIDERING / INDEXINGENGINE ( Full Text, Pattern ) WDC TOPIC / TAXONOMYPROFILING.
Bioinformatica Prof. Mauro Fasano
Interaction Models Group. Funzionalità Interaction Models Group Consente lestrazione della struttura grammaticale di una frase La struttura grammaticale.
Dipartimento di Ricerca Sociale - Università del Piemonte Orientale 1 Castelli Aperti giugno 2005 Castello di Camino (AL) IL PUBBLICO DI CASTELLI.
PROGRAMMI DI COOPERAZIONE TERRITORIALE I controlli di primo livello in azione Un caso pratico Programma Interreg IV C Progetto B3 Regions Regione Piemonte.
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
1 Seconda ora Larchitettura di un sistema di e- government: parte seconda Un esempio di progetto di e-Government: il progetto servizi alle imprese Un esempio.
Analisi di un prodotto ipermediale
Processi Aleatori : Introduzione – Parte I
1 Il servizio di prestito e fornitura documenti ILL-SBN una visione di insieme caratteristiche della procedura illustrazione delle funzionalità
SMFN - Ingegneria - Scienze Statistiche
CORSO DI RICERCA BIBLIOGRAFICA 4. giornata (16 novembre 2007 ) Chemical Abstracts Compendex.
CORSO DI RICERCA BIBLIOGRAFICA 4. giornata (20 marzo 2008) Web of Science Beilstein e Gmelin Crossfire.
Lautore e il ricercatore nellambiente digitale 2. edizione 12 aprile 2007 Introduzione al Portale AIRE A cura di Cristina Capodaglio (Biblioteca del Dipartimento.
Informatica giuridica Informatica e lingua del diritto Nicola Palazzolo Anno Accademico 2006/2007.
1 RISORSE DISPONIBILI PER GLI UTENTI B.A.U. Orientamento bibliografico – II modulo.
Dipartimento di Economia
La nuova Intranet della Provincia di Ferrara e l’innovazione dei processi interni Ludovica Baraldi Bologna, 25 maggio 2006.
The International Association of Lions Clubs
Melfi, 1 aprile 2011 – MediaShow 1 Social Network: possibilità di uso consapevole nella didattica Uso, consapevolezza, opportunità, proposte Caterina Policaro.
Ottobre 2006 – Pag. 1
C APITOLO 6 © 2012 Giorgio Porcu – Aggiornamennto 22/02/2012 G ESTIRE D ATI E C ARTELLE DI LAVORO Excel Avanzato.
Manuale Utente Assoviaggi ver Contenuti Prontovisto: cosa è ed a chi è rivolto Le procedure per la vendita del servizio Prontovisto 2.
Test Reti Informatiche A cura di Gaetano Vergara Se clicchi sulla risposta GIUSTA passi alla domanda successiva Se clicchi sulla risposta ERRATA passi.
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
La gestione delle informazioni non strutturate Roma, 15 novembre 2007.
Torna alla prima pagina Inforscuola, 2/12/99 1 MINISTERO DELLA PUBBLICA ISTRUZIONE DIREZIONE GENERALE DELL' ISTRUZIONE SECONDARIA DI 1° GRADO Progetto:
Roberto Ariani Presidente Comm. Supporto e sviluppo informatico I Siti in cui dobbiamo navigare per crescere SINS - Seminario Istruzione Nuovi Soci - Arezzo,
SCOPRI LA TABELLINA click Trova la regola nascosta… click
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
LE SAI LE TABELLINE? Mettiti alla prova!.
IN OGNI LUOGO, IN OGNI TEMPO… CON MINIMI VINCOLI TECNOLOGICI… DISPONIBILITA’ DELL’ INFORMAZIONE… IN OGNI LUOGO, IN OGNI TEMPO… CON MINIMI VINCOLI.
1101 = x 10 x 10 x x 10 x = CORRISPONDENZE
Fondamenti delle Reti di Computer Seconda parte Carasco 15/04/2010.
Settore di inserimento I-VI edizione Altro 5% Cinema 13% Web 3% Settore Comunicazione (Aziende, Banche, Istit. Pubb, Priv. o non Profit) 47% TV 22% Free.
23/ 23 Novembre Scaletta 1. Lavvento del Web marketing: rompere le routine consolidate, creare nuove routine 2. Cosa chiedere al Web marketing?
Ad opera di: Matteo Donatelli e Maurizio Di Paolo Presentazione su : Elettropneumatica 1.
I dati del questionario di autovalutazione dei docenti Prime rilevazioni.
Fopndamenti di programmazione. 2 La classe String Una stringa è una sequenza di caratteri La classe String è utilizzata per memorizzare caratteri La classe.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Pippo.
L’Informatizzazione del Distretto Francesco Maremonti – Commissione Informatica ed Anagrafe.
Bando Pittori e Scultori in Piemonte alla metà del ‘700
12/03//02 1 Dichiarazione OnLine di cambio di abitazione Compilazione guidata dei moduli Ricezione via della ricevuta di invio Ricezione via .
lun mar mer gio ven SAB DOM FEBBRAIO.
SISR-WISCOM WIS e “Comunicazione” InternoEsterno Partner Clienti Investitori Altre organizzazioni Pubblico generico …. Dipendenti Consulenti.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Tecnologie della lingua Human Language Technology (HLT)
Transcript della presentazione:

governare l’Information Overload Text Mining STALKER/OML Analisi dati Analisi risultati Intro Text Mining governare l’Information Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB

Information Overload 80% testuali 20% numerici Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Migliaia di documenti vengono prodotti ogni giorno: 80% testuali 20% numerici neri@synthema.it

Information Overload Internet/Intranet, DB, ... Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Internet/Intranet, DB, ... HTML, XML, PDF, Word, TXT, … Inglese, Francese, Tedesco, Italiano, Arabo, Cinese, Russo… neri@synthema.it

Percezione e Conoscenza della realtà che ci circonda Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Brevetti, Pubblicazioni scientifiche E-mail WEB Telefonate Stampa Percezione e Conoscenza della realtà che ci circonda neri@synthema.it

Che cosa è il Text Mining Intro STALKER/OML Analisi dati Analisi risultati Text Mining Che cosa è il Text Mining Insieme di tecniche linguistico-matematiche per Analizzare fonti testuali Strutturare e classificare automaticamente il contenuto Trovare l’informazione nascosta Supporto nel Processo Decisionale neri@synthema.it

Che cosa non è il Text Mining Intro STALKER/OML Analisi dati Analisi risultati Text Mining Che cosa non è il Text Mining Non è analisi puntuale di un testo, ma analisi quantitativa e qualitativa di un insieme esteso di testi. Non è una metodologia di archiviazione di testi in argomenti predefiniti, noti a priori. Non è routing dell’informazione. neri@synthema.it

Informazione come Supporto nel Processo Decisionale Intro STALKER/OML Analisi dati Analisi risultati Text Mining Informazione come Supporto nel Processo Decisionale Text Mining per Ottenere una visione di insieme degli argomenti Accedere all’informazione su base tematica Trovare l’informazione nascosta Trovare l’informazione d’interesse neri@synthema.it

Come gestire migliaia di documenti? Intro Text Mining Analisi dati Analisi risultati STALKER/OML Come gestire migliaia di documenti? Database Banche dati Internet neri@synthema.it

Come gestire migliaia di documenti? Innovazione online Intro Text Mining Analisi dati Analisi risultati STALKER/OML Come gestire migliaia di documenti? Innovazione online Banche dati STALKER/OML server SEARCHBOX+TWIDEXPERT (Analisi linguistica, statistica) Modelli Dizionari Grammatiche Back-end Internet Clustering engine Search engine Front-end Ufficio1 Intranet Banca dati Ufficio3 Ufficio2 neri@synthema.it

Architettura (STALKER) Intro Text Mining Analisi dati Analisi risultati STALKER/OML Architettura (STALKER) Banche dati Banca dati Crawler Modelli Dizionari Grammatiche Clustering engine Search engine Stalker server Internet Lexical plugin TWID TWIDExpert Reverse indexes SearchBox neri@synthema.it

Monitoraggio, consultazione e approfondimento STALKER/OML Intro Text Mining Analisi dati Analisi risultati Il processo produttivo Back-end Scelta e preparazione dei dati Analisi dei dati e storage Front-end Ricerca e Analisi dei risultati Monitoraggio, consultazione e approfondimento neri@synthema.it

Scelta e Preparazione dati (BackEnd) Intro Text Mining STALKER/OML Analisi dati Analisi risultati Scelta e Preparazione dati (BackEnd) Scelta: Preparazione: neri@synthema.it

Preparazione dei Dati (BackEnd) (brevetti, pubblicazioni, e-mail, …) Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (brevetti, pubblicazioni, e-mail, …) Analisi Lessicale per Distinguere “ciò che è detto” da “come viene detto” trovare convergenze nel significato cogliere l’informazione da classificare neri@synthema.it

Identicazione automatica dei descrittori per ciascun documento Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale) Analisi Morfo-sintattica e/o Terminologica Identicazione automatica dei descrittori per ciascun documento rimuovere Ambiguità Analisi Logica Analisi Semantica trovare Sinonimi espandere Acronimi raggruppare Varianti Grafiche estrarre Espressioni Composte neri@synthema.it

Analisi Grammaticale riduce le ambiguità Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-sintattica) DETTI DETTO: nome, masc. plur. DETTARE: verbo, ind. pres. 2a pers. sing. DARE: verbo, ind. pass. rem. 1a pers. sing. DIRE: verbo, part. pass. masc. plur. TRATTO TRATTO, TRATTARE Analisi Grammaticale riduce le ambiguità Lemma invio, inviati, invia  inviare [verb] capi stazione  capo stazione [noun] neri@synthema.it

Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-sintattica) Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-sintattica) neri@synthema.it

trovare convergenza nel significato Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Semantica) trovare Sinonimi ( $, dollaro, biglietto verde, … ) espandere Acronimi ( ANP  Autorità Nazionale Palestinese ) raggruppare Varianti Grafiche ( visto, veduto ) estrarre Espressioni Composte ( carta di credito, Ministro degli Esteri ) trovare convergenza nel significato neri@synthema.it

Multilingual Teminology Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) Lemmatizer/ Teminology detector Mono-lingual Dictionaries, Grammars Identificazione della lingua Parsing, lemmatizzazione Estrazione terminologica Multi-lingual Dictionaries Multilingual Teminology matcher Allineamento multilingua Indexer Documents DB Indicizzazione terminologica Ricerca e clustering non solo lemmi, ma soprattutto terminologie neri@synthema.it

Trovare l’informazione rilevante Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-statistica) Analisi Morfologica + pattern matching (n+base(n)  credit card, fuel cell, … ) ( base(n)+prep+n+prep+n  arma di distruzione di massa, ... ) Analisi Statistica Soglia di Frequenza Soglia di Significatività (n > 1, 1 = f(SW-MW,nTot,…) ) ( log((1/n) * (nTot/nDoc) * f(POS)*...) > 2 ) Trovare l’informazione rilevante neri@synthema.it

non solo lemmi, ma terminologie Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) guanto[NOUN] paraffina [NOUN] guanto di paraffina [NOUN] rilevare [VERB] traccia[NOUN] polvere[NOUN] polvere da sparo[NOUN] non solo lemmi, ma terminologie neri@synthema.it

Multilingual Teminology Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi Statistica Lemmatizer/ Teminology detector Mono-lingual Dictionaries, Grammars Multi-lingual Dictionaries Indexer Multilingual Teminology matcher Identificazione della lingua Parsing, lemmatizzazione Estrazione terminologica Allineamento multilingua Indicizzazione terminologica Documents DB Ricerca e clustering neri@synthema.it

Analisi Statistica neri@synthema.it Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi Statistica neri@synthema.it

classi affini per contenuto STALKER/OML Intro Text Mining Analisi dati Analisi risultati Ricerca e Classificazione Ricerca per chiavi ed accesso puntuale Raggruppamento in classi affini per contenuto Concatenazione fra classi correlate neri@synthema.it

Analisi dei risultati Liste ordinate Mappe neri@synthema.it Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi dei risultati Liste ordinate Mappe neri@synthema.it

Scoperta di risultati inaspettati Intro Text Mining STALKER/OML Analisi dati Analisi risultati Scoperta di risultati inaspettati Consultare documenti per tema Trovare relazioni nascoste neri@synthema.it

I nuovi sviluppi: motore di ricerca in linguaggio naturale multilingua Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: motore di ricerca in linguaggio naturale multilingua neri@synthema.it

I nuovi sviluppi: document analyser Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: document analyser neri@synthema.it

Indirizzi utili Trovare l’informazione neri@synthema.it Intro Text Mining STALKER/OML Analisi dati Info Indirizzi utili Trovare l’informazione neri@synthema.it http://www.synthema.it/textmining http:// www.spi-rit.net neri@synthema.it