PART 3: DATA ANALYSIS THROUGH OMNIFIND
Il cliente: una sorgente importante di informazioni Mercato iper-competitivo, altamente caotico. Cliente al centro di tutto. Obiettivo Studiare i clienti Assistere i clienti Fidelizzare i clienti Catturare informazioni sui clienti
La soluzione: il Customer Relationship Management Definizione aziendale: strategia di business che pone il cliente al centro dell’azienda Definizione tecnologica: insieme di processi e di tecnologie per la gestione dei rapporti con i clienti potenziali e quelli consolidati nel marketing, nelle vendite e nei servizi, indipendentemente dal canale di comunicazione.
Problema: i sistemi di CRM attuali sono limitati! Relazioni, Verbali, Fascicoli, Cartelle Chat Pagine web Posta Elettronica Forum Note Esempi…. File Siti Web Sistemi di Content Managemt Sistemi di collaborazione Dove si trovano… I sistemi di CRM attuali tengono conto esclusivamente dei dati strutturati ma la stragrande maggioranza dei dati sono disponibili sotto forma “non strutturata” Tutto il patrimonio informativo e conoscitivo racchiuso all’interno dei dati non strutturati è stato completamente ignorato per la mancanza della tecnologia necessaria all’analisi del linguaggio naturale.
Sistemi per il trattamento delle sorgenti non strutturate L’attività di sfruttamento della conoscenza contenuta in tutte le nuove forme di comunicazione offerte dal Web ora è possibile grazie all’evoluzione delle tecnologie di analisi del linguaggio naturale. Il progetto di ricerca ha l’obiettivo di applicare le tecniche di estrazione della conoscenza da testi scritti in linguaggio naturale al fine estrarre le informazioni rilevanti contenute nelle nuove forme di comunicazioni con il cliente. Nel progetto vanno inseriti strumenti di ricerca semantica che permettono il recupero efficace ed efficiente delle nuove informazioni recuperate. Semantic Search Index Data Warehouse
Estrazione di conoscenza Per poter estrarre conoscenza a partire da testi scritti in linguaggio naturale è necessario fare un’analisi del testo. Tale analisi si pone come obiettivo quello di identificare nel testo le entità del dominio e “taggarle” opportunamente, in modo da agevolare l’indicizzazione dei documenti e il recupero degli stessi. In tale contesto ci viene in soccorso UIMA (Unstructured Information Management Architecture), architettura open source in grado di acquisire documenti scritti in linguaggio naturale (informazione non strutturata) e restituire informazione strutturata.
Il Knowledge Manager Engine La componente sviluppata da IBM consente la ricerca semantica su un corpus di documenti e restituire una collection di documenti rilevanti, ovvero il knowledge repository sul quale il knowledge extractor eseguirà le proprie operazioni per popolare un datawarehouse. Per fare ciò utilizziamo UIMA integrato con OmniFind, sfruttando così i servizi che mette a disposizione OmniFind e la capacità di analisi testuale di UIMA.
OmniFind Semantic Search Index Corpus UIMA Corpus- Analysis Analisi e annotazione del corpus di documenti Costruzione di un indice di ricerca semantico 1 2 User Query JAVA Search Client 3 Recupero efficiente dei documenti usando le annotazioni OmniFind Search Server 4 UIMA + OmniFind: ricerca semantica SIAPI: connessione dell’applicazione di ricerca a OmniFind Formulazione della query semantica da parte dell’utente Costruzione dell’applicazione di ricerca semantica SIAPI: inoltro della query al Search Server Maggiore Precision e Recall
Informazione non strutturata Alto valore Aggiornate...MA... Nascoste in volumi di dati enormi Significato implicito Ricerca inefficiente Significato esplicito Ricerca Efficiente Testo, Chat, , Audio, Video Indice DBs KBs Estrarre conoscenza rilevante → Strutturarla Documenti, , Telefonate, Reports Concetti, Entità, Relazioni Persone, Luoghi, Organizzazioni, Tempo, Eventi Opinioni dei consumatori, Prodotti, Problemi Rilevazione difetti, Minacce, Assistenza clienti, Interazioni della droga, … Estrarre conoscenza rilevante → Strutturarla Documenti, , Telefonate, Reports Concetti, Entità, Relazioni Persone, Luoghi, Organizzazioni, Tempo, Eventi Opinioni dei consumatori, Prodotti, Problemi Rilevazione difetti, Minacce, Assistenza clienti, Interazioni della droga, … Informazione strutturata UIMA: il ponte tra il mondo non strutturato e strutturato Analisi testuale UIMA
La componente OmniFind OmniFind Enterpise Edition è il sistema di Enterprise Search proposto da IBM. Il software si presenta come una piattaforma di analisi e ricerca del testo, estremamente scalabile, disponibile e sicura. OmniFind è utile ai nostri scopi perchè è anche un robusto sistema di crawling che si integra con una vasta gamma di sorgenti di informazioni: documenti web, collaborativi e di documenti; offre servizi di parsing, categorizzazione, ranking, indicizzazione e ricerca.
L’interfaccia con il resto del sistema La componente prevede un’interfaccia che consentirà di usufruire dei servizi offerti dalla componente stessa. L’interfaccia avrà almeno le seguenti componenti: 1) componente per definire dati, comandi di crawling dai siti web; 2) componente per ricercare i documenti rilevanti, eseguire le query, recuperare le informazioni su tali documenti (essendo questi taggati da UIMA), etc. (In particolare ci saranno query ad uso del Knowledge Extractor) Semantic Search Index Corpus UIMA Corpus- Analysis User Query Search Client OmniFind Search Server
Un approccio bottom-up L’approccio bottom-up riguarda il processo di creazione del Knowledge Manager Engine, componente sviluppata da IBM nell’ambito del progetto ART DECO – caso NESTA. Si procede dunque in maniera iterativa, sviluppando dapprima le componenti di basso livello, fino ad arrivare alle componenti che si interfacciano con il resto del sistema. Viene testato il corretto funzionamento di ogni singola componente prodotta e, in maniera incrementale, vengono aggiunte man mano le altre componenti, con l’obiettivo di arrivare alla realizzazione dell’intero engine che poi sarà utilizzato all’interno del sistema ART DECO.
L’interfaccia grafica È stata realizzata una semplice interfaccia grafica per poter testare la componente nell’ambito di integrazione con l’applicativo web. Di seguito sono mostrati alcuni screenshot presi da queste interfacce.
VIDEO Il video illustra alcuni processi elaborativi tipici di un’azienda del settore tessile-moda. Start Video