Maria Teresa PAZIENZA a.a. 2017-18 Big Data management Maria Teresa PAZIENZA a.a. 2017-18
knowledge discovering e management Introduzione Principali punti di interesse: Technical data provisioning (acquisizione, memorizzazione, elaborazione) Technical data utilization (complessità temporale e computazionale) Functional data provisioning (gestione del ciclo di vita delle informazioni, agile gestione dell’informazione) Functional data utilization (settore in cui i Big Data sono usati) L’aspetto semantico si concentra su knowledge discovering e management
Introduzione In generale l’unico modo in cui gli utenti possono capire una nuova informazione è legata al fatto che il software sia in grado di capire le informazioni che gestisce. La rappresentazione dei dati è il fattore chiave per tutto il processo: Memorizzazione Organizzazione Filtro Analisi Visualizzazione dei dati su larga scala
Introduzione Si deve fare i conti con il problema della ubiquità, che si riferisce alla necessità di trasformare dati in conoscenza L’acquisizione di tale conoscenza dipende fortemente dall’esistenza di un effettivo/riconoscibile collegamento tra i dati che renda possibile ad un computer integrare dati da data set eterogenei.
Introduzione I grafi sono modelli flessibili per l’integrazione dei dati con diversi tipi di strutture; inoltre rendono possibile collegare tra loro tali dati eterogenei. I vocabolari descrivono il significato dei dati
Big Data Più i dati potranno essere integrati, più conoscenza si potrà estrarre aumentando così il valore dei risultati del processing. Le tecnologie semantiche sono di grande aiuto in questo scenario: RDF, RFDS, OWL Linguaggi per descrivere dati semantici in un contesto di elaborazione automatica.
Big Data RDF (Resource Description Framework) basato su triple (soggetto, predicato, oggetto) i cui elementi sono URI. RDF costruisce grafi etichettati con significato come query language. RDFS un vocabolario con una semantica normata, quella dello Schema. Il vocabolario esprime l’eredità delle classi e delle proprietà OWL una versione logica del linguaggio per soddisfare i requisiti Web. OWL può essere considerato un vocabolario con grande potere espressivo (classi, proprietà, relazioni, cardinalità, uguaglianze, vincoli, etc)
Big Data management Oltre agli aspetti tradizionali del data processing che prevedono data gathering, processing, management for producing «new» information for end users, big data processing deve gestire anche ambiguity, uncertainty, variety per cui sarà richiesto che i dati siano cleaned, tagged, classified and formatted per ottimizzare l’elaborazione
Big Data management ETL- Extract, Trasform, Load Le architetture per Big Data devono saper gestire diversi tipi di formati di dati (testi, files compressi, variamente delimitati, etc) elaborare i dati per estrarre informazione puntuale quali entità nominali, relazioni tra entità, etc. Ragion per cui i dati devono essere puliti, resi processabili, che siano strutturati o meno, integrati e memorizzati opportunamente congiuntamente ai metadati.
Big Data Analysis Acquisition/Access Assembly/Organization Analyze Extraction/Cleaning Integration Analyze Action/Decision
Acquisition Le architetture per i Big Data devono: Acquisire dati ad alta velocità da più sorgenti Interagire con più protocolli Bisogna definire dei filtri per memorizzare solo dati di interesse o dati con un basso livello di incertezza
Organization Le architetture per i BD devono poter gestire dati in vari formati essere capaci di analizzarli estrarre le informazioni specifiche quali Entità Nominali, relazioni tra di esse etc. I dati devono essere ripuliti e posti in formati computazionali, strutturati o semistrutturati, integrati e memorizzati nelle posizioni opportune
Analyse Effettuare queries, creare modelli, costruire algoritmi appropriati per trovare nuove informazioni sotto forma di approfondimenti. L’attività di mining richiede dati integrati, ripuliti, verificati . Nel contempo lo stesso data mining può essere usato per Migliorare la qualità e la veridicità dei dati Capirne la semantica Definire funzioni di interrogazione intelligenti
Tecniche di visualizzazione Prendere decisioni valide è un obiettivo finale per i BD. L’utente finale è punto di riferimento Necessari strumenti di visualizzazione «dinamici» Visualizzare e collegare concetti di un determinato dominio Visualizzare l’evoluzione di un documento rispetto ai diversi contributi di diversi autori (History flow)
Decision Essere capaci di prendere decisioni «preziose» significa essere capaci di interpretare efficientemente i risultati delle analisi . Semantica come risorsa del processing per gestire: 1-grandi volumi di dati (rifarsi alla semantica che può convertire dati di basso livello (osservazioni) in astrazioni di alto livello più adatte a prendere delle decisioni) 2-la diversità (far ricorso ai modelli semantici ed alle annotazioni dei dati in modo che elaborazioni intelligenti siano indipendenti dalla eterogeneità dei formati dei dati)
Decision 2 Essere capaci di prendere decisioni «preziose» significa essere capaci di interpretare efficientemente i risultati delle analisi . Semantica come risorsa del processing per gestire: 3- la velocità con cui arrivano i dati (ricorriamo sempre alla capacità della semantica di creare dinamicamente modelli per specifici eventi o situazioni e riconoscere nuovi concetti, entità e fatti) 4- la veridicità delle informazioni (esplorare modelli per verificarne l’attendibilità)
Decision 3 Importante per l’utente finale «capire e verificare» l’output del processing. La «provenance» dei dati (ovvero informazione supplementare che spieghi come ciascun risultato sia stato derivato) dovrebbe essere resa accessibile per aiutare l’utente a capire cosa abbia ottenuto
Privacy Per tutelare la privacy si può incorrere in alcuni problemi: In fase di creazione dei dati (se qualcuno vuole nascondere parte dell’informazione) In fase di analisi dei dati (se vogliamo aggregare o correlare dati serve accedere a tutti i dati anche quelli privati) In fase di cancellazione di istanze da un data base si può provocare inconsistenza nei dati aggregati
In sintesi Gestire BD implica avere una infrastruttura: Lineare scalabile Capace di gestire high throughput multi-formatted data Fault tolerant Autorecoverable Con un alto grado di parallelismo Con un data processing distribuito
Ruolo della semantica nel BD processing I modelli basati sulla semantica affrontano il problema della dimensione dei BD esprimendo come le astrazioni di alto livello si manifestino in termini collegati alla realtà osservabile. Ciò comporta un filtraggio dei dati per decidere cosa porre in evidenza e cosa ignorare promuovendo così la scalabilità. L’integrazione semantica di grandi volumi di dati eterogenei e l’applicazione delle inferenze possibili data la conoscenza di background permette di scalare il problema di derivare informazioni utili a prendere decisioni. Explanation and discrimination
Ruolo della semantica nel BD processing I modelli basati sulla semantica affrontano il problema della velocità dei BD: considerando di gestire grandi quantità di dati in tempo reale analizzando e disseminando informazioni tempestivamente Costruzione di modelli di dominio dinamici per filtrare i dati e superare il problema della velocità
Ruolo della semantica nel BD processing I modelli basati sulla semantica affrontano il problema della eterogeneità (variety) dei BD con l’uso di metadati (annotazioni) per descrivere, integrare ed interoperare tra dati differenti. I modelli di dominio possono così catturare relazioni (es: causa effetto), correlazioni tra concetti, associazioni tra funzionalità e pattern di dati che assumono un ruolo critico per predire, spiegare e prendere decisioni in tempo reale. Combinare modelli statistici con approcci basati su logiche dichiarative si rivela vincente a supporto della rappresentazione della conoscenza e del ragionamento automatico.
Ruolo della semantica nel BD processing I modelli basati sulla semantica affrontano il problema della veridicità dei BD cercando di correlare dati acquisisti con modalità differenti. La veridicità è un aspetto cruciale per l’analisi dei BD dove si aggregano dati provenienti da sorgenti diverse ed in differenti contesti. (Uno stesso evento può essere considerato positivo o negativo a seconda del contesto – es. risultati di una elezione politica)
Integrazione Per integrare molte e grandi sorgenti di dati si deve Normalizzare Integrare Trasformare i dati delle sorgenti di informazione richiesti per analizzare e visualizzare dati su larga scala. Complessità dei tool di integrazione a causa della dimensione, eterogeneità e velocità dei dati in arrivo
Integrazione 2 Possibile soluzione: parallelizzazione Preparare un flusso di processing per ciascun campione di dati con l’output di un tool come input di un tool successivo Eseguire in parallelo le operazioni di trasformazione dei dati (informazioni strutturate, semistrutturate,..)
Integrazione 3 Permangono problemi. Armonizzazione delle rappresentazioni dei dati Differenze nella nomenclatura ( in data set differenti nomi diversi per uguali attributi) Differenze nei formati e nelle strutture Non basta specificare che un campo contenga il «nome» di una «Persona» dove nome è una proprietà e Persona è una classe di una ontologia. Il ruolo che gioca quella persona andrebbe esplicitato. Specificare come i valori di alcuni data set mappano nelle classi e proprietà di una ontologia.
In sintesi L’integrazione dell’informazione prevede: Omogeneizzare differenze nelle strutture e nella nomenclatura Identificare record di diversi data set che si riferiscono alla stessa entità reale Una ontologia di dominio può essere usata come riferimento in entrambi task. Convertire i dati in RDF(con una ontologia di riferimento), caricarli in un triple store, interrogarli con SPARQL