Maria Teresa PAZIENZA a.a

Slides:



Advertisements
Presentazioni simili
Tesi di Laurea in Ingegneria Informatica
Advertisements

ROMA 22 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE INTRODUZIONE SESSIONE :BIG DATA, ARCHIVI AMMINISTRATIVI, REGISTRI INTEGRATI. UNA NUOVA VISIONE.
Selezione avversa nella selezione del personale. Il problema Al momento dell’assunzione è molto costoso avere a che fare con lavoratori non adatti al.
Giuditta Cantoni, 4 E S.I.A I DATABASE. Definizione databese In informatica, il termine database, banca dati o base di dati (a volte abbreviato con il.
Fondamenti di Informatica - D. Talia - UNICAL 1 Fondamenti di Informatica FONDAMENTI DI INFORMATICA Domenico Talia
CORSO elementare su DATABASE Applicativo utilizzato OpenOffice 3.0.
Oltre il web 2.0: il web semantico Seminario. World Wide Web ● Nasce nel 1991 al CERN di Ginevra Evoluzione: web dinamico ● Si basa su ● URL ● HTTP ●
Elaborazione delle Immagini Operatori Puntuali Luigi Cinque
IL RUOLO DELLA TECNOLOGIA NEL PROGETTO DI ARCHITETTURA “Progettazione dei Sistemi Costruttivi”
Basi di dati - Fondamenti
Tratto da: Anna Labella (a cura), E questo tutti chiamano Informatica, Manuali Scienze e Tecnologie – Formazione, La Sapienza Roma.
Sistema di Autenticazione unica (Single-Sign-On) (azione #8)
Rappresentazione dell’ Informazione Informazione e Comunicazione
Rielaborato da Atzeni et al., Basi di dati, Mc-Graw Hill
Universita’ di Milano Bicocca Corso di Basi di Dati 1 in eLearning C
Statistica Prima Parte I Dati.
Le tecnologie ICT come driver per il miglioramento della Qualità
GLI STRUMENTI AUSILIARI
Valutazione del servizio scolastico Caratteristiche dell'informazione
Sistema di Autenticazione unica (Single-Sign-On) (azione #8)
Guido Cuscela INFN-Bari
Raccolta ed Analisi dei Requisiti nella Progettazione
Algoritmi e soluzioni di problemi
Maria Teresa PAZIENZA a.a
Dal problema al processo risolutivo
Didattica generale 2-3 ottobre 2017.
Basi di Dati: Introduzione
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
CERTIFICAZIONE DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA
I vincoli di integrità Alcuni aspetti della realtà NON possono essere modellati solamente con entità, attributi e relazioni, per esempio i vincoli di integrità.
I Social Media -> caratteristiche
JAPS: una soluzione “Agile”
Conoscenze, abilità, competenze
FAQ.
Sistema di Autenticazione unica (Single-Sign-On) (azione #8)
SCHEMA MODELLO DI BUSINESS PLAN
analizzatore di protocollo
Sviluppo di un'applicazione web per l'utilizzo del framework SparkER
Università degli Studi di Teramo Facoltà di Agraria
Gestione Informatica dei Dati Aziendali Sistemi Informativi Gestionali
Maria Teresa PAZIENZA a.a
Che cos’e’ l’Informatica
Database
Corso di Ingegneria del Web A A Domenico Rosaci 1
I 7 strumenti della qualità
Estratto da « Democrazia e lavoro nell’era digitale: è possibile trasformare una catastrofe in sogno? » Mario Rasetti Fondazione ISI – Torino ISI Global.
Gli schemi concettuali
Università Carlo Cattaneo - LIUC
Introduzione alle basi di dati
Psicologia dell’apprendimento
Access.
Programmare.
nel processo decisionale
Il caso d’uso “Data On Travel”
Progettazione concettuale
Sistemi informativi statistici
Elementi di Metodologia della ricerca psicologica EdM2018
Strategie di progetto Si possono utilizzare le strategie tipiche dello sviluppo di un processo di ingegnerizzazione (es. ingegneria del software). Strategie.
Mobilità internazionale e conversione dei voti Maria Sticchi Damiani febbraio
Selezione e Proiezione
Introduzione ai DBMS I Sistemi di Gestione di Basi di Dati sono strumenti software evoluti per la gestione di grandi masse di dati residenti su memoria.
Workshop “AI for the Public Administration”
Caterina Viviano Istat – Responsabile del
ROMA 26 FEBBRAIO 2018 Web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) ROMA 26 FEBBRAIO 2018 INAUGURAZIONE.
Il questionario: progettazione e redazione II Modulo
ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining.
A cura di: Alessandro Hinna
IL PERCORSO LOGICO DI UN PROGETTO
LA CONFIGUARAZIONE DEL PROGETTO
Transcript della presentazione:

Maria Teresa PAZIENZA a.a. 2018-19 Big Data management Maria Teresa PAZIENZA a.a. 2018-19

knowledge discovering e management Introduzione Principali punti di interesse: Technical data provisioning (acquisizione, memorizzazione, elaborazione) Technical data utilization (complessità temporale e computazionale) Functional data provisioning (gestione del ciclo di vita delle informazioni, agile gestione dell’informazione) Functional data utilization (settore in cui i Big Data sono usati) L’aspetto semantico si concentra su knowledge discovering e management

Introduzione In generale l’unico modo in cui gli utenti possono capire una nuova informazione è legata al fatto che il software sia in grado di capire le informazioni che gestisce. La rappresentazione dei dati è il fattore chiave per tutto il processo: Memorizzazione Organizzazione Filtro Analisi Visualizzazione dei dati su larga scala

Introduzione Si deve fare i conti con il problema della ubiquità, che si riferisce alla necessità di trasformare dati in conoscenza L’acquisizione di tale conoscenza dipende fortemente dall’esistenza di un effettivo/riconoscibile collegamento tra i dati che renda possibile ad un computer integrare dati da data set eterogenei.

Introduzione I grafi sono modelli flessibili per l’integrazione dei dati con diversi tipi di strutture; inoltre rendono possibile collegare tra loro tali dati eterogenei. I vocabolari descrivono il significato dei dati

Big Data Più i dati potranno essere integrati, più conoscenza si potrà estrarre aumentando così il valore dei risultati del processing. Le tecnologie semantiche sono di grande aiuto in questo scenario: RDF, RFDS, OWL Linguaggi per descrivere dati semantici in un contesto di elaborazione automatica.

Big Data RDF (Resource Description Framework) basato su triple (soggetto, predicato, oggetto) i cui elementi sono URI. RDF costruisce grafi etichettati con significato come query language. RDFS un vocabolario con una semantica normata, quella dello Schema. Il vocabolario esprime l’eredità delle classi e delle proprietà OWL una versione logica del linguaggio per soddisfare i requisiti Web. OWL può essere considerato un vocabolario con grande potere espressivo (classi, proprietà, relazioni, cardinalità, uguaglianze, vincoli, etc)

Big Data management Oltre agli aspetti tradizionali del data processing che prevedono data gathering, processing, management for producing «new» information for end users, big data processing deve gestire anche ambiguity, uncertainty, variety per cui sarà richiesto che i dati siano cleaned, tagged, classified and formatted per ottimizzare l’elaborazione

Big Data management ETL- Extract, Trasform, Load Le architetture per Big Data devono saper gestire diversi tipi di formati di dati (testi, files compressi, variamente delimitati, etc) elaborare i dati per estrarre informazione puntuale quali entità nominali, relazioni tra entità, etc. Ragion per cui i dati devono essere puliti, resi processabili, che siano strutturati o meno, integrati e memorizzati opportunamente congiuntamente ai metadati.

Big Data Analysis Acquisition/Access Assembly/Organization Analyze Extraction/Cleaning Integration Analyze Action/Decision

Acquisition Le architetture per i Big Data devono: Acquisire dati ad alta velocità da più sorgenti Interagire con più protocolli Bisogna definire dei filtri per memorizzare solo dati di interesse o dati con un basso livello di incertezza

Assembly/Organization Le architetture per i BD devono poter gestire dati in vari formati essere capaci di analizzarli estrarre le informazioni specifiche quali Entità Nominali, relazioni tra di esse etc. I dati devono essere ripuliti e posti in formati computazionali, strutturati o semistrutturati, integrati e memorizzati nelle posizioni opportune

Analyse Effettuare queries, creare modelli, costruire algoritmi appropriati per trovare nuove informazioni sotto forma di approfondimenti. L’attività di mining richiede dati integrati, ripuliti, verificati . Nel contempo lo stesso data mining può essere usato per Migliorare la qualità e la veridicità dei dati Capirne la semantica Definire funzioni di interrogazione intelligenti

Tecniche di visualizzazione Prendere decisioni valide è un obiettivo finale per i BD. L’utente finale è punto di riferimento Necessari strumenti di visualizzazione «dinamici» Visualizzare e collegare concetti di un determinato dominio Visualizzare l’evoluzione di un documento rispetto ai diversi contributi di diversi autori (History flow)

Action/Decision Essere capaci di prendere decisioni «preziose» significa essere capaci di interpretare efficientemente i risultati delle analisi . Semantica come risorsa del processing per gestire: 1-grandi volumi di dati (rifarsi alla semantica che può convertire dati di basso livello (osservazioni) in astrazioni di alto livello più adatte a prendere delle decisioni in contesti di «previsioni») 2-la diversità (far ricorso ai modelli semantici ed alle annotazioni dei dati in modo che elaborazioni intelligenti siano indipendenti dalla eterogeneità dei formati dei dati)

Action/Decision 2 Essere capaci di prendere decisioni «preziose» significa essere capaci di interpretare efficientemente i risultati delle analisi . Semantica come risorsa del processing per gestire: …. 3- la velocità con cui arrivano i dati (ricorriamo sempre alla capacità della semantica di creare dinamicamente modelli per specifici eventi o situazioni e riconoscere nuovi concetti, entità e fatti) 4- la veridicità delle informazioni (esplorare modelli per verificarne l’attendibilità)

Action/Decision 3 Importante per l’utente finale «capire e verificare» l’output del processing. La «provenance» dei dati (ovvero informazione supplementare che spieghi come ciascun risultato sia stato derivato) dovrebbe essere resa accessibile per aiutare l’utente a capire cosa sia stato ottenuto

Privacy Per tutelare la privacy si può incorrere in alcuni problemi: In fase di creazione dei dati (se qualcuno vuole nascondere parte dell’informazione) In fase di analisi dei dati (se vogliamo aggregare o correlare dati serve accedere a tutti i dati anche quelli privati) In fase di cancellazione di istanze da un data base si può provocare inconsistenza nei dati aggregati

In sintesi Gestire BD implica avere una infrastruttura: Lineare scalabile Capace di gestire high throughput multi-formatted data Fault tolerant Autorecoverable Con un alto grado di parallelismo Con un data processing distribuito

Ruolo della semantica nel BD processing I modelli basati sulla semantica affrontano il problema della dimensione dei BD esprimendo come le astrazioni di alto livello si manifestino in termini collegati alla realtà osservabile. Ciò comporta un filtraggio dei dati per decidere cosa porre in evidenza e cosa ignorare promuovendo così la scalabilità. L’integrazione semantica di grandi volumi di dati eterogenei e l’applicazione delle inferenze possibili data la conoscenza di background permette di scalare il problema di derivare informazioni utili a prendere decisioni. Explanation and discrimination

Ruolo della semantica nel BD processing I modelli basati sulla semantica affrontano il problema della velocità dei BD: considerando di gestire grandi quantità di dati in tempo reale analizzando e disseminando informazioni tempestivamente Costruzione di modelli di dominio dinamici per filtrare i dati e superare il problema della velocità

Ruolo della semantica nel BD processing I modelli basati sulla semantica affrontano il problema della eterogeneità (variety) dei BD con l’uso di metadati (annotazioni) per descrivere, integrare ed interoperare tra dati differenti. I modelli di dominio possono così catturare relazioni (es: causa effetto), correlazioni tra concetti, associazioni tra funzionalità e pattern di dati che assumono un ruolo critico per predire, spiegare e prendere decisioni in tempo reale. Combinare modelli statistici con approcci basati su logiche dichiarative si rivela vincente a supporto della rappresentazione della conoscenza e del ragionamento automatico.

Ruolo della semantica nel BD processing I modelli basati sulla semantica affrontano il problema della veridicità (veracity) dei BD cercando di correlare dati acquisisti con modalità differenti. La veridicità è un aspetto cruciale per l’analisi dei BD dove si aggregano dati provenienti da sorgenti diverse ed in differenti contesti. (Uno stesso evento può essere considerato positivo o negativo a seconda del contesto – es. risultati di una elezione politica)

Integrazione Per integrare molte e grandi sorgenti di dati si deve Normalizzare Integrare Trasformare i dati delle sorgenti di informazione richiesti per analizzare e visualizzare dati su larga scala. Complessità dei tool di integrazione a causa della dimensione, eterogeneità e velocità dei dati in arrivo

Integrazione 2 Possibile soluzione: parallelizzazione Preparare un flusso di processing per ciascun campione di dati con l’output di un tool come input di un tool successivo Eseguire in parallelo le operazioni di trasformazione dei dati (informazioni strutturate, semistrutturate,..)

Integrazione 3 Permangono problemi. Armonizzazione delle rappresentazioni dei dati Differenze nella nomenclatura ( in data set differenti nomi diversi per uguali attributi) Differenze nei formati e nelle strutture Non basta specificare che un campo contenga il «nome» di una «Persona» dove nome è una proprietà e Persona è una classe di una ontologia. Il ruolo che gioca quella persona andrebbe esplicitato. Specificare come i valori di alcuni data set mappano nelle classi e proprietà di una ontologia.

In sintesi L’integrazione dell’informazione prevede: Omogeneizzare differenze nelle strutture e nella nomenclatura Identificare record di diversi data set che si riferiscono alla stessa entità reale Una ontologia di dominio può essere usata come riferimento in entrambi task. Convertire i dati in RDF(con una ontologia di riferimento), caricarli in un triple store, interrogarli con SPARQL