Introduzione al Data Mining Simona Balbi. Abbondanza di dati, ma … povertà di conoscenza Le basi di dati elettroniche sono sempre più grandi  Si ragiona.

Slides:



Advertisements
Presentazioni simili
Alcuni aspetti chiave e preliminari:
Advertisements

Analisi e progettazione
DBMS (DataBase Management System)
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità C1 Il linguaggio SQL.
TIPOLOGIA DI PRODOTTO Tre tipi di prodotto: 1)Convenience Goods 2)Shopping Goods 3)Specialty Goods Convenience Il consumatore conosce il prodotto che.
2 Marketing La ricerca di marketing J. Paul Peter
Chiara Mocenni – Analisi delle Decisioni a.a Analisi delle Decisioni Preferenze, decisioni e incertezza Chiara Mocenni.
Quali sono i clienti che l’azienda è in grado di soddisfare?
Ricerca non sperimentale: La ricerca survey (inchiesta)
Levels of constraint I vincoli (o livelli di costrizione) sono i condizionamenti impiegati dalla ricerca.
Raccolta dei dati e relazioni tra variabili
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
L’uso dei database in azienda
ON LINE ANALYTICAL TRANSACTION PROCESSING (OLAP)
IL PATRIMONIO DI DATI - LE BASI DI DATI. Il patrimonio dei dati Il valore del patrimonio di dati: –Capacità di rispondere alle esigenze informative di.
Metodi di ricerca in Psicologia
Basi di dati. Vantaggi degli archivi digitali Risparmio di spazio: sono facilmente trasferibili e duplicabili Risparmio di tempo: si può accedere ai dati.
L’indagine OCSE-PISA: il framework e i risultati per la matematica
Progettazione: analisi delle raccolte esistenti Una volta definito il profilo istituzionale della biblioteca e presa consapevolezza del contesto allinterno.
Data mining for e-commerce sites
FONDAMENTI DI INFORMATICA III A2A2-1 CARATTERISTICHE E MODELLIZZAZIONE DEL LAVORO DUFFICIO Argomento 2 Approfondimento 2 CARATTERISTICHE E MODELLIZZAZIONE.
Il Sistema Informativo e le
Modello E-R Generalizzazioni
Modello E-R Generalizzazioni
Cai Lin Lin Michela & Guidetti Emanuela presentano:
Database & Information Retrieval
DAGLI ARCHIVI AI DATABASE
PROBLEMI E “PAROLACCE” Nucleo: Relazioni e Funzioni
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Indicazioni per il coinvolgimento dei cittadini: le Raccomandazioni generali e operative Alessandro Bazzoni 14/16 Novembre 2011.
Corso JAVA Lezione n° 11 Istituto Statale di Istruzione Superiore “F. Enriques”
Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Programma del Corso.
Alla fine degli anni quaranta nasceva il mito del cervello elettronico, e tutte le attività connesse allutilizzo del computer venivano indicate tramite.
Microsoft Access (parte 5) Introduzione alle basi di dati Scienze e tecniche psicologiche dello sviluppo e dell'educazione, laurea magistrale Anno accademico:
Problem Solving: capacità di risolvere problemi
Cloud SIA V anno. Introduzione ai Data Warehouse.
Tipo Documento: unità didattica 4 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
SEZIONE DEL LAVORO E ARGOMENTI
La pianificazione della produzione dei dati. Costituzione del gruppo di progettazione L’elevato grado di complessità e la multidisciplinarietà richiesta.
Tecnologie dell'informazione e della comunicazione - Stacey S. Sawyer, Brian K. Williams Copyright © The McGraw-Hill Companies srl “Commercio elettronico,
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
DATA MINING.
Progettazione di basi di dati: metodologie e modelli
INTELLIGENZA ARTIFICIALE
Ragionare per paradigmi
INDICATORI SOCIALI E VALUTATIVI
NiXuS srl1 Training Galco Italia 22 Gennaio 2000 pMeter Software per l’analisi delle performance aziendali. N I X U S srl Via G. Scarabelli Roma,
Sistemi di Gestione dei Dati e dei Processi Aziendali Computer-Assisted Audit Technique (CAAT)
I Parte LA PRODUZIONE STATISTICA DEI DATI  Introduzione  La pianificazione  Il disegno dell’indagine  Le tecniche d’indagine  Le fasi operative 
ICT e Sistemi informativi Aziendali Materiale di supporto alla didattica.
Microsoft Access Filtri, query. Filtri Un filtro è una funzione che provoca la visualizzazione dei soli record contenenti dati che rispondono a un certo.
Le basi di dati.
La ricerca sul campo.
Analisi matematica Introduzione ai limiti
Informatica Problemi e algoritmi. una situazione che pone delle domande cui si devono dare risposte. Col termine problema o situazione problematica s’indica.
1 “ Le Basi di Dati ”. 2 Parte 5: Tabelle –Creazione di una tabella –Indici e chiavi primarie –Relazioni e integrità referenziale Basi di Dati Struttura.
La sanità nel XXI secolo si avvale non soltanto di diverse abilità mediche, ma anche di migliori informazioni sull’efficacia di ogni trattamento.
Dal problema al programma – ciclo di sviluppo del software La scrittura del programma è solo una delle fasi del processo di sviluppo di un'applicazione.
Parsing ricorsivo discendente Il parsing ricorsivo discendente (recursive descent parsing) è un metodo di tipo top-down che può essere facilmente codificato.
Campionamento procedimento attraverso il quale si estrae, da un insieme di unità (popolazione) costituenti l’oggetto delle studio, un numero ridotto di.
Management e Certificazione della Qualità Prof. Alessandro Ruggieri.
A.a Dott. Oreste Verrini Facoltà di Economia Università di Pisa GESTIONE INFORMATICA DEI DATI AZIENDALI 21/10/2014 Enterprise Resource Planning.
L’ANALISI DEI BISOGNI DI FORMAZIONE Laboratorio per la formazione Spi Atto Primo Gruppo Arancio Lido di Camaiore 1- 3 febbraio 2011.
Data warehouse(B.2.8) Nei database ci sono molti dati di tipo diverso e ciascuna tipologia di dato può avere un formato diverso. Alcuni provengono da legacy.
Transcript della presentazione:

Introduzione al Data Mining Simona Balbi

Abbondanza di dati, ma … povertà di conoscenza Le basi di dati elettroniche sono sempre più grandi  Si ragiona in termini di terabyte (10 12 ), ma anche, ad es. yottabyte (10 24 )  Siamo sommersi dai dati e sospettiamo che contengano nuova conoscenza raccoltamemorizzazione Questo grazie alle nuove tecnologie di raccolta e memorizzazione dei dati e soprattutto grazie alWEB

Che cos’è il Data Mining (DM)  DM è la ricerca semi-automatica di strutture, associazioni, anomalie e cambiamenti, all’interno di grandi insiemi di dati  Parole chiavi: grandi grandi insiemi di dati scoperta di strutture (NON verifica) data driven (NON hypothesis driven) machine-driven (NON human-driven)

Visualizzazione Statistica Intelligenza artificiale DM ha origine in numerose discipline Data base Systems Machine learning High Performance & Distributed Computing Information retrieval Data Mining Ma anche altri ambiti di applicazione … Marketing

The Data Gap N.B. E’ corretto usare il termine terabyte (TB), nel significato di mille miliardi di byte, se si è interessati ad esprimere un ordine di grandezza e non una quantità precisa (v. Wikipedia), per via dell’improprio riferimento al sistema binarioordine di grandezza La quantità di dati disponibili esplode, mentre il numero di scienziati, informatici, tecnici in grado di analizzarli rimane sostanzialmente costante. Questo è il data gap (nella definizione di Grossman) e il DM è un possibile strumento per colmare questo gap

In fact, the term “data mining” used to be a term of derision among statisticians, referring to when you’re fishing in the data without having an a priori hypothesis. If you do statistics properly, you’re supposed to come up with a hypothesis that you can either confirm or reject. In today’s world, that’s not a good way to go about it. When you have lots of data, and few people, you want algorithms that will churn through the data, evaluate lots of models, and look for things that might become interesting patterns or hypotheses. Un’intervista a USAMA FAYYAD ( Yahoo!'s chief data officer and senior vice president of Research & Strategic Data Solutions ) sul rapporto fra statistica e DM

Il rapporto fra statistica e DM secondo Fayyad few variables In a world where you have a few variables — just a couple things to evaluate — it makes more sense to put that information in front of a person and have them come up with hypotheses and test them. But let’s say you’re talking about ten variables—already the human is lost. million variables billions of data points If it’s a hundred, or a thousand, or ten thousand, or a million variables, and billions of data points, which, you know, is the kind of thing we deal with on a daily basis, in the scientific and commercial world, then you have no hope whatsoever of understanding it at all. Human beings, from a mathematical perspective, are fairly limited. Two and three dimensions, maybe five, and we’re OK. But that’s about it. And this is where these algorithms can help a lot, because they can comprehend thousands of dimensions, and focus their attention on things that might be interesting.

Un po’ di definizioni  DM is the process of discovering meaningful new correlations, patterns,and trends by sifting through large amounts of data stored in repositories  DM is the exploration and analysis, by automatic and semiautomatic means, of large quantitaties of data in order to discover meaningful patterns and rules  DM is the non trivial process of identifying valid, novel potentially useful and ultimately understandable patterns in data  Per DM si intende il processo di selezione, esplorazione e modellazione di grande masse di dati, al fine di scoprire regolarità o relazioni non note a priori e allo scopo di ottenere un risultato chiaro e utile al proprietario del data base

NOTA BENE Ciò che distingue il DM da un’analisi statistica non è tanto (o soltanto) la quantità dei dati che vengono analizzati o la particolarità delle tecniche impiegate: è l’integrazione fra le conoscenze sulla base di dati, la metodologia di analisi e la conoscenza del business business intelligence Il DM non è il mero utilizzo di un algoritmo informatico o di una tecnica statistica ma è un processo di business intelligence, volto all’utilizzo di quanto fornito dalla tecnologia dell’informazione e dalla metodologia statistica come supporto per le decisioni aziendali

Knowledge Discovery in Databases (KDD) dare un senso ai dati Il KDD può essere inteso come la disciplina che si occupa di sviluppare metodi e tecniche per dare un senso ai dati forme più compatte più astratte più utili Il problema di base cui il KDD vuole dare risposta è quello di trasformare dati di un livello inferiore, che sono di solito troppo voluminosi per essere compresi ed utilizzati facilmente, in altre forme più compatte (ad esempio brevi sintesi), più astratte (ad esempio un’approssimazione descrittiva, oppure un modello del processo di generazione dei dati), o più utili (ad esempio, un modello predittivo per stimare il valore di casi futuri). pattern Al centro del processo è l’applicazione di specifici metodi di DM per l’identificazione e l’estrazione di pattern pattern found in data “components of models, for example, a particular rule in a classification model or a linear component in a regression model” N.B. La parola pattern (genreralmente found in data) è ricorrente nella letteratura del DM, seguendo Fayyad et al., lo possiamo intendere come “components of models, for example, a particular rule in a classification model or a linear component in a regression model”

Le fasi che compongono una procedura di KDD (Fayyad, Piatetsky-Shapiro, Smyth, AI Magazine, 1996)

1.Capire il contesto applicativo e l’obiettivo conoscitivo del committente 2.Creare il target data set: selezionare un insieme di dati, oppure concentrarsi su un sottoinsieme di variabili o di individui (campione) pensiamo di voler studiare l’associazioni di prodotti acquistati dai clienti di un supermercato, avendo a disposizione la scheda fedeltà, associata ad un breve questionario descrittivo, ad esempio, del titolo di studio del cliente. Questa informazione potrebbe essere inutile, in questa analisi, mentre invece potrebbe essere rilevante per una specifica campagna promozionale, ad esempio di un abbonamento ad una rivista aziendale. Spesso, può non essere conveniente o necessario analizzare l’intera base di dati e può convenire esplorarlo preventivamente e giungere alla scelta di un’analisi su base campionaria. 3.Pulire i dati e pre-trattarli: eliminare il rumore, se necessario, raccogliere le informazioni sul modello di generazione dei dati, decidere le strategie per gestire i dati mancanti, o tener conto, ad esempio, di incoerenze e di eventuali errori. Possono essere necessarie codifiche o standardizzazioni. Può essere necessario rendere coerenti dati provenienti da fonti differenti (necessità dei metadati) Le fasi in dettaglio 1.

Le fasi in dettaglio 2. 4.Riduzione dei dati e proiezione : individuare utili caratteristiche per rappresentare i dati in relazione dell’obiettivo 5.Abbinare gli obiettivi di KDD (fase 1) ad uno specifico metodo di DM (ad es. sintesi, classificazione, regressione, clustering, …) 6.L’analisi esplorativa e la selezione del modello e delle ipotesi: scegliere i metodi e gli algoritmi di DM al fine di trovare i pattern nei dati. Si tratta di decidere modelli e parametri appropriati (ad esempio alla natura dei dati, quindi scelte di codifica: discretizzare i dati?) e abbinare i metodi di DM con i criteri generali definiti nel processo di KDD (ad es. c’è una necessità di predizione, o di comprendere le relazioni?)

7.E’ il DM: ricercare i pattern di interesse in una particolare forma di rappresentazione o un insieme di rappresentazioni (regole di classificazione, alberi, regressione, analisi dei gruppi). Il committente può essere determinante per la qualità del processo nella chiara definizione degli obiettivi 8.Interpretare i risultati ottenuti E’ possibile che a questo punto sia necessario tornare iterativamente a uno qualsiasi dei passi precedenti Questo passo può produrre la visualizzazione dei risultati 9.Utilizzare la conoscenza direttamente, incorporandola in un altro sistema per azioni ulteriori o semplicemente per documentare e presentare i risultati alle parti interessate. Il processo include il controllo e la soluzione di potenziali conflitti con precedenti convincimenti Il KDD è un processo ITERATIVO e INTERATTIVO Le fasi in dettaglio 3.

E il DM? Il Data mining è un passo del processo di KDD che consiste nell’applicare (spesso in maniera iterativa) l’analisi dei dati e nel costruire algoritmi che consentono di identificare strutture interessanti Gli obiettivi possono essere di due tipi: 1. di verifica 2. di scoperta In quest’ultimo possiamo ancora distinguere un obiettivo predittivo o un obiettivo descrittivo

FARE DM Fare DM significa tradurre le esigenze di business in una problematica da analizzare, nel reperimento del database necessario per l’analisi, nell’applicazione della tecnica statistica, implementate in un algoritmo informatico, al fine di produrre dei risultati rilevanti per prendere una decisione strategica, che a sua volta comporterà una nuova esigenza di misurazione e, quindi, in nuova opportunità di business, facendo partire quello che è stato chiamato il “circolo virtuoso della conoscenza del DM” (Berry, Linoff, 1997)

Es. tratto da G.Manco Tecniche Di Data Mining per l’Analisi dei Dati

Qualche semplice “query” Che voti hanno avuto gli studenti calabresi Che media hanno gli studenti del corso di DM Chi ha avuto il voto migliore Dalle “query” al supporto alle decisioni Quanti studenti che hanno ottenuto un voto di laurea superiore a 100 hanno avuto un voto alto (>27) agli esami sia di informatica che di Statistica ? Qual è l’andamento temporale della media dei voti in Informatica, rispetto alla media in Statistica ?

IDNome Voto Statistica Voto Informatica Voto LAUREA 1Enrico Alfredo Domenico Luisa Giovanna Diego Quanti studenti che hanno ottenuto un voto di laurea superiore a 100 hanno avuto un voto alto (>27) agli esami sia di informatica che di Statistica ?

Es. tratto da G.Manco Tecniche Di Data Mining per l’Analisi dei Dati

Le sfide per uno statistico nel DM (da D. Hand, 1997) La teoria statistica di solito assume di operare su basi di dati piccole e pulite, che consentono risposte in termini di conoscenza, attraverso analisi intensive di un insieme di dati, statici, campionati secondo uno schema i.i.d., che sono spesso raccolti per rispondere a problemi specifici, di regola esclusivamente numerici NIENTE DI TUTTO QUESTO NEL DM I: la dimensione della base dei dati Un grande insieme di dati per uno statistico contiene poche centinaia di elementi, magari alcune migliaia. Bene, gli attuali data base spesso contengono milioni di record. Secondo Cortes and Pregibon nel 1997, AT&T aveva 100 milioni di clienti con 200 milioni di chiamate al giorno sulla sua rete. Il progetto sul genoma umano ha raccolto gigabytes di dati. Questi numeri mostrano la futilità dei metodi statistici classici

Un primo problema è l’impossibilità di tenere nella memoria centrale del computer (sia pure potentissimi) tutti i dati da analizzare. Questo vuole dire che i dati devono essere elaborati durante l’analisi, tecniche adattive o sequenziali devono essere sviluppate. Metodi di stima adattivi o sequenziali hanno ottenuto maggiore attenzione da parte di non statistici, in particolare ricercatori impegnati nella pattern recognition e nel machine learning Quando il numero di variabili è grande la maledizione della multidimensionalità comincia a colpire: con 1000 variabili dicotomiche, siamo nell’ordine delle celle, un numero che fa impallidire persino un miliardo di record Attenzione: gli insiemi di dati sono grandi perché il numero di record è grande e/o il numero di variabili è grande (naturalmente cosa è un record in un’analisi può essere una variabile in un’altra, a secondo dell’obiettivo!) Problemi di natura informatica

E non si tratta soltanto dei limiti di memoria dei computer: i dati possono non avere la confortante struttura piatta, ma possono avere strutture interrelate, magari gerarchiche. E’ possibile che basi di dati molto grandi siano distribuite su più computer e in più luoghi E’ questo, naturalmente, rende complicate le operazioni di campionamento e pesanti in termini di tempi di realizzazione. Tutto questo può rendere le tecniche statistiche classiche inapplicabili e loro varianti diventano necessarie Problemi di natura informatica

Altri problemi  DATI CONTAMINATI (outliers, dati mancanti o incoerenti)  NON STAZIONARIETA’, SELECTION BIAS, OSSERVAZIONI DIPENDENTI  DATI NON NUMERICI  RELAZIONI SPURIE

Dati contaminati fonti secondarie Il DM lavora necessariamente su dati provenienti da fonti secondarie, quindi non migliorabili con interventi alla fonte dato non validoanomalimancantiimprecisi Del resto, in grandi basi di dati è certo che ci sarà qualche dato non valido: dati anomali, dati mancanti, dati imprecisi, sia per misurazione, sia per problemi legati alla rilevazione che tipicamente si ritrovano in una base di dati, in particolare quando si lavoro con comportamenti umani, come nelle ricerche di mercato Si immagini semplicemente che, da un punto di vista statistico, soltanto 1 record su 1000 provenga da una popolazione diversa da quella ipotizzata Un decimo dell’1% dei dati provenienti da una fonte differente hanno un impatto modesto nei problemi statistici consueti, ma quando parliamo di di record, allora vuol dire di dati estratti da una distribuzione differente E a questo punto è difficile ignorarli !

Osservazioni dipendenti I metodi statistici classici assumono che i dati siano campionati indipendentemente e dalla stessa distribuzione Esitono modelli, quali i metodi per misure ripetute, sono stati sviluppati per situazioni particolari, in cui uno schema i.i.d. non può essere assunto. Nel DM questa è la norma: è piuttosto difficile assumere che immense basi di dati siano generate così. Anzi, è più realistico che alcune regioni dello spazio delle variabili siano campionate più intensamente di altre (ad esempio, negli Stati Uniti, fusi orari diversi significano che le transazioni al supermercato, o le chiamate telefoniche non accadono “casualmente” su tutto il territorio degli USA) Questo può far sorgere dei dubbi sulla validità dei metodi di stima standard e pongono problemi particolari per la stima sequenziale e gli algoritmi di ricerca

Non Stazionarietà Si ha quando la popolazione di riferimento cambia. Pensiamo ad esempio come si modificano gli individui che accendono un mutuo, a secondo della situazione economica. Può anche succedere che gli strumenti di misurazione si modificano, distorcendo i dati rilevati, ad esempio quando una domanda in un questionario di indagini ripetute modifica il uso significato, ad esempio a seconda dell’età degli intervistati

Dati prodotti nel continuo Sebbene i tempi di acquisizione dei record individuali sia registrato, le modifiche nella struttura della popolazione possono essere inapprezzabili In più, la natura dei cambiamenti può essere sottile e difficile da essere individuata Alle volte la situazione può essere anche più complicata, quando i dati sono dinamici Pensiamo alle telefonate di AT&T: i dati sono prodotti in continuo e quindi il database che li contiene si evolvono continuamente. Questa è una situazione completamente differente da quelle affrontate dalla statistica classica. Può essere necessario elaborare i dati i tempo reale. I risultati dell’analisi se prodotti in settembre, con riferimento a quanto è accaduto a giugno, hanno ben poco interesse per l’organizzazione. La necessità di risposte rapide e la dimensione dei data set ancora una volta pongono questioni delicate sull’efficacia degli algoritmi statistici

Selection Bias La distorsione del campione selezionato al di fuori di un campionamento casuale è un problema importante e sottovalutato E’ un problema molto generale e non specifico delle grandi basi di dati, però è forse più grave in quest’ultimo caso Avviene, ad esempio, nella scelta dei pazienti nelle prove cliniche e dipendono dai criteri di inclusione/esclusione Può sorgere nelle indagini da questionario nei confronti delle cadute di risposta sistematiche E’ presente nelle ricerche psicologiche quando i soggeti sono scelti fra le persone disposte a partecipare, frequentemente studenti, giovani e intelligenti In generale, nei data set di grandi dimensioni si presente sotto la forma di campioni di convenienza e opportunità

Che fare ? La selection bias, o la non stazionarietà della popolazione, possono essere affrontate con un modello più ampio di quelli dello schema inferenziale classico, che includa il meccanismo di selezione del campione. Per i grandi insiemi di dati che sono al centro degli studi di DM – e che sono in genere anche insiemi di dati complessi - è anche difficile disporre di sufficienti informazioni su come i dati sono stati raccolti Questo rende difficile formulare questo genere di modelli

Cercare pattern interessanti nei dati! Fayyad et al. parlano dell’impatto devastante sull’astronomia dell’immensa quantità di dati diventata disponibile quasi improvvisamente : almeno 5 × 10 7 galassie e 2 × 10 9 oggetti stellari identificabili A questo punto occorre cercare pattern e strutture interessanti nei dati, ma soprattutto capire cosa si intende per pattern e cosa significa interessante

INTERESSANTE ? (Klosgen, 1996) Prova (evidence): importanza del riscontro del risultato con un criterio statistico Ridondanza (redundancy) quantifica la somiglianza di un risultato rispetto ad altri risultati Utilità (usefulness) rispetto all’obiettivo conoscitivo Novità (novelty) include la deviazione dalle conoscenze precedenti Semplicità (simplicity) fa riferimento alla complessità sintattica della presentazione dei risultati Generalità (generality) è determinata dalla frazione di popolazione cui i risultati si riferiscono

Dati Non Numerici La statistica classica lavora esclusivamente su dati numerici Oggi le basi di dati disponibili contengono sempre più frequentemente dati differetni: immagini, suoni, testi, mappe geografiche non convenzionali E’ spesso necessario identificare strutture e regolarità in questo genere di dati non convenzionali Web Mining Il Web Mining è oggi un area distinta del Mining e sarà oggetto della seconda parte del corso

Relazioni Spurie Il problema è simile a quello dell’overfitting per i modelli statistici Poiché la ricerca di regolarità esamina un numero grandissimo di possibili “regolarità (pattern)” identificabili, c’è un’alta probabilità che possano identificarsi configurazioni “spurie” come pattern Forse possibili soluzioni sono da ricercarsi ponendosi al di fuori del tradizionale punto di vista statistico e definire strategie, basate su regole di valutazione, piuttosto che su interpretazioni probabilistiche E in questo contesto non vanno neppure trascurate le conseguenze operative connesse ai risultati ottenuti

Data Retrieval1 Obiettivo: Obiettivo: trovare oggetti che soddisfino condizioni chiaramente specificate mediante una espressione regolare o di algebra relazionale, ma anche strumenti tipici di interrogazione di banche dati Esempi di risultati di un processo di data retrieval:  Risposte puntuali ad una richiesta Quanti prodotti abbiamo venduto questo mese?  Produzione di raccolte Quali sono i nominativi dei nostri clienti con ordinativi superiori a 10000€?  Supporto alla elaborazione di studi N.B. Legge di Mooers: “Un sistema di reperimento delle informazioni tenderà a non essere usato quando trovare le informazioni è “more painful and troublesome” ( “più noioso e doloroso”) che non trovarle”

Il data retrieval è uno strumento per interrogare banche dati, mediante query (interrogazione) Il sistema cerca, all interno della banca dati, tutti i casi che soddisfano le condizioni poste nella query vale a dire tutti i record che presentano le caratteristiche richieste, fornendo successivamente la risposta L'individuazione di associazioni nascoste può quindi solo procedere per tentativi, mentre l'uso di strumenti di data retrieval consente di avere risposte precise a qualsiasi domanda specifica, il data mining risponde a domande più generiche Si tratta quindi di un approccio verificativo e non esplorativo, come nel data mining Data Retrieval2.

Structured Query Language - SQL SQL è un linguaggio progettato per gestire e recuperare i dati in un sistema di gestione di basi di dati relazionali (DBMS) Si tratta di un linguaggio di programmazione interattivo. Le interrogazioni (query) hanno la forma di comandi, e consente all’utente di specificare la descrizione dei risultati desiderati Es. SELECT * FROM books WHERE price > ORDER BY title; che consente di ottenere la lista dei titoi dei libri più cari contenuti nella base di dati su cui si è fatta l’interrogazione. In dettalgio, la query identifica nella tabella books tutte le righe nelle quali la colonna price contiene un valore superiore a 100,00. Il risultato è ordinato alfabeticamente, rispetto al campo title. L’asterisco (*) indica che tutte le colonne della tabella books per le quali è valida la richiesta devono essere incluse nell’insieme rei risultati

Piccolo glossario (da Wikipedia) Business Intelligence: Con il termine business intelligence (BI) ci si può solitamente riferire a:BI 1.un insieme di processi aziendali per raccogliere ed analizzare informazioni strategiche.processi aziendali 2. la tecnologia utilizzata per realizzare questi processi, 3.le informazioni ottenute come risultato di questi processi. Questo termine è stato coniato nel 1958 da Hans Peter Luhn, ricercatore tedesco, alla IBM.Hans Peter LuhnIBM Data mart: è un raccoglitore di dati specializzato in un particolare soggetto. E’ un sottoinsieme logico o fisico di un Data warehouse di maggiori dimensioni. La differenza fondamentale consiste nel fatto che la creazione del Data warehouse avviene in maniera generalizzata per poi venire incontro alle specifiche esigenze, mentre il Data mart viene generalmente creato per venire incontro ad un'esigenza specifica e già determinata. Data Wharehouse: "Magazzino di dati". è un archivio informatico contenente i dati di un'organizzazione. I DW sono progettati per consentire di produrre facilmente relazioni ed analisi. Il data warehouse è un sistema OLAPOLAP

Piccolo glossario (da Wikipedia) Machine learning L'Apprendimento automatico (noto in letteratura come Machine Learning) rappresenta una delle aree fondamentali dell'Intelligenza Artificiale e si occupa della realizzazione di sistemi che si basano su osservazioni o esempi come dati per la sintesi di nuova conoscenza (classificazioni, generalizzazioni, riformulazioni).Intelligenza Artificiale Metadato (dal greco meta- "oltre, dopo" e dal latino datum "informazione" - plurale: dati), letteralmente "dato su un (altro) dato", è l'informazione che descrive un insieme di dati. Un esempio tipico di metadati è costituito dalla scheda del catalogo di una biblioteca, la quale contiene informazioni circa il contenuto e la posizione di un libro, cioè dati riguardanti i dati che si riferiscono al libro. Un altro contenuto tipico dei metadati può essere la fonte o l'autore dell'insieme di dati descritto oppure le modalità d'accesso, con le eventuali limitazioni.grecolatinoinformazione biblioteca

Piccolo glossario (da Wikipedia) OLAP : acronimo che sta per l'espressione On-Line Analytical Processing, designa un insieme di tecniche software per l'analisi interattiva e veloce di grandi quantità di dati, che è possibile esaminare in modalità piuttosto complesse. Questa è la componente tecnologica base del data warehouse e, ad esempio, serve alle aziende per analizzare i risultati delle vendite, l'andamento dei costi di acquisto merci, al marketing per misurare il successo di una campagna pubblicitaria, ad una università i dati di un sondaggio ed altri casi simili. Gli strumenti OLAP si differenziano dagli OLTP per il fatto che i primi hanno come obiettivo la performance nella ricerca e il raggiungimento di un'ampiezza di interrogazione quanto più grande possibile; i secondi, invece, hanno come obiettivo la garanzia di integrità e sicurezza delle transazioni.acronimodata warehouse Pattern recognition è una delle aree del machine learning. L’obiettivo è quello di classificare i dati sulla base o di conoscenze a priori o su informazioni estratte dai dati Gli oggetti da classificare sono di regola rappresentati da punti in un appropriato spazio multidimensionale.machine learning