La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Data Mining e Open Data Duccio Schiavon Bari, 16 novembre 2013.

Presentazioni simili


Presentazione sul tema: "Data Mining e Open Data Duccio Schiavon Bari, 16 novembre 2013."— Transcript della presentazione:

1 Data Mining e Open Data Duccio Schiavon Bari, 16 novembre 2013

2 Cosè il Data Mining

3 Enunciazioni autorevoli Were drawning in information and starving for knowledge John Naisbitt studioso e futurologo di fama internazionale, ha collaborato con le amministrazioni Kennedy e Johnson, ha insegnato presso le Università di Mosca e Harvard.

4 Enunciazioni autorevoli Data Mining is the art and science of finding interesting and useful patterns in data Gregory Piatetsky-Shapiro massimo esperto di Data Mining, fondatore di KDD (Knowledge Discovery Conferences), cofondatore di ACM SIGKDD, (professional association on Knowledge Discovery and Data Mining), e amministratore di KDnuggets.com

5 Definizione Data Mining rappresenta lattività di elaborazione in forma grafica o numerica di grandi raccolte o di flussi continui di dati con lo scopo di estrarre informazioni utili a chi detiene i dati stessi Adelchi Azzalini professore di Statistica presso il Dipartimento di Statistica dellUniversità degli Studi di Padova e autore di Analisi dei dati e data mining.

6 Sfide minerarie nella moderna società dellinformazione Gli ultimi anni hanno visto una proliferazione delle sorgenti di dati ad alta capacità di archiviazione Alcuni esempi: Supermercati: market basket analysis basata sugli scontrini emessi e geo-localizzazione attraverso le carte fedeltà Compagnie telefoniche: raccolta dei dati di utilizzo, studio di offerte progettate sulla base dei consumi, individuazione dei clienti target Ricerca scientifica: nella microbiologia, lanalisi delle sequenze di porzioni di DNA porta alla costruzione di gigantesche tabelle, dette DNA microarray Rilevazioni di natura fisica e chimica: analisi dellevoluzione del clima terrestre e di altri fenomeni naturali

7 Sfide minerarie nella moderna società dellinformazione Il Web: enorme deposito di informazioni, contenute in tanti documenti di forma differente. La ricchezza e la varietà dei contenuti contraddistinguono questo ambito dai precedenti. Quando vi è la possibilità di accedere ad informazioni strutturate (o strutturabili) le possibilità di studio divengono innumerevoli così come le relazioni osservabili

8 Il Web: la sfida più impegnativa Purtroppo, i maggiori vantaggi offerti dal Web rappresentano spesso anche i peggiori svantaggi: - la quantità di dati è continuamente aggiornata per cui è anche difficilmente numerabile - la gran parte dei dati è organizzata in forma non-strutturata - allinterno del singolo documento, gli elementi oggetto di ricerca non sempre forniscono una pertinenza precisa sulla loro collocazione e sulla relazione con gli altri elementi in esso contenuti

9 Problemi minerari e particolare approccio analitico Maledizione della dimensionalità: il problema principale del DM è rappresentato da un possibile rischio: ovvero sia che una tale abbondanza di dati non consenta in realtà lestrazione dellinformazione utile Informazione utile: espressione volutamente generica in quanto nel DM non è quasi mai specificato a priori quale sia loggetto di interesse, che spesso si cerca dindividuare proprio scavando tra i dati Il DM è una disciplina recente, collocata al punto dintersezione di varie aree scientifiche, e specialmente la statistica, lintelligenza artificiale (machine learning, pattern recognition, ecc.) e la gestione dei database A. Azzalini

10 Ritrosia degli statistici verso il DM 1) In molti casi i dati sono raccolti per motivi diversi da quello della loro analisi statistica. Ad esempio, in molte imprese, la raccolta avviene per fini puramente contabili. I dati in questi casi non rispondono a nessun piano di campionamento o piano sperimentale 2) Dato che lobiettivo spesso non è dichiarato a priori, la situazione classica è che andando alla ricerca di qualcosa si finisca col trovare comunque qualcosa… anche se questo qualcosa in realtà non esiste. If you torture the data long enough, Nature will always confess Ronald H. Coase, premio Nobel 1991 per leconomia

11 Cosa distingue il data mining dalla statistica La statistica viene tradizionalmente considerata unanalisi primaria (sperimentale) dei dati raccolti per verificare ipotesi specifiche. La statistica viene quindi classificata come unanalisi (confermativa) condotta dallalto, una verifica o valutazione dipotesi Il data mining è considerato generalmente come un tipo di analisi secondaria (osservazionale) dei dati raccolti per altre ragioni. Il DM viene quindi classificato come analisi (esplorativa) condotta dal basso, un processo di generazione dipotesi e di conoscenze (knowledge discovery).

12 Il modello All Models Are Wrong But Some Are Useful George E.P. Bpx pioniere del controllo di qualità dei processi, nella analisi delle serie storiche, disegno degli esperimenti e inferenza bayesiana Il DM è un processo complesso didentificazione nei dati di tendenze, strutture, modelli o trend validi, potenzialmente utili ed infine comprensibili che consentano allutente di prendere decisioni cruciali. - complesso: non si tratta del calcolo diretto di quantità predefinite come la media di un insieme di numeri - validi: i modelli devono funzionare, ovvero sia devono fornire buoni risultati se applicati su dati nuovi - potenzialmente utili: i modelli devono essere di qualche utilità per lutente - comprensibili: i risultati devono essere interpretabili e comprensibili

13 Gli obiettivi del data mining

14 Data MiningPredittivoClassificazione RegressioneSerie Storiche Descrittivo Analisi dei Gruppi (Clustering) Riepiloghi Regole Associative Analisi Sequenziale Principali funzioni

15 Classificazione predittiva Costruzione del modello: descrizione di un insieme pre-determinato di classi –Ogni unità appartiene ad una classe predefinita, identificata da una precisa etichetta di classe –Linsieme di unità utilizzato per la costruzione del modello è chiamato insieme di addestramento –Il modello può essere rappresentato da regole di classificazione, alberi decisionali, formule matematiche, ecc. Utilizzo del modello: per la classificazione di oggetti futuri o non noti –Accuratezza della stima del modello Il modello viene testato attraverso un insieme di test di cui sono note le etichette di output Il tasso di accuratezza è la percentuale di unità dellinsieme di test correttamente classificate dal modello Linsieme di test deve essere indipendente dallinsieme di addestramento –Se laccuratezza è accettabile, si utilizza il modello per classificare i dati di cui non sono note le etichette

16 Costruzione del modello Dati di addestramento Algoritmi di Classificazione IF posizione = professore OR anni > 6 THEN di ruolo = si Modello

17 Accuratezza della stima Utilizzo dellinsieme di test per costruirci la seguente MATRICE DI CONFUSIONE: i dati sulla var. DI RUOLO sono noti, ma noi applichiamo il modello facendo previsioni su di essi censurandoli abc d DI RUOLO Previsti DI RUOLO Osservati SI NO Tasso di Accuratezza: Numero di unità classificate correttamente su numero totale di unità (a+d)/(a+b+c+d)

18 Applicazione del modello Modello Dati di test Data Sconosciuti (Guido, Professore, 4) Di Ruolo? SI

19 Tecniche di classificazione predittiva Regressione lineare Analisi discriminante Metodi non parametrici Alberi di classificazione Reti neurali Combinazioni di classificatori (bagging, boosting, voting)

20 Regressione predittiva La previsione tramite regressione consiste in –Costruire un modello secondo una procedura molto simile a quella della classificazione predittiva –usare il modello per prevedere valori continui o ordinali per un dato input La regressione predittiva è differente dalla classificazione predittiva –La classificazione consente di prevedere etichette di classe categoriali –La regressione consente di modellare funzioni di base numerico-continua Principale metodo predittivo: Regressione –modella la relazione tra una o più variabili indipendenti o predittori ed una variabile dipendente o di risposta Analisi di regressione –Regressione lineare e multipla –Regressione non-lineare –Altri metodi di regressione: modelli lineari generalizzati, regressione di Poisson, modelli log-lineari

21 Misure di accuratezza della previsione Misura di accuratezza predittiva: misura quanto il valore previsto si scosta dal valore noto Funzione di perdita: misura lerrore esistente tra il valore osservato y i e lerrore previsto y i (valori residui) –Errore assoluto: | y i – y i | –Errore quadratico: (y i – y i ) 2 Errore di test (errore di generalizzazione): perdita media sullinsieme di test –Err. assoluto medio: Err. quadratico medio: –Err. ass. relativo: Err. quad. relativo: I più popolari indicatori di accuratezza sono la radice dellerrore quadratico medio (RMSE) così come la radice dellerrore quadratico relativo

22 Complessità vs. Bontà di adattamento x y Dati di addestramento

23 Complessità vs. Bontà di adattamento x y x y Troppo semplice? Dati di addestramento

24 Complessità vs. Bontà di adattamento x y x y x y Troppo semplice? Troppo complesso? Dati di addestramento

25 Complessità vs. Bontà di adattamento x y x y x y x y Troppo semplice? Troppo complesso?Ci siamo? Dati di addestramento

26 Complessità e Generalizzazione Errore di Addestramento Errore di Test Complessità = gradi di libertà del modello (ad es. numero di variabili) Funzione di perdita Ad es., errore quadratico Complessità Ottimale del modello

27 Altre tecniche di regressione predittiva (o meglio: di previsione di una variabile quantitativa) Spline Modelli addittivi e GAM Alberi di regressione Reti neurali

28 Lintero processo del data mining

29 Definizione del problema Rispondi alle seguenti domande: Cosa stai cercando? Quali tipi di relazioni intendi trovare? La soluzione che stai cercando è in linea con i tuoi reali obiettivi? Desideri costruire un modello per scopi previsionali oppure sei interessato ad indagare andamenti e associazioni? Quali attributi desideri prevedere? Quale tipo di relazione esiste tra le colonne del tuo dataset? Se disponi di diverse tabelle, queste come sono relazionate? In che forma sono disponibili i dati? I dati sono stagionali? Fase comune ai comuni processi di modellazione

30 Preparazione dei dati Definizione del problema La pulitura dei dati non è solo rimozione dei dati mal-codificati, ma anche trovare correlazioni nascoste nei dati, identificare sorgenti di dati che siano sufficientemente accurate, e determinare quali colonne sono le più appropriate per lanalisi. Per esempio, desideri conservare la data di ordine o, in alternativa, la data di spedizione? Dati incompleti, dati errati ed input possono sembrare separati tra loro ma nei fatti possono influenzare i risultati del modello in modo inatteso. Quindi, prima diniziare occorre identificare i problemi e correggerli Preparazione dei dati Fase comune ai comuni processi di modellazione

31 Esplorazione dei dati Definizione del problema Le tecniche di esplorazione includono il calcolo dei valori massimi e minimi, della media e delle deviazioni standard, così come losservazione della distribuzione dei dati. Dallosservazione dei massimi, dei minimi e delle medie potreste ad esempio verificare che i dati non sono rappresentativi dei processi caratteristici della vs. attività di business. A questo punto sarà necessario ottenere dati più bilanciati o rivedere gli assunti alla base della vs. analisi. Valori elevati di deviazione standard possono indicare la necessità di aggiungere altri dati al fine di migliorare il modello, ecc. Preparazione dei dati Esplorazione dei dati Fase comune ai comuni processi di modellazione

32 Costruzione del modello Definizione del problema Prima dellelaborazione del modello, un modello di data mining è soltanto un contenitore in cui sono riconoscibili le colonne da utilizzare come input e lattributo che si desidera prevedere. Lelaborazione di un modello è chiamato – come visto – addestramento. Laddestramento consiste nel processo di applicazione ai dati di uno specifico algoritmo matematico al fine di estrarne tendenze. Le tendenze trovate nel processo di addestramento dipendono dalla selezione dei dati di addestramento, dallalgoritmo scelto, e dal modo in cui lalgoritmo è stato configurato. Preparazione dei dati Esplorazione dei dati Costruzione del modello Fase tipica del data mining

33 Validazione del modello Definizione del problema Prima di eseguire il deployment di un modello sarà necessario testare la sua bontà. Inoltre, in fase di costruzione generalmente si costruiscono più modelli basati su tecniche differenti: quindi si vorrà verificare anche quali tra questi si adatta meglio ai dati. Per fare ciò si ricorrerà ad un insieme di dati di test (o di verifica) per osservare quale tra i modelli (competitivi) prodotti funzioni meglio Preparazione dei dati Esplorazione dei dati Costruzione del modello Fase tipica del data mining Validazione del modello

34 Deployment del modello Definizione del problema Una volta ottenuto il modello, sono diverse le cose che si possono fare a seconda delle necessità: 1)Usare il modello per creare previsioni 2)Interrogare i dati per estrarne statistiche o formule 3)Integrare le funzionalità del modello direttamente in una qualsiasi applicazione (file PMML; Predictive Model Markup Language) 4)Aggiornare il modello dinamicamente mano a mano che arrivano dati nuovi, e applicare modifiche costanti per migliorare lefficacia della soluzione. Preparazione dei dati Esplorazione dei dati Costruzione del modello Fase tipica del data mining Validazione del modello Deployment del modello

35 Il data mining e il Web

36 Il caso Netflix Prize Netflix è una società degli Stati Uniti, nata nel 1997, che offre un servizio di noleggio di DVD e videogiochi via Internet. La spedizione dei dischi è effettuata tramite il servizio postale, che viene utilizzato dai clienti anche per la restituzione. Dal 2008 Netflix offre anche un servizio di streaming online ai propri clienti, accessibile tramite un apposito abbonamento. Secondo Compete.com, netflix.com è stato mediamente visitato almeno da 194 millioni di visitatori allanno dal Cinque volte il numero di visitatori di blockbuster.com. NellAprile 2011, Netflix ha annunciato di aver raggiunto la quota di 26 milioni e 600 mila sottoscrittori. Dallottobre del 2012 è presente sul mercato europeo, in Irlanda ed in Scandinavia.

37 Il caso Netflix Prize

38 Il caso Netflix Prize Il Netflix Prize è una competizione aperta per il migliore algoritmo collaborativo di previsione dei giudizi espressi (voti) dagli utenti nei confronti dei film visti. Lalgoritmo si basa sui giudizi passati e deve fornire la base per un sistema di raccomandazione.algoritmo collaborativo Netflix ha reso pubblico ai partecipanti un insieme di addestramento composto da giudizi forniti da utenti su titoli. Ogni record del dataset era composto da 4 variabili (utente, film, data di giudizio, giudizio). I campi utente e film sono stati popolati da ID interi, mentre i giudizi erano espressi in una scala da 1 a 5 stelle.4 variabili IDinteri Linsieme di dati di qualificazione conteneva record di tre variabili (utente, film, data di giudizio), con giudizi noti solo alla giuria. I team di partecipanti dovevano eseguire le previsioni sullintero set di qualificazione, ma dovevano essere informati solo del punteggio ottenuto su meta di esso (insieme di quiz; giudizi). Laltra metà avrebbe costituito linsieme di test ( ), e la prestazione offerta su di esso avrebbe costituito il reale giudizio da parte della giuria. A solo i membri della giuria era noto sia il risultato sullinsieme di quiz che sullinsieme di test.

39 Il caso Netflix Prize Laccuratezza delle previsioni fornite era espresso in termini di Radice dellErrore Quadratico Medio (RMSE) e lobiettivo era ovviamente ridurre per quanto possibile il valore di tale errore.Radice dellErrore Quadratico Medio Il concorso aveva lobiettivo di migliorare la capacità di raccomandazione di quello che fino ad allora era stato lalgoritmo in uso in Netflix, e che si chiamava Cinematch. Un algoritmo elementare di previsione – se applicato allinsieme di quiz – produce in media un RMSE pari a 1,054. Cinematch si basava su semplici algoritmi a modelli lineari con un alto numero di vincoli sui dati.modelli lineari Dopo la costruzione del modello sui dati di addestramento, Cinematch produceva un RMSE pari a 0,9514 sui dati di quiz, con un miglioramento di oltre il 10% rispetto ad un qualsiasi algoritmo elementare. Cinematch aveva una performance simile sullinsieme di test (RMSE=0,9525). Per vincere il premio di 1 milione di dollari messo in palio, i team partecipanti dovevano migliorare almeno di un 10% la performance sullinsieme di test (per arrivare a RMSE=0,8572). Sullinsieme si quiz tale miglioramento corrisponde a RMSE=0,8563.

40 Il caso Netflix Prize Il concorso fu indetto nellottobre del 2006, e per molto tempo il premio non fu vinto da nessuno. Fu messo in palio un premio minore (di dollari) a chiunque ogni anno avesse raggiunto il risultato migliore. Tuttavia per vincere questo premio, un algoritmo doveva migliorare di almeno l1% la prestazione rispetto a quella del vincitore dellanno prima. Per vincere i partecipanti dovevano fornire alla giuria il codice sorgente ed una descrizione dellalgoritmo con una sua descrizione. Dopo la verifica il vincitore avrebbe dovuto rilascare una licenza NON-ESCLUSIVA a Netflix. Netflix avrebbe pubblicato solo la descrizione, e non il codice sorgente. Un team poteva, se preferiva, non reclamare il premio se desiderava mantenere segreto il codice. A giugno 2007 si erano iscritti team provenienti da 150 paesi team hanno inviato insiemi di previsioni.

41 Il caso Netflix Prize

42 Il caso Netflix Prize

43 Il caso Netflix Prize

44 Il caso Netflix Prize

45 Il caso Netflix Prize

46 Il caso Netflix Prize

47 Netflix Prize leaderboard Il 18 settembre 2009, Netflix ha annunciato il vincitore del premio: il team chiamato "BellKor's Pragmatic Chaos ha vinto 1 milione di dollari per avere raggiunto un RMSE Test pari a 0,8567. Il team The Ensemble ha ottenuto il medesimo risultato ma avendo loro presentato i dati 20 minuti più tardi, a loro è spettata solo la seconda posizione.

48 Altri casi di algoritmi collaborativi Heritage Health Prize e.com/c/hhp

49 Lista delle competizioni algoritmiche TUNEDIT

50 Come Facebook utilizza il data mining Le prime considerazioni in merito rilasciate da un analista-sviluppatore di Fb risalgono al 2009, quando al Predictive Analytics World nello spazio riservato al Bay Area R Users Group, Itamar Rosenn ha illustrato quali tecniche di analisi predittiva erano in uso allinterno di Fb nel 2007Predictive Analytics World Bay Area R Users Group Nel 2007 i due principali obiettivi analitici di Fb erano: (i) stabilire quali fossero le principali ragioni allorigine dellabbandono di Fb da parte degli utenti (Disattivazione account) (ii) prevedere quali fossero i motivi per cui un utente appena iscritto rimaneva in Fb per almeno 3 mesi

51 Come Facebook utilizza il data mining Per il primo obiettivo Fb ha utilizzato tecniche di partizionamento ricorsivo (pacchetto rpart di R) al fine di stabilire se due precise variabili potevano essere significativamente predittive della possibilità che un utente rimanesse su Fb:rpart (i)lavere compiuto più di una procedura discrizione a Fb (ii)lavere inserito le informazioni di base del profilo Per il secondo obiettivo, è stato adattato ai dati un particolare modello logistico secondo lapproccio della least angle regression (pacchetto lars di R), trovando che lattività dei tre mesi successivi alliscrizione era spiegata da tre variabili associate alle seguenti classi di comportamento: (i) numero di volte che un utente è stato raggiunto da altri utenti, (ii) frequenza nellutilizzo di applicazioni esterne, e (iii) il grado di apertura dellutente nei confronti del sito (recettività).lars

52 Come Facebook utilizza il data mining Nel maggio 2011, in occasione di un convegno presso il Laboratorio dIntelligenza Artificiale del Jožef Stefan Institute, Lars Backstrom (Responsabile dei sistemi di analisi dei dati e di machine learning presso Fb) fornisce alcune utili indicazioni sui metodi di analisi attualmente adottati La natura dei dati in Fb Dati strutturati - Gli oggetti generalmente possono essere collegabili tra loro - La funzione di amicizia consente di collegare due persone - La funzione di tag associa una foto ad una persona - Il collegamento ad una pagina consente di associare una pagina ad una persona - Tutti questi oggetti possono essere facilmente riassunti visivamente e analiticamente Dati destrutturati - Principalmente contenuti testuali e visivi (immagini, foto) - Difficoltà di analisi (Dealing with structured and unstructured data at Facebook)

53 Come Facebook utilizza il data mining Obiettivi analitici di Fb nellimmediato -Disporre di una maggiore quantità di dati strutturati di migliore qualità per scopi di data mining Obiettivi analitici futuri di Fb -Trovare modi più efficaci di analizzare i dati destrutturati con lobiettivo di migliorare i punteggi ed approntare nuovi servizi

54 Fb: come analizzare i dati destrutturati Utilizzo di tecniche automatizzate per lestrazione dinteressanti diagrammi Esempio di monitoraggio degli eventi principali: Frequenza della parola Influenza pubblicata in bacheca Esempio di monitoraggio degli eventi principali con associazione: Frequenza di parole pubblicate per nazione di provenienza (registrate nelle 2 ore successiva al terremoto in Giappone)

55 Fb: dati strutturati + dati destrutturati Vodka Map Percentuale di maschi Età

56 Fb: un problema di classificazione Molti utenti si trovano a disporre di troppi contenuti provenienti dagli amici. Un problema mostrarli tutti FB deve quindi riuscire a filtrare e classificare tali contenuti in modo da generare i Newsfeed. La sfida quindi si riduce a prevedere quanto possano essere interessanti i contenuti sulla base del tipo di relazione che lutente ha verso un amico, un luogo, un dettaglio, unattività, ecc.tipo di relazione Il modello che Fb costruisce è quindi relativo ad un problema di classificazione il cui obiettivo è prevedere i clic, i Mi piace, i commenti, ecc. Feedback Vs. Distanza

57 Fb: come suggerire gli amici La maggior parte delle amicizie si crea secondo la logica dell amico dellamico (FOF: friends of friends) - I dati sui maggiori social network dimostrano come le amicizie create secondo FOF (a 2 salti) siano 5 volte maggiori rispetto alle amicizie a più di 3 salti (gradi di conoscenza) Da un punto di vista pratico prevedere i suggerimenti di amicizia a più di 2 salti è praticamente impossibile: Ogni utente ha in media 130 amici quindi: -130x130= FOF -130x130x130= FOFOF -ecc.

58 Fb: come suggerire gli amici Problema: Dato un utente sorgente trovare i FOF migliori da suggerire Sfida: un utente tipico in genere presenta decine di migliaia di amici di amici (FOF): come abbiamo visto, mediamente circa. Soluzione: certamente osservare le amicizie in comune degli amici è un buon punto di partenza Altre caratteristiche del social network potrebbero essere daiuto (ad es., se il tuo migliore amico ha da poco stretto amicizia con una persona è probabile che questa persona divenga anche tua amica)

59 Fb: come suggerire gli amici Il modello: Il sistema esamina tutti i FOF e genera una lista di 100 candidati Il modello prevede la costruzione di una previsione in tempo reale basata: previsione in tempo reale 1)sulla costruzione di punteggi prodotti da un algoritmo ad alberi decisionali 2)sulla pubblicazione della lista che servirà a ri- classificare i FOF in tempo reale e sulla base delle visite alle singole pagine eseguite dallutente sorgente CTR: Click-through Rate

60 Fb: come suggerire gli amici Predittori: - Le amicizie comuni pesate - Caratteristiche demografiche (età, nazionalità, tempo trascorso in Fb, sesso, numero di amici, ecc.) I più importanti: - Tempo di amicizia stretta dagli amici più vicini - Nazionalità e tempo trascorso in Fb dellutente sorgente - Numero di amici Modello introdotto a marzo 2011 Risultati: -Numero ridotto di guasti (singhiozzi) -Aumento medio delle nuove amicizie del 60% -Il sistema di analisi del CTR ha ridotto di 1/3 i ricaricamenti della pagina prima della creazione dellamicizia

61 Google Prediction Api Google ha creato un set di API (Application programming interface)API che permettono di accedere ed utilizzare i suoi algoritmi di machine learning. E' nato così Google Prediction API. Attraverso queste API si ha accesso a capacità di analisi predittiva, attraverso le quale è quindi possibile creare applicazioni intelligenti come, ad esempio:machine learningGoogle Prediction API -Identificare lo SPAM -Classificare autonomamente messaggi di posta -Proporre film sulla base dei gusti dell'utente -Giudicare quali post su un blog hanno carattere positivo o negativo -Identificare la lingua scritta o parlata -Riconoscere in quali zone della casa si concentra maggiormente lo sporco Le API sono accessibili tramite interfaccia RESTful (Representational State Transfer)RESTful Lutente deve (1) ricostruire il problema in un formato che le API possano gestire; (2) preparare un insieme di addestramento per far apprendere al programma in modo appropriato il problema.insieme di addestramento

62 Google Prediction Api Google fornisce anche diverse librerie e script per poter accedere alle API attraverso diversi linguaggi come.NET, Java, PHP, Ruby e Python. E' interessante notare come esista una libreria specifica per R.librerie e scriptR Per accedere a Google Prediction API è necessario innanzitutto disporre di un account Google e secondariamente attivare sia Google Prediction API che Google Storage nella console delle API.Google Storage

63 Google Prediction Api Esempio di utilizzo di Google Prediction Api per scopi di modellazione e previsione attraverso R:R

64 Ford e Google Prediction API: per unauto ecologica di nuova generazione

65 Ford e Google Prediction API: per unauto ecologica di nuova generazione A maggio 2011, in occasione della Google I/O developer conference 2011, i ricercatori della Ford hanno presentato il loro progetto di utilizzo di Google Prediction API per il miglioramento delle prestazioni di un prototipo di veicolo elettrico ibrido. Il sistema prevederebbe:veicolo elettrico ibrido 1) un servizio criptato di utilizzo dei dati forma un profilo dellautomobilista costruito sulla base dei percorsi e dei tempi di viaggio. In sostanza, il sistema apprende le principali informazioni sia del conducente che del veicolo stesso. 2) durante la corsa del veicolo, Google utilizzerà Prediction per valutare il comportamento di guida, raccogliere i dati sui tempi di percorrenza fino alla destinazione ed indicare come ottimizzare le prestazioni di guida. 3) il computer di bordo, dialoga con il conducente. In base alle risposte, indicherà allutente come migliorare lo stile di guida, indicherà il percorso migliore e tenterà di sfruttare quanto più possibile la carica elettrica, in modo da risparmiare benzina.

66 I software

67 R: riferimenti su tecniche di Data Mining e web scraping e web crawling Dataset e codice DM/programmi.html Librerie di R RCurl – XML – scrapeR - SSOAP

68 Altri Software - Gratuiti Rattle (Interfaccia utente per il data mining con R) KNIME (offre anche unintegrazione con R)

69 Altri Software - Gratuiti RapidMiner (Interfaccia utente per il data mining con R) Orange ADaMSoft (italianissimo)

70 Provate ZunZun! Abbiamo caricato su zunzun.com i dati che vedete sopra, gli abbiamo detto di costruire unequazione 2D y = f(x) e gli abbiamo dato lok. Ebbene, dopo che ZZ ha adattato una serie di modelli calcolando per ognuno la somma quadratica degli errori assoluti come indice di bontà dadattamento (nota: è possibile scegliere tra diverse misure derrore così come selezionare le famiglie di modelli da adattare!) questo è stato il risultato:zunzun.com Come primo modello è stato adattato un modello Hockey-Sherby secondo la seguente equazione: y = b - (b-a) * exp(-c * (x^d)) con un indice di bontà dadattamento pari a 40,545 Come secondo modello è stato adattato un modello Weibull secondo la seguente equazione: y = a - b*exp(-cx^d) con indice di bontà dadattamento pari a 40,545

71 …per aggiornamenti futuri groups Gruppi Data mining R OpenData Strumenti per Modellazione Tutorials Grafici e visualizzazioni

72 Laboratorio con Rattle Sito web: Per installazione: allation_Details.html Attenzione: assicurarsi di eseguire il seguente comando in R: install.packages(c("ada", "amap", "arules", "bitops, "cairoDevice", "cba", "combinat", "doBy", "ellipse", "fEcofin", "fCalendar", "fBasics", "fpc, "gdata", "gtools", "gplots", "Hmisc", "kernlab", "mice", "network", "pmml", "randomForest", "reshape, "rggobi", "ROCR", "RODBC", "rpart", "RSvgDevice", XML")) Tutorial: e08.pdf

73 fine


Scaricare ppt "Data Mining e Open Data Duccio Schiavon Bari, 16 novembre 2013."

Presentazioni simili


Annunci Google