Elementi di statistica con R e i database Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 19 Aprile 2012 Lezione 4.

Slides:



Advertisements
Presentazioni simili
MICROSOFT EXCEL 97.
Advertisements

Modulo 5 DataBase ACCESS.
ESERCITAZIONE R 12,19 marzo 2012 Mario Mastrangelo
MODULO 4 – Il Foglio elettronico
MODULO 3 – ELABORAZIONE TESTI
Modulo 1 – Ambiente di lavoro Windows 7
DBMS (DataBase Management System)
Biglietti e Ritardi: schema E/R
DATAWAREHOUSE - Microstrategy
Archivio Necessità di immagazzinare in modo permanente grandi quantità di dati. Esempio: anagrafe dei cittadini di un comune.
Archivio Cé necessità di immagazzinare in modo permanente grandi quantità di dati. Esempio: anagrafe dei cittadini di un comune.
Esercitazione 5 MySQL Laboratorio di Progettazione Web AA 2009/2010 Chiara Renso ISTI- CNR -
Basi di dati Università Degli Studi Parthenope di Napoli
Appunti informatica- prof. Orlando De Pietro
Corso di Laurea in Ingegneria per lAmbiente e il Territorio Informatica per lAmbiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.
Attività sportiva scolastica e Giochi Sportivi Studenteschi 2012/13
Viste. Cosè una vista? è possibile creare un subset logico di dati o una combinazione di dati una vista è una tabella logica basata su una tabella o su.
DBMS ( Database Management System)
Basi di dati Claudia Raibulet
Esercitazione no. 5 EXCEL Laboratorio di Informatica AA 2008/2009.
Creiamo una cartella nel nostro hard disk dove andremo ad inserire le risorse che costituiranno i contenuti del sito. Apriamo il programma Dopo aver cliccato.
Manipolazione dei dati
C APITOLO 6 © 2012 Giorgio Porcu – Aggiornamennto 22/02/2012 G ESTIRE D ATI E C ARTELLE DI LAVORO Excel Avanzato.
Ll Questionario Introduzione al software SAS (Parte 2) Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°2.
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
2. Formattare il floppy disk Attualmente, tutti i floppy in commercio sono già formattati, ma può capitare di dover eseguire questa operazione sia su.
Backup sito Joomla Occorre fare il backup dei files e quello del database. Entrare in CPanel.
Lavagna interattiva Smart Board Installazione Presentazione
EXCEL E FTP.
SY-MAP tools Guida allutilizzo. SY-MAP tools I SY-MAP tools permettono di collegare informazioni memorizzate su un database e elementi grafici dei file.dgn.
Realizzato da Roberto Savino
Elenchi in Excel E’ possibile inserire le voci del nuovo elenco oppure
13 Excel prima lezione.
Foglio elettronico Excel Livello avanzato
Riepilogo Foglio elettronico Excel - Base Premessa al Modulo AM4.
Internet Explorer I preferiti Stampa di pagine web Salvataggio di pagine web Copia di elementi di pagine web in altri applicativi.
BIOINFO3 - Lezione 41 ALTRO ESEMPIO ANCORA Progettare il comando di creazione di una tabella di pubblicazioni scientifiche. Come chiave usare un numero.
CORSI DI FORMAZIONE - Basi di Dati: MySql - Parte 4 - Dicembre Utenti e privilegi del database - 1 Root è lutente amministratore predefinito, ma.
Macro 1 Una macro è un elenco denominato di istruzioni. Ciascuna istruzione viene chiamata ‘azione’. Le azioni vengono eseguite in modo sequenziale e,
DATABASE Introduzione
Programma di Informatica Classi Seconde
Informatica Parte applicativa Basi di dati - report Psicologia dello sviluppo e dell'educazione (laurea magistrale) Anno accademico:
Microsoft Access Chiavi, struttura delle tabelle.
Microsoft Access (parte 5) Introduzione alle basi di dati Scienze e tecniche psicologiche dello sviluppo e dell'educazione, laurea magistrale Anno accademico:
Progettare corsi con Moodle
Microsoft Access Query (II), filtri.
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
IV D Mercurio DB Lezione 1
1 Università della Tuscia - Facoltà di Scienze Politiche.Informatica 2 - a.a Prof. Francesco Donini Accesso a basi di dati con ASP.
Modulo 5 DataBase ACCESS. Informazioni e Dati INFORMAZIONI vengono scambiate con linguaggio scritto o parlato DATI rappresentazione di informazioni in.
1 Macro 1 Una macro è un elenco denominato di istruzioni. Ciascuna istruzione viene chiamata ‘azione’. Le azioni vengono eseguite in modo sequenziale e,
Corso Serale 3 Windows e Office Automation 19 settembre – 19 dicembre 2005.
Microsoft Access Maschere (II).
Prof. Giuseppe Boncoddo
Microsoft Access Query (III).
MySQL Database Management System
Database Elaborato da: Claudio Ciavarella & Marco Salvati.
Esercitazione no. 4 EXCEL II Laboratorio di Informatica AA 2009/2010.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Approfondimenti SQL.
Microsoft Access Filtri, query. Filtri Un filtro è una funzione che provoca la visualizzazione dei soli record contenenti dati che rispondono a un certo.
0 Laboratorio Informatica - SAS – Anno Accademico LIUC Alcune indicazioni Dettaglio lezioni: Prima : Michele Gnecchi – Introduzione a SAS Guide.
Elementi di statistica con R e i database Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 10 Aprile 2012.
Elementi di statistica con R e i database Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 17 Aprile 2012 Lezione 3.
Planet HT – Genova - Elisa Delvai
Elementi di statistica con R e i database LEZIONE 2 Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 12 Aprile 2012.
I DONEITÀ DI C ONOSCENZE E C OMPETENZE I NFORMATICHE ( A – D ) Un database è un insieme di record (registrazioni) e di file (archivi) organizzati per uno.
La funzione CASUALE. Gli istogrammi.
Transcript della presentazione:

Elementi di statistica con R e i database Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 19 Aprile 2012 Lezione 4

Il flusso dei dati Produzione dati (misurazione, campionamento, etc.)‏ Archiviazione dati grezzi Validazione dei dati Elaborazione Archiviazione dati elaboratiReportistica

Perché usare i database Archivio centralizzato = Minore rischio di perdita dei dati Maggiore disponibilità Nuove possibilità di elaborazione Condivisione dei dati a livello di gruppo Possibilità di creare applicazioni ad hoc per il flusso dei dati Interoperabilità

Vantaggi di R Utilizzo di strumenti e librerie di calcolo più evolute Distinzione dei ruoli e delle fasi di elaborazione Possibilità di utilizzare un determinato programma indefinite volte Possibilità di sviluppo del programma in team

Vantaggi con R e Database Automatizzazione dei processi Possibilità di stabilire delle regole di accesso, di rappresentazione e di utilizzo dei dati Riusabilità dei lavori pregressi Interoperabilità in progetti in cui partecipano altri soggetti

Menù del giorno Usare R per importare dati in formato CSV su Database, condito con esempi Un esempio di validazione dei dati Selezionare i dati da importare Generazione automatica di una relazione partendo da dati archiviati su database Nota: gli esempi sono disponibili sul sito → Organizzazione → Sedi UOS → Ancona → Formazionewww.ismar.cnr.it

Importare i dati su db Esempio della scuola – Registro scolastico che abbraccia più studenti, con voti su distinte materie nell'arco di più anni – I dati sono in origine presenti su un foglio excel, poi salvato in formato csv (voti_scuola.csv)‏ – I dati saranno importati su db, in seguito faremo ulteriori elaborazioni

Fasi Operative Predisporre una connessione ODBC → Lezione 2 Installare il pacchetto RODBC install.packages() → cerco Rodbc Caricare la libreria RODBC in R library(RODBC)‏ A questo punto siamo pronti per iniziare

csv2db (da csv a db)‏ 1) Leggo il csv e lo carico su un data.frame 2) Avvio la libreria RODBC 3) Apro la connessione con il db 4) Salvo il data.frame su DB 5) Chiudo la connessione con il db (importante)‏ t<-read.table("voti_scuola.csv",header=T,sep=";",dec=".")‏ library(RODBC)‏ db<-odbcConnect("source1",case="postgresql")‏ sqlSave(db, t, tablename="registro_scuola")‏ close(db)‏

Un esempio di validazione Il modello di riferimento prevede che: I dati sono già disponibili in una tabella del db I dati vengono elaborati con R I dati validati vengono memorizzati su una nuova tabella del db Nel nostro esempio: Abbiamo una tabella con due colonne: x e deviazione standard di x Fissata una soglia per la deviazione standard, andremo a filtrare i dati e a memorizzare i risultati su una nuova tabella

L'esempio L'esempio viene generato usando direttamente R, usando la funzione rnorm() → vedi help(rnorm)‏ library(RODBC)‏ x<-rnorm(500,5,4)‏ dati<-data.frame(x=x)‏ dati$distMean=abs(abs(x)-mean(x))‏ db<-odbcConnect(“source1”,case=”postgresql”)‏ sqlSave(db,dati,tablename=”da_validare”)‏ close(db)‏

Con phppgadmin verifichiamo l'avvenuto caricamento dei dati ( Per leggere i dati dal database e memorizzarli su un data.frame: db<-odbcConnect(“source1”,case=”postgresql”)‏ dati_letti<-sqlFetch(db,”da_validare”)‏ close(db)‏

I passi per il filtraggio: I nostri dati sono caricati sul dataframe dati_letti Al momento, con i dati a disposizione, la deviazione standard è circa 4. La colonna “distMean” contiene la distanza assoluta dell'elemento x i dalla media Fissiamo un valore massimo di questa distanza soglia Creiamo un nuovo data.frame con i dati che superano il filtro Salviamo il data.frame su una nuova tabella nel database (dati_Validati)‏

Il listato completo library(ODBC)‏ db<-odbcConnect(“source1”,case=”postgresql”)‏ # leggo i dati: dati_letti<-sqlFetch(db,”da_validare”)‏ # filtraggio: distanza_max<-3 soglia<-mean(dati_letti$x)+distanza_max validati<-subset(dati_letti,dati_letti$distMean<soglia)‏ # salvo i dati su db: sqlSave(db,validati,tablename=”validati”)‏ close(db)‏

Selezionare dati con sql La funzione sqlFetch non va utilizzata con tabelle eccessivamente grandi Quello che finora è stato fatto con la funzione subset di R può essere fatto con l'istruzione SELECT del linguaggio SQL Con la SELECT è possibile mettere in correlazione più tabelle, con sqlFetch NO

SELECT con R Comando equivalente di sqlFetch: v<-sqlQuery(db,”select * from registro_scuola”)‏ Selezionare specifiche colonne: v<-sqlQuery(db,”select cognome, nome, italiano from registro_scuola”)‏ Selezionare righe con condizioni: v<-sqlQuery(db,”select * from registro_scuola where anno=2008”)‏ Possibilità di ordinamento: v<-sqlQuery(db,”select * from registro_scuola order by cognome, nome”)‏

Relazione con db Riutilizziamo l'esempio finale della lezione 3: Importiamo, con una sqlSave, il foglio cdv chiamato “dati2.csv” Memorizziamo i dati sul database, in una tabella chiamata dati_relazione Modifichiamo il programma distribuzione.r in modo da prelevare i dati da db

La modifica La modifica necessaria per far funzionare il programma è minima. Al posto della read.table vanno inserite le seguenti righe: library (RODBC)‏ db<-odbcConnect(“source1”,case=”postgresql”)‏ tabella<-sqlFetch(db,”dati_relazione”)‏ close(db)‏...

Nota sui documenti word I documenti word generati da file html NON includono le immagini nel file Ricordarsi di copiare nella stessa cartella del documento word tutte le immagini necessarie, generate dal programma R

Spunti per il futuro Realizzazione struttura database di istituto, con ridondanza Definizione di un percorso formativo/informativo a livello di sede Utilizzo di strumenti informatici di supporto: – Piattaforma redmine – Subversion – Wiki, etc.