Lettura e analisi statistiche dei dati e computer analysis

Slides:



Advertisements
Presentazioni simili
Dipartimento di Informatica ITIS Leonardo da Vinci Carpi 2011
Advertisements

Programma del Corso MODULO A Il personal computer e le informazioni 1 ) Il computer e le informazioni. 2 ) Lunità centrale. 3 ) Le memorie. 4 ) Le unità
Introduzione al linguaggio R
1 Leggere e scrivere dati da file Giorgio Valentini e –mail: DSI – Dipartimento di Scienze dell Informazione Università degli Studi.
Linguaggio R Raffaele Miele Dipartimento di Matematica e Statistica Università degli Studi di Napoli Federico II
MICROSOFT OFFICE '97. MICROSOFT OFFICE '97 ELEMENTI OFFICE ‘97 MICROSOFT WORD MICROSOFT EXCEL MICROSOFT POWERPOINT MICROSOFT ACCESS MICROSOFT OUTLOOK.
1 Introduzione ai calcolatori Parte II Software di base.
MODULO 4 – Il Foglio elettronico
Introduzione al linguaggio R
Code::Blocks Ambiente di sviluppo.
Code::Blocks Ambiente di sviluppo.
Database MySql.
I file system.
(Appunti da Scott Mitchell, James Atkinsons - Active Server Pages 3.0 – ed. Apogeo) Le pagine ASP.
INFORMATICA Trattamento automatizzato dellinformazione.
I linguaggi di programmazione
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
Informatica (conoscenza) - Introduzione al corso (I. Zangara)
Dr. Giovanni Stracquadanio
CORSO Lim-Elearning A.F
Programmazione Procedurale in Linguaggio C++
Introduzione al software SAS Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°2.
Introduzione al software SAS
Sistemi operativi. Informatica 1 SCICO - a.a. 2010/11 2 Insieme di programmi per gestire le risorse del calcolatore – Risorse: memoria di massa, tastiera.
Il Software: Obiettivi Programmare direttamente la macchina hardware è molto difficile: lutente dovrebbe conoscere lorganizzazione fisica del computer.
ACE Acute to Chronic Estimation (attraverso lapplicazione di 3 modelli tempo-concentrazione-effetto)
Introduzione allinformatica. Cosè linformatica ? Scienza della rappresentazione e dellelaborazione dellinformazione ovvero Studio degli algoritmi che.
OPEN OFFICE e IMPRESS Masucci Antonia Maria.
Visualizzazione reportistica on-line dellindagine sullopinione degli studenti.
SOFTWARE Lhardware è la parte che si può prendere a calci; il software quella contro cui si può solo imprecare. SOFTWARE E linsieme dei dati e dei programmi.
Un introduzione a Java Ant per lutilizzo con Swarm Marco Lamieri 13/04/2004.
Lezioni per Insegnanti mod 4 Prof. Giovanni Raho 1 I metodi della ricerca sociale Corso S. I. S. S Mod. 4.
Laboratorio di Informatica
Introduzione al linguaggio R
CAPITOLO 2 INTRODUZIONE AL LINGUAGGIO JAVA E ALL'AMBIENTE HOTJAVA.
Programmare Introduzione alla programmazione ovvero Che ci faccio in questaula?? Paolo Bernardi.
ASP Lezione 1 Concetti di base. Introduzione ad ASP ASP (che è la sigla di Active Server Pages) è un ambiente di programmazione per le pagine web. La.
I SISTEMI OPERATIVI.
BRIDGE-3K Verso il futuro La migrazione dai sistemi HP3000. Un ponte verso il futuro conservando la cultura e le risorse aziendali. NOVITA 2007.
Il compilatore Dev-C++
Ll Questionario Introduzione al software SAS (Parte 2) Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°2.
Guida IIS 6 A cura di Nicola Del Re.
Laboratorio di informatica 1
MODULO 01 Unità didattica 04
Modulo 1 - Hardware u.d. 3 (syllabus – 1.3.5)
MetodoEvolus Evolvere nella continuità. Certificazione Windows 7 logo Nuova procedura di setup Certificazione SQL 2008 R1 Consolle di produzione.
Introduzione a XI Conferenza nazionale di Statistica febbraio 2013 Pillole formative di statistica.
Montecatini T., 29 aprile 2005 Versione Grafica e Interfaccia verso Excel &
Il Sistema Operativo (1)
Lezione 1 Approccio al sistema operativo : la distribuzione Knoppix Live Cd Knoppix 3.6 Interfacce a caratteri e grafica: console e windows manager File.
ECDL Patente europea del computer
Ant Che cos’è Come si utilizza Funzionalità principali
Corso di Visual Basic 6.0 OBBIETTIVI
Lezione 1: Introduzione all’uso di Matlab
ROOT Tutorial.
DAmb Sergio Lovrinich 28 Settembre Descrizione Questo Software si propone di eseguire una Analisi del Codice Sorgente, mettendo a disposizione Strumenti.
MODULO 01 Unità didattica 04
Analisi Statistica dei dati nella Fisica Nucl. e Subnucl. [Laboratorio] 26/03/2015Analisi Statistica dei Dati in Fis. Nucl. e Subnucl. - G.Sirri1 Gabriele.
Tecnologie Informatiche ed Elettroniche per le Produzioni Animali (corso TIE) CORSO LAUREA MAGISTRALE IN SCIENZE E TECNOLOGIE DELLE PRODUZIONI ANIMALI.
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
LA FILOSOFIA DEL SAS Concepito per essere facilmente accessibile.
Informatica e Informatica di Base
Di Pietro Demurtas. È il nome di un pacchetto statistico implementato a partire dai primi anni ‘90 da Ihaka e Gentleman. È un linguaggio di programmazione.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
ISIA Duca degli Abruzzi a.s. 2010/2011 prof. Antonella Schiavon
I Sistemi Operativi. Che cosa sono? Il sistema operativo è un software di base che fa funzionare il computer. I Sistemi operativi più importanti sono:
0 Laboratorio Informatica - SAS – Anno Accademico LIUC Alcune indicazioni Dettaglio lezioni: Prima : Michele Gnecchi – Introduzione a SAS Guide.
Corso linux RiminiLUG presenta Rete a bassissimo budget per il piccolo ufficio architettura di rete LTSP in contesti professionali corso linux 2008.
Programmazione orientata agli Oggetti Introduzione a Java.
03/06/20161 SPSS Statistics Statistical Package for Social Science.
Transcript della presentazione:

Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01 Francesca Parpinel http://www.dst.unive.it/˜parpinel/dottorato

Gli applicativi statistici Motivi: Analisi di grandi masse di dati; analisi complesse; tecniche di analisi basate sulle simulazioni (tecniche bootstrap); ecc. Applicativi: Raccolta dei dati e analisi preliminari: fogli di calcolo (tipo Excel). Analisi statistiche ad hoc: Statgraphics, SAS, SPSS, Minitab, Pcgive (serie storiche). Programmazione statistica: S-plus, R.

Scelta del programma R Ambiente di programmazione con sviluppi per le applicazioni statistiche. R è un programma di pubblico dominio per piattaforme Windows, Linux e Macintosh. Informazioni nel sito: www.ci.tuwien.ac.at/R Caratteristiche: Interattivo, facilità grafiche. Versione aggiornata: R1.2.0 (15-12-00).

Qualche informazione su R R inizialmente viene scritto da Robert Gentleman e Ross Ihaka (Università di Auckland) e divulgato nel 1996. Dal 1997 la scrittura dei sorgenti di R è compito di un gruppo di studiosi. Inoltre R è disponibile per varie piattaforme di tipo UNIX e sistemi simili (ad esempio FreeBSD e Linux). Viene inoltre fornito per sistemi operativi quali Windows 9x/NT/2000 e Macintosh. Per questi ultimi sistemi è possibile ottenere dei file di installazione pre-compilati e quindi di più facile implementazione.

R per Windows La versione di R per il sistema operativo Windows, attualmente curata da Guido Masarotto (Univ. di Padova) e Brian D. Ripley (Univ. di Oxford), si trova, navigando in un CRAN, nella directory bin/windows/windows-NT/ dove si trovano i file per la versione base (base/) e numerosi pacchetti (contrib/). Per installare la versione base attraverso Internet si consiglia un PC, dotato di sistema operativo Windows 95/98/2000 o Windows NT, con un'area libera di circa 20M sul disco fisso e il collegamento ad Internet. Tra i file disponibili vi è anche l'eseguibile rwin.exe che consente un'installazione automatica.

Alcune informazioni Per cambiare directory di lavoro. La versione per Windows permette di cambiare facilmente directory intervenendo in linea comandi. La sintassi dei comandi. Tutti i comandi in R sono seguiti dalle parentesi rotonde, ad esempio nella forma >help(). Omettendo le parentesi il programma risponde fornendo la codifica del comando. Per uscire dal programma. si digita il comando q() Per caricare i programmi di dimostrazione: demo() Esempi.

Documentazione Il programma R comprendi i seguenti manuali: di riferimento (refman.pdf, più di 850 p.), di descrizione di R (R-intro.pdf, 103 p.), per produrre estensioni di R (R-exts.pdf, 66 p.), per la lettura e scrittura di file di dati (R-data.pdf, 32 p.), per il linguaggio di programmazione (R-lang.pdf, 59 p.) Aiuto in linea e in formato html. Testi su S-PLUS in combinazione con le FAQ di R Alcune informazioni e moduli di auto-istruzione all’indirizzo http://helios.unive.it/˜statcomp

Analisi esplorativa dei dati Simulazione di dati casuali: rnorm(n,m,s) Istogrammi: hist(dati) Sovrapposizioni di curve teorica densità stimata

Distribuzioni implementate in R

Funzioni con le distribuzioni Densità o probabilità: Funzione di ripartizione: Funzione dei quantili: Generazione di numeri casuali:

Analisi preliminari dei dati Lettura dei dati (ogni pacchetto ha il proprio formato di lettura e la lettura di file ASCII). Matrice di dati: n righe: unità statistiche k colonne: variabili osservate Comandi R per la lettura di file di dati: read.table(); scan(). Principali indici di sintesi e presentazioni grafiche.

Lettura di dati da file Lettura di un file di dati grezzi organizzato come matrice e assegnazione: dati1<-read.table(“a:dati2.txt”) Lettura di un file di dati numerici con separatore dei decimali “,” e organizzati in matrice: dati2<-matrix(scan(“a:dati2.txt”,dec=”,”),30,2)

Analisi esplorativa dei dati Sintesi: summary(dati1)fornisce informazioni su Minimo, I Quartile, Mediana, Media, III Quartile, Massimo. Indici di sintesi: mean(), sd(), var() cor() cov() Rappresentazione scatola-baffi e ramo-foglia boxplot() stem() Diagrammi di dispersione a due variabili plot() Istogrammi hist() Diagrammi di dispersione a 3 tre dimensioni scatterplot3d()

Indagine sui frequentanti i corsi I dati riguardanti 169 studenti di un corso di Statistica. Analisi univariate:

Altre indagini: la distribuzione Distribuzione non normale evidentemente asimmetrica con coda a destra

Altre indagini: la distribuzione Consideriamo alcuni test sul tipo di distribuzione: library(ctest) shapiro.test(dati$ETA) lam<-mean(dati$ETA) ks.test(dati$ETA, +pchisq,lam)

Analisi esplorativa: dati bivariati Scatter-plot modello di regressione analisi della regressione analisi dei residui Q-Q plot per l’analisi di normalità dei residui qqnorm(rdati1$resid) qqline(rdati1$resid, + col=2)

Descrizione del file di dati Descrizione dei dati: Righe: uffici d’area Variabili: Tempo totale per la transazione, numero di transazioni di tipo 1 e di tipo 2, numero di caso: Time (in minuti, numerico) T1 (numerico) T2 (numerico) Case.numbers (numerico) L’obiettivo è modellare il tempo totale come funzione del numero di transazioni. Fonte: Cunningham and Heathcote (1989), Estimating a non-Gaussian regression model with multicollinearity. Australian Journal of Statistics, 31,12-17. I dati sono stati arrotondati.

Matrice degli scatter-plot

Rappresentazione a tre dimensioni Per rappresentazioni grafiche più complesse si stanno creando dei pacchetti aggiuntivi ad esempio il pacchetto scatterplot3d che viene richiamato col comando library(scatterplot3d)

Modello di regressione

L’output del comando lm() La funzione summary.lm calcola e restituisce una serie di statistiche del modelli lineare adattato: residuals: i residui pesati con la radice dei pesi specificati in lm coefficients: matrice px4 le cui colonne sono i coefficienti stimati, il loro errore standard, la statistica t e il p-value a due code sigma: la radice della varianza dell’errore casuale stimata df: gradi di libertà, vettore a tre dimensioni (p, n-p, p*) fstatistic: vettore a 3 dimensioni con il valore della statistica F con i gradi di libertà del suo numeratore e denominatore r.squared: R^2, la frazione di varianza spiegata dal modello adj.r.squared: la statistica R^2 aggiustata per valori alti di p. cov.unscaled: una matrice di covarianza pxp dei coef[j], j=1,...,p correlation: la matrice di correlazione se specificato

Analisi delle serie storiche Modelli autoregressivi: library(ts) Esempio comando ar() ar(x, aic = TRUE, order.max = NULL, method=c("yule-walker", "burg", "ols", "mle", "yw"), na.action, series, ...) ar.burg(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series, var.method = 1) ar.yw(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series) ar.mle(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series) predict(ar.obj, newdata, n.ahead = 1, se.fit = TRUE)