La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01.

Presentazioni simili


Presentazione sul tema: "Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01."— Transcript della presentazione:

1 Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01 Francesca Parpinel

2 Gli applicativi statistici 4 Motivi: Analisi di grandi masse di dati; analisi complesse; tecniche di analisi basate sulle simulazioni (tecniche bootstrap); ecc. 4 Applicativi: –Raccolta dei dati e analisi preliminari: fogli di calcolo (tipo Excel). –Analisi statistiche ad hoc: Statgraphics, SAS, SPSS, Minitab, Pcgive (serie storiche). –Programmazione statistica: S-plus, R.

3 Scelta del programma R 4 Ambiente di programmazione con sviluppi per le applicazioni statistiche. 4 R è un programma di pubblico dominio per piattaforme Windows, Linux e Macintosh. 4 Informazioni nel sito: 4 Caratteristiche: Interattivo, facilità grafiche. 4 Versione aggiornata: R1.2.0 ( ).

4 Qualche informazione su R 4 R inizialmente viene scritto da Robert Gentleman e Ross Ihaka (Università di Auckland) e divulgato nel Dal 1997 la scrittura dei sorgenti di R è compito di un gruppo di studiosi. 4 Inoltre R è disponibile per varie piattaforme di tipo UNIX e sistemi simili (ad esempio FreeBSD e Linux). Viene inoltre fornito per sistemi operativi quali Windows 9x/NT/2000 e Macintosh. Per questi ultimi sistemi è possibile ottenere dei file di installazione pre-compilati e quindi di più facile implementazione.

5 R per Windows  La versione di R per il sistema operativo Windows, attualmente curata da Guido Masarotto (Univ. di Padova) e Brian D. Ripley (Univ. di Oxford), si trova, navigando in un CRAN, nella directory bin/windows/windows-NT/ dove si trovano i file per la versione base ( base/ ) e numerosi pacchetti ( contrib/ ). 4Per installare la versione base attraverso Internet si consiglia un PC, dotato di sistema operativo Windows 95/98/2000 o Windows NT, con un'area libera di circa 20M sul disco fisso e il collegamento ad Internet.  Tra i file disponibili vi è anche l'eseguibile rwin. exe che consente un'installazione automatica.

6 Alcune informazioni 4 Per cambiare directory di lavoro. –La versione per Windows permette di cambiare facilmente directory intervenendo in linea comandi. 4 La sintassi dei comandi. – Tutti i comandi in R sono seguiti dalle parentesi rotonde, ad esempio nella forma >help(). Omettendo le parentesi il programma risponde fornendo la codifica del comando. 4 Per uscire dal programma. –si digita il comando q()  Per caricare i programmi di dimostrazione: demo() 4 Esempi.

7 Documentazione 4 Il programma R comprendi i seguenti manuali: –di riferimento (refman.pdf, più di 850 p.), di descrizione di R (R-intro.pdf, 103 p.), per produrre estensioni di R (R-exts.pdf, 66 p.), per la lettura e scrittura di file di dati (R-data.pdf, 32 p.), per il linguaggio di programmazione (R-lang.pdf, 59 p.) 4 Aiuto in linea e in formato html. 4 Testi su S-PLUS in combinazione con le FAQ di R 4 Alcune informazioni e moduli di auto-istruzione all’indirizzo

8 Analisi esplorativa dei dati  Simulazione di dati casuali: rnorm(n,m,s)  Istogrammi: hist(dati) 4 Sovrapposizioni di curve –teorica –densità stimata

9 Distribuzioni implementate in R

10 Funzioni con le distribuzioni 4 Densità o probabilità: 4 Funzione di ripartizione: 4 Funzione dei quantili: 4 Generazione di numeri casuali:

11 Analisi preliminari dei dati 4 Lettura dei dati (ogni pacchetto ha il proprio formato di lettura e la lettura di file ASCII). 4 Matrice di dati: –n righe: unità statistiche –k colonne: variabili osservate  Comandi R per la lettura di file di dati: read.table(); scan(). 4 Principali indici di sintesi e presentazioni grafiche.

12 4 Lettura di un file di dati grezzi organizzato come matrice e assegnazione: dati1<-read.table(“a:dati2.txt”) 4 Lettura di un file di dati numerici con separatore dei decimali “,” e organizzati in matrice: dati2<-matrix(scan(“a:dati2.txt”,dec=”,”),30,2) Lettura di dati da file

13 Analisi esplorativa dei dati  Sintesi: summary(dati1) fornisce informazioni su Minimo, I Quartile, Mediana, Media, III Quartile, Massimo.  Indici di sintesi: mean(), sd(), var() cor() cov() 4 Rappresentazione scatola-baffi e ramo-foglia boxplot() stem()  Diagrammi di dispersione a due variabili plot()  Istogrammi hist()  Diagrammi di dispersione a 3 tre dimensioni scatterplot3d()

14 Indagine sui frequentanti i corsi 4 I dati riguardanti 169 studenti di un corso di Statistica. 4 Analisi univariate:

15 Altre indagini: la distribuzione 4 Distribuzione non normale evidentemente asimmetrica con coda a destra

16 Altre indagini: la distribuzione 4 Consideriamo alcuni test sul tipo di distribuzione: library(ctest) shapiro.test(dati$ETA) lam<-mean(dati$ETA) ks.test(dati$ETA, +pchisq,lam)

17 Analisi esplorativa: dati bivariati 4 Scatter-plot 4 modello di regressione 4 analisi della regressione 4 analisi dei residui 4 Q-Q plot per l’analisi di normalità dei residui qqnorm(rdati1$resid) qqline(rdati1$resid, + col=2)

18 Descrizione del file di dati 4 Descrizione dei dati: Righe: uffici d’area Variabili: Tempo totale per la transazione, numero di transazioni di tipo 1 e di tipo 2, numero di caso: –Time (in minuti, numerico) –T1 (numerico) –T2 (numerico) –Case.numbers (numerico)  L’obiettivo è modellare il tempo totale come funzione del numero di transazioni.  Fonte: Cunningham and Heathcote (1989), Estimating a non-Gaussian regression model with multicollinearity. Australian Journal of Statistics, 31, I dati sono stati arrotondati.

19 Matrice degli scatter- plot

20 Rappresentazione a tre dimensioni Per rappresentazioni grafiche più complesse si stanno creando dei pacchetti aggiuntivi ad esempio il pacchetto scatterplot3d che viene richiamato col comando library(scatterplot3d)

21 Modello di regressione

22 La funzione summary.lm calcola e restituisce una serie di statistiche del modelli lineare adattato:  residuals : i residui pesati con la radice dei pesi specificati in lm  coefficients: matrice px4 le cui colonne sono i coefficienti stimati, il loro errore standard, la statistica t e il p-value a due code  sigma : la radice della varianza dell’errore casuale stimata  df: gradi di libertà, vettore a tre dimensioni (p, n-p, p*)  fstatistic: vettore a 3 dimensioni con il valore della statistica F con i gradi di libertà del suo numeratore e denominatore  r.squared : R^2, la frazione di varianza spiegata dal modello  adj.r.squared : la statistica R^2 aggiustata per valori alti di p.  cov. unscaled : una matrice di covarianza pxp dei coef[j], j=1,...,p  correlation : la matrice di correlazione se specificato L’output del comando lm()

23 Analisi delle serie storiche  Modelli autoregressivi: library(ts) 4 Esempio comando ar() ar(x, aic = TRUE, order.max = NULL, method=c("yule- walker", "burg", "ols", "mle", "yw"), na.action, series,...) ar.burg(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series, var.method = 1) ar.yw(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series) ar.mle(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series) predict(ar.obj, newdata, n.ahead = 1, se.fit = TRUE)


Scaricare ppt "Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01."

Presentazioni simili


Annunci Google