La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche.

Presentazioni simili


Presentazione sul tema: "Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche."— Transcript della presentazione:

1 Dott.ssa Arianna Orasi 5 Marzo 2010

2 Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche dei dati di onda

3 Parte1 Introduzione alla statistica Alcuni richiami alla probabilità Statistica descrittiva (1) (1) Ringrazio Guido Masarotto e Carlo Gaetan per aver messo a disposizione il loro materiale didattico

4 Introduzione alla statistica Un pò di terminologia….. Unità statistiche Dati Variabili Modalità Campione Dati qualitativi: sconnessi ordinali Dati quantitativi: interi o continui

5 Un utile strumento: R R

6

7 Alcuni semplici comandi ls() per controllare cosa cè nella directory di lavoro chiamata anche workspace rm() per eliminare gli oggetti presenti > (2 + 3) * 4 [1] 20 >4*3**3 #Usa ** o ^ per calcolare un elevamento a potenza R oltre a possedere un gran numero di funzioni dà la possibilità di incrementarne di nuove e questo è uno dei punti di forza di questo programma. Per chiedere aiuto su una funzione o più in generale si digita > help.start()

8 Alcuni semplici comandi Si può salvare un valore assegnandolo ad un oggetto mediante il simbolo <- > x <- sqrt(2) #salva in x la radice quadrata di 2 > x [1] Molto utile è la possibilità di gestire operazioni e variabili logiche: > x <- 10 #fissa x uguale a 10 > x > 10 # x e' piu' grande di 10? [1] FALSE > x<=10 [1] TRUE Gli operatori logici sono:, >=, ==, !=, &(intersezione), | (unione)

9 Alcuni semplici comandi Per creare un vettore si usa la funzionie c() >x <- c(2,3,5,7,11) >x [1] Per creare sequenze di numeri si può usare la notazione a:b >xx <- 1:10 >xx [1] >xx <- 100:1 >xx [1] ? La stessa operazione poteva essere fatta con il comando seq >xx<-seq(from=100, to=1)

10 Alcuni richiami alla probabilità VARIABILI CASUALI e DEFINIZIONE DI PROBABILITÀ Una variabile casuale (v.c.) è il risultato numerico di un esperimento quando questo non è prevedibile con certezza. Ne sappiamo qualcosa…ma non proprio tutto! Come stima della probabilità di un evento sperimentale può essere utilizzata la sua frequenza. La frequenza relativa di un campione allaumentare del numero delle osservazioni tende a diventare sempre più simile a quella reale della popolazione (legge empirica del caso) e tale concetto costituisce la base sperimentale dela teoria statistica. In questi casi si parla di probabilità frequentista o a posteriori (perchè le leggi dei fenomeni studiati non sono note a priori). Non è la sola definizione di probabilità esistente ma è quella che useremo in seguito.

11 Richiami alla probabilità CALCOLO COMBINATORIO La stima della probabilità di un evento è uno strumento fondamentale della statistica. Nelle sue forme più semplici si fonda sul calcolo combinatorio. Lassociazione del concetto di probabilità al calcolo combinatorio è importante: serve per collegare una scelta alla probabilità con la quale levento atteso può avvenire nel contesto di tutti gli event alternativi possibili. È la base dellinferenza statistica, della scelta scientifica in tutti i casi di incertezza.

12 Richiami alla probabilità LE PERMUTAZIONI SEMPLICI SENZA RIPETIZIONE Tutti i sottoinsiemi che si possono formare collocando n elementi in tutti gli ordini possibili si chiamano permutazioni. Questo numero si calcola con il fattoriale di un numero n, che indichiamo con n!, cioè il prodotto di un intero positivo n per tutti gli interi positivi più piccoli di questo fino ad 1 ossia: n x (n-1) x (n-2) x (n-3) x….x 1 si ottiene semplicemente utilizzando: > prod(1:n) o in alternativa la funzione factorial >factorial(n)

13 Alcuni richiami alla probabilità LE DISPOSIZIONE SEMPLICI SENZA RIPETIZIONE Le disposizioni semplici di n oggetti a gruppi di k, D n,k, sono il prodotto di un intero positivo n per i primi (k - 1) interi positivi più piccoli di questi, e sappiamo fornisce tutti gruppi che si possono formare prendendo k tra n oggetti distinti, in modo che ogni gruppo differisca dai restanti o per un elemento o per lordine con cui gli oggetti sono disposti e si ottiene come o si può scrivere come prod((n-k+1):n). Ad esempio D 6,3 > prod((6-3+1):6) [1] 120

14 Alcuni richiami alla probabilità LE COMBINAZIONI SEMPLICI SENZA RIPETIZIONE Esercizio Come calcolareste con R le combinazioni di n oggetti a gruppi di k indicate con il simbolo del coefficiente binomiale

15 Alcuni richiami alla probabilità LE COMBINAZIONI SEMPLICI SENZA RIPETIZIONE Soluzione :-) cè la funzione choose > choose(4,2) [1] 6

16 Alcuni richiami alla probabilità DISTRIBUZIONE DI PROBABILITÀ Le v.c. hanno una propria distribuzione di probabilità che in sostanza è una funzione matematica che per ogni valore della variabile fornisce la probabilità che venga osservato quel valore (caso discreto) o che il risultato cada in un certo intervallo finito di valori (caso continuo). Esistono funzioni di probabilità discrete e continue: Tra quelle discrete: binomiale, multinomiale, poissoniana, geometrica, uniforme Tra quelle continue: normale, esponenziale negativa, gamma, derivanti dalla normale:chi quadro, t di student, F di Fisher

17 Alcuni richiami alla probabilità DISTRIBUZIONE DI PROBABILITÀ: BINOMIALE In un collettivo con n unità che possono essere ripartite solo in due classi A e B con frequenze relative p=n a /n e q=n b /n, la probabilita di avere i volte levento A (o n-i volte levento B) è data da dove ricordiamo che sono combinazioni semplici. Tale distribuzione mi fornisce la probabilità che un evento con probabilità a priori p avvenga 1,2,3,…i volte in n prove ripetute identiche e indipendenti. La media è data da p e la varianza è data da (p*q)/n

18 Alcuni richiami alla probabilità DISTRIBUZIONE DI PROBABILITÀ: NORMALE È sicuramente la distribuzione più nota e più usata anche nelle scienze. Essa è il limite della distribuzione binomiale per n che tende all mentre nè p nè q tendono a 0. Ha due punti di flesso in Meda, moda e mediana coincidono La normale standardizzata espressione della variabile con media 0 e varianza 1 ha la seguente densità di probabilità

19 Alcuni richiami alla probabilità DISTRIBUZIONE DI PROBABILITÀ R consente di gestire tutte le principali variabili casuali e permette il calcolo della funzione di probabilità o di densità, della funzione di ripartizione, quantili e generazione di numeri casuali

20 Alcuni richiami alla probabilità DISTRIBUZIONE DI PROBABILITÀ Esempio: Sia X ~ Bin(n=10, p=0.2) - la probabilità che X assuma valore x=2 è data da: > dbinom(2,10,0.2) [1] la funzione di ripartizione ossia la P(X<=x)=F(x) > pbinom(2,10,0.2) [1] per i quantili della distribuzione ossia il più piccolo valore di x t.c. F(x)>= > qbinom(0.45,10,0.2) [1] 2

21 Alcuni richiami alla probabilità DISTRIBUZIONE DI PROBABILITÀ Per rappresentare la distribuzione di probabilità di una v.c.ß(10,0.2) e la sua funzione di ripartizione >par (mfrow=c(1,2)) >y <- seq(-1,11,by=1) >plot( y, dbinom (y, 10, 0.2), type="p", ylab="p(y)",main="Bin (10, 0.2)" ) >plot ( y, pbinom ( y, 10, 0.2 ), type="p", pch=16, ylab="F(y)", main="Bin (10, 0.2)" ) >segments ( -1:10, pbinom ( -1:10, 10, 0.2 ), 0:11, pbinom ( -1:10, 10, 0.2 ) )

22 Alcuni richiami alla probabilità DISTRIBUZIONE DI PROBABILITÀ

23 Alcuni richiami alla probabilità SIMULAZIONE DI VARIABILI CASUALI Per generare una serie di numeri casuali da una distribuzione, come ad esempio da una distribuzione normale la sintassi è: > x<-rnorm(10) TEOREMI LIMITE LEGGE FORTE DEI GRANDI NUMERI Se X i i=1,… è una successione di variabili indipendenti e identicamente distribuite con valore atteso E(X i )= allora la media campionaria converge quasi certamente al valore Per convergenza q.c. di una successione di v.c. X i i=1,… ad una costante c si intende che la sequenza è t.c.

24 Alcuni richiami alla probabilità TEOREMI LIMITE LEGGE FORTE DEI GRANDI NUMERI Verifichiamola empiricamente con R Partiamo generando n valori casuali ad esempio da una distribuzionie di Poisson. Sia n=10 replicazioni da X~Poisson(5) e calcoliamo la media aritmetica >set.seed(30) >x<-rpois(10,5) >mean(x) [1] 4.5 Raddoppiamo le replicazioni >x<-c(x,rpois(10,5)) >mean(x) [1] 4.7 Raddoppiamo ancora >x<-c(x,rpois(20,5)) >mean(x) [1] la media campionaria sta oscllando intorno al vero valore della media

25 Alcuni richiami alla probabilità TEOREMI LIMITE LEGGE FORTE DEI GRANDI NUMERI Proviamo con mille replicazioni >x<-c(x,rpois(1000,5)) >mean(x) [1] Con replicazioni >x<-c(x,rpois(10000,5)) >mean(x) [1] Evviva! Come volevamo la media campionaria si avvicina al vero valore della media della distribuzione campionaria di riferimento al crescere delle replicazioni

26 Alcuni richiami alla probabilità TEOREMI LIMITE LEGGE DEBOLE DEI GRANDI NUMERI Se X i i=1,… è una successione di variabili indipendenti e identicamente distribuite con valore atteso E(X i )= allora la media campionaria converge in probabilità al valore Per convergenza in probabiliità di una successione di v.c. X i i=1,… ad una costante c si intende che la sequenza è t.c.

27 Alcuni richiami alla probabilità TEOREMI LIMITE LEGGE DEBOLE DEI GRANDI NUMERI Verifichiamola ancora empiricamente con R Partiamo generando n valori casuali ad esempio da una distribuzionie Binomiale. Calcoliamo la media aritmetica > n<-10 > p<-0.2 > nobs<-c(10,20,100,1000) > par(mfrow=c(2,2)) > for (n in nobs) { x<-0:n d<-dbinom(x,n,p) y<-(x/n) plot(y,d,type='h',main=paste("n = ",n,", p = ",p),ylab="p(y)",xlab='y')}

28 Alcuni richiami alla probabilità TEOREMI LIMITE LEGGE DEBOLE DEI GRANDI NUMERI

29 Alcuni richiami alla probabilità TEOREMI LIMITE TEOREMA DEL LIMITE CENTRALE Se X i i=1,… è una successione di variabili indipendenti e identicamente distribuite di media e varianza 2 finita allora converge in distribuzione ad una v.c. N(0,1)

30 Alcuni richiami alla probabilità TEOREMI LIMITE TEOREMA DEL LIMITE CENTRALE Verifichiamola ancora empiricamente con R Partiamo generando n valori casuali ad esempio da una distribuzionie Binomiale. Sia Xi ~ ß(1,0.2) e quindi s2=Var(Xi)=p(1-p)=0.16 allaumentare di n a cosa converge? par(mfrow=c(2,2)) > p<-0.2 > nobs<-c(10,20,100,1000) > par(mfrow=c(2,2)) > for (n in nobs) { y<-0:n prob<-pbinom(y,n,p) z<-(y/n-p)*sqrt(n)/sqrt(p*(1-p)) ind -3)&( z<3) z<-z[ind] prob<-c(0,prob[ind]) plot(stepfun(z, prob, f = 0),verticals=FALSE,pch=20,main=paste("n = ",n,", p = ", p),ylab="F(z)",xlab="z") curve(pnorm(x),from=min(z),to=max(z),add=TRUE)}

31 Alcuni richiami alla probabilità TEOREMI LIMITE TEOREMA DEL LIMITE CENTRALE

32 Statistica descrittiva vs Statistica inferenziale

33 Statistica descrittiva: organizzazione tabellare e grafica Aiutiamoci ancora con R…. Prendiamo un insieme di dati che ci accompagneranno in questo viaggio… In un reparto dove si assemblano walkman vengono provate in tre giorni diversi tre differenti linee di produzione. Le tre diverse organizzazioni sono chiamate: vecchia, nuova1 e nuova2. Nei tre giorni per i 288 dipendenti viene rilevato il numero di operazioni completato Qualè lorganizzazione migliore? Carichiamo il file org.txt > dati<-read.table(file="org.txt",header=TRUE) > names(dati) > dati[1:19,] Questo è un dataframe dove ogni riga è una unità statistica e ogni colonna è una variabile misurata sulle unità statistiche e può contenere variabili numeriche o categoriali

34 Statistica descrittiva: organizzazione tabellare e grafica oper org vecchia nuova vecchia vecchia nuova nuova vecchia nuova vecchia nuova nuova nuova nuova vecchia nuova nuova nuova vecchia nuova1

35 Statistica descrittiva: organizzazione tabellare e grafica > attach(dati) > vecchia<-oper[org == 'vecchia'] > nuova1<-oper[org == 'nuova1'] > nuova2<-oper[org == 'nuova2'] > vecchia[1:30] Questi dati non sono moltissimi ma sono abbastanza per poterli solo guardare. Quindi abbiamo bisogno di sintetizzarli e capirli meglio….. FREQUENZE ASSOLUTE Un primo tentaitivo può essere quello di dividere i dati in classi e di contare le frequenze per classe ossia quanti dati vanno a finire in ogni classe > classi <-670+5*(0:18) >classi [1] cut.op<-cut(vecchia,breaks=classi, right = FALSE) #assegniamo gli operai della vecchia organizzazione ad ogni classe

36 Statistica descrittiva: organizzazione tabellare e grafica > table(cut.op)%creiamo la tabella di frequenza cut.op [670,675) [675,680) [680,685) [685,690) [690,695) [695,700) [700,705) [705,710) [710,715) [715,720) [720,725) [725,730) [730,735) [735,740) [740,745) [745,750) [750,755) [755,760) 0 >table(cut(vecchia,breaks=10)) #qui è R che divide liberamente in classi ma il numero delle classi glielo passiamo noi.

37 Statistica descrittiva: organizzazione tabellare e grafica

38 FREQUENZE RELATIVE Dividendo le frequenze assolute per il numero totale di unità statistiche (288 addetti!!) si ottengono le frequenze relative > n<-length(cut.op) >round(table(cut.op)/n,3) cut.op [670,675) [675,680) [680,685) [685,690) [690,695) [695,700) [700,705) [705,710) [710,715) [715,720) [720,725) [725,730) [730,735) [735,740) [740,745) [745,750) [750,755) [755,760) 0.000

39 Statistica descrittiva: organizzazione tabellare e grafica FREQUENZE ASSOLUTE E FREQUENZE RELATIVE Rigorosamente :

40 Statistica descrittiva: organizzazione tabellare e grafica ISTOGRAMMA Ci può essere molto utile rappresentare graficamente ciò che abbiamo visto prima in numeri >par(mfrow=c(3,1)) >hist(vecchia) >hist(nuova1) >hist(nuova2) Base dei rettangoli = intervalli riportati nella 1 colonna della tabella precedente Altezza rettangoli = frequenze assolute

41 Statistica descrittiva: organizzazione tabellare e grafica ISTOGRAMMA A proposito del numero di intervalli in un istogramma….. Abbiamo osservato che è assolutamente arbitrario scegliere quanti e quali intervalli utilizzare…ma è facile capire che pochi intervalli danno poche informazioni e troppi intervalli?? Un numero ragionevole di intervalli introduce meno rumore….. Quindi è meglio provare differenti lunghezze per gli intervalli anche in funzione del numero dei dati…. Esistono alcune regolette Ma è meglio usarle come punto di partenza….

42 Statistica descrittiva: organizzazione tabellare e grafica ISTOGRAMMA A proposito del numero di intervalli in un istogramma…..

43 Statistica descrittiva: organizzazione tabellare e grafica FUNZIONE DI RIPARTIZIONE EMPIRICA F n (x)=P(X n Fvecchia <- ecdf(vecchia) >Fnuova1 <- ecdf(nuova1) >Fnuova2 <- ecdf(nuova2) >plot(Fvecchia,xlab='Operazioni completate',main='Funzione di ripartizione empirica',xlim=c(665,760), col.p='transparent') >plot(Fnuova1,add=T,col.p='transparent',col.h= 'red') >plot(Fnuova2,add=T,col.p='transparent',col.h= 'blue') >points(knots(Fvecchia),Fvecchia(knots(Fvecc hia)),cex=0.2) >points(knots(Fnuova1),Fnuova1(knots(Fnuov a1)),cex=0.2,col='red') >points(knots(Fnuova2),Fnuova2(knots(Fnuov a2)),cex=0.2,col='blue')

44 Statistica descrittiva: Misure di posizione Ma di quanto lorganizzazione Nuova2 è migliore delle altre? Ci sono dei numeri che indicano dove la distribuzione è posizionata? Noti parametri di posizione sono: La media aritmetica La mediana I quantili

45 Statistica descrittiva: Misure di posizione MEDIA ARITMETICA Supponiamo di avere n unità statistiche su cui abbiamo osservato i valori y 1,,,y n La media aritmetica dei dati è: >mean(vecchia) [1]

46 Statistica descrittiva: Misure di posizione MEDIANA È un numero che è più grande di un 50% delle osservazioni e più piccolo del restante 50% >median(vecchia) [1] 706 vecchianuova1nuova2 media mediana

47 Statistica descrittiva: Misure di posizione QUANTILI Generalizzano il concetto di mediana poichè lidea alla base di un quantile p dove 0quantile(vecchia,probs = c(0.25,0.50,0.75)) 25% 50% 75% >summary(vecchia) Min. 1st Qu. Median Mean 3rd Qu. Max

48 Statistica descrittiva: Boxplot o diagramma a scatola con baffi > boxplot(oper~org) La scatola è costituita dai tre quartili I baffi si estendono fino ai dati più lontani …. ma non oltre k (range) x scarto interquartile Le osservazioni oltre i baffi sono indicate generalmente con dei pallini

49 Statistica descrittiva: Boxplot o diagramma a scatola con baffi Attenzione però: interpretiamo bene i dati Solo a titolo indicativo mostriamo due distribuzioni A e B… fondamentalmente hanno la stessa media… Ma secondo voi cosa cambia?? Così la smettiamo con la storia dei polli di Trilussa….

50 Statistica descrittiva: Indici di variabilità Tra gli indici che ci permettono di valutare sinteticamente la variabilità di un insieme di dati vi sono: La varianza Lo scarto quadratico medio Il campo di variazione Lo scarto interquartile MAD

51 Statistica descrittiva: Indici di variabilità VARIANZA Mi dice in pratica quanto i dati distano o si disperdono dalla media aritmetica Attenzione la funzione var() di R calcola la varianza campionaria e non quella della popolazione Quindi var(y) lo otteniamo come (n-1)*var(y)/n

52 Statistica descrittiva: Indici di variabilità SCARTO QUADRATICO MEDIO Mentre lunità di misura della varianza è uguale al quadrato dellunità di misura dei dati originali lunità di misura dello squarto quadratico medio coincide con quella dei dati

53 Statistica descrittiva: Indici di variabilità CAMPO DI VARIAZIONE In R range() SCARTO INTERQUARTILE MAD Median Absolute Deviation In R MAD<-function(x) { a<-median(abs(x-median(x))) return(a) }

54 Statistica descrittiva: Indici di variabilità COEFFICIENTE DI VARIAZIONE / Restituisce una misura della variabilità aggiustata per tener conto delle differenti unità di misura dei fenomeni

55 Statistica descrittiva: I DATI QUALITATIVI Consideriamo il file laureati.txt >laureati<-read.table("laureati.txt",header=TRUE) >names(laureati) [1] "corso" "matricola" "sesso" "provincia" "anno" "tipo" "diploma" "votomat" "base" votolau" "lode" >attach(laureati) >table(provincia) provincia BL BZ CH CO CT FE FG GO PD PN RO TN TS TV UD VE VI VR >table(sesso) sesso F M Media e varianza non hanno senso in questo caso…useremo la moda ossia la modalità con la frequenza più alta: >which.max(table(provincia)) VE 16 >max(table(provincia)) [1] 169

56 Statistica descrittiva: I DATI QUALITATIVI RAPPRESENTAZIONI GRAFICHE DIAGRAMMI A BARRE >plot(sesso) Att: la variabile sesso non è ordinabile! DIAGRAMMI A TORTA >pie(table(sesso),col = gray(seq(0.3,0.8,length=2))) angolo=360° * frequenza relativa

57 Statistica descrittiva: I DATI QUALITATIVI TABELLE DI CONTIGENZA Vi è associazione tra il sesso e il voto di lode? Ce lo dice la tabella di contingenza.. >tab.cont<-table(sesso,lode) >tab.cont lode sesso L NL F M Esercizio: Rappresentiamo i seguenti diagrammi a barre….. suggerimento:utilizziamo il comando barplot

58 Statistica descrittiva: COVARIANZA E CORRELAZIONE >data(swiss) >names(swiss) [1] "Fertility" "Agriculture" "Examination" "Education" "Catholic" "Infant.Mortality >attach(swiss) >log.Education<-log(Education) >indicators<-cbind(Fertility,Agriculture,log.Education) >pairs(indicators) Come misuriamo la direzione e la forza delle relazioni tra le variabili? >n<-length(Fertility) >cov(indicators)*(n-1)/n Fertility Agriculture log.Education Fertility Agriculture log.Education

59 Statistica descrittiva: COVARIANZA E CORRELAZIONE COVARIANZA Osservazioni: 1) Se a valori crescenti di X corrispondono valori crescenti di Y ci aspettiamo che valori della media di X corrispondano a valori maggiori della media di Y perciò la covarianza sarà positiva; 2) Se al contrario al crescere della X la Y descresce ci aspettiamo una covarianza negativa; 3) Più è forte la relazione tra le due variabili più la covarianza sarà grande in valore assoluto mentre in assenza di una relazione monotona tra le due variabili la covarianza sarà vicina allo zero. Quindi useremo la covarianza per misurare la DIREZIONE della relazione esistente tra due variabili E per misurare la FORZA della relazione esistente?? Attenzione come per la var la funzione cov() di R calcola la covarianza campionaria Quindi cov(x,y) lo otteniamo come (n-1)*cov(x,y)/n

60 Statistica descrittiva: COVARIANZA E CORRELAZIONE CORRELAZIONE (LINEARE) >cor(indicators) Fertility Agriculture log.Education Fertility Agriculture log.Education Spesso indicato anche con r tale coefficiente varia tra -1 e 1. In particolare: se cor(X,Y)>0 la relazione tra le due variabili è positiva ed è tanto più forte tanto più si avvicina ad 1; se cor(X,Y)<0 lassociazione tra i dati è negativa; se cor(X,Y)= 1allora i dati sono perfettamente allineati su di una retta con coeff angolare positivo o negativo; Se cor(X.Y)=0 allora non esiste una relazione di tipo lineare (e più in generale unassociazione monotona) tra le variabili

61 Statistica descrittiva: COVARIANZA E CORRELAZIONE

62 Domande?


Scaricare ppt "Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche."

Presentazioni simili


Annunci Google