La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Cosa vuol dire fare statistica ? La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di fenomeni collettivi. “il profitto.

Presentazioni simili


Presentazione sul tema: "1 Cosa vuol dire fare statistica ? La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di fenomeni collettivi. “il profitto."— Transcript della presentazione:

1 1 Cosa vuol dire fare statistica ? La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di fenomeni collettivi. “il profitto di questa classe è in media sufficiente” “quest’anno sono di moda le vacanze in sardegna” Affermazioni di tipo statistico Usualmente con il termine “statistica” si indicano anche i risultati numerici (le come ad esempio PIL, inflazione, disoccupazione etc.) di un processo di sintesi dei dati osservati. Tale studio avviene mediante la RACCOLTA, CLASSIFICAZIONE e ANALISI dei dati che esprimono tali fenomeni I dati devono essere organizzati, riassunti, presentati, analizzati e infine interpretati, trarne conclusioni appropriate.

2 2 Statistica descrittiva e inferenziale Statistica descrittiva: SCOPO: descrivere la massa dei dati sperimentali con pochi numeri o grafici significativi, ovvero “fotografare” una data situazione e sintetizzarne le caratteristiche salienti METODI: indicatori statistici, indicatori di centralità, di dispersione (varianza, media, moda, quartili, percentili, coefficienti di correlazione, covarianza, etc) rappresentazioni grafiche come tecnica di presentazione dei dati che affianca la presentazione in forma tabellare, con lo scopo di aiutare l'analisi (diagrammi a barre, a torta, istogrammi, boxplot)

3 3 Statistica descrittiva e inferenziale Statistica inferenziale: SCOPO: utilizza i dati statistici, anche opportunamente sintetizzati dalla statistica descrittiva, per fare previsioni di tipo probabilistico su situazioni future o comunque incerte: ad esempio esaminando un piccolo campione estratto da una grande popolazione si cerca di valutare la frazione della popolazione che possiede una certa caratteristica. METODI: variabili aleatorie, test statistici, intervalli confidenza, significatività, stimatori, etc

4 4 Popolazioni, campioni, unità e caratteri Insieme o collezione di oggetti che sono oggetto di analisi e studio (ad esempio misure o osservazioni) Popolazione L’uso della parola Popolazione in statistica deriva storicamente dal fatto che le prime statistiche venivano fatte per descrivere fenomeni demografici o economici origine Parte della popolazione sulla quale si conduce l’indagine Campione Un elemento della popolazione Unità statistica

5 5 Popolazione Tutti gli studenti iscritti Unità statistica Lo studente Mario Rossi (che è uno degli iscritti) Campione Alcuni studenti selezionati che partecipano al sondaggio Il preside di una Facoltà vuole condurre un sondaggio per conoscere il parere degli studenti sull’organizzazione dei corsi e degli orari. In questo caso Esempio

6 6 espressione elementare di una qualche proprietà osservabile sperimentalmente che contraddistingue ogni unità statistica. Carattere I valori ammissibili per un carattere sono dette modalità Modalità Lo studio delle proprietà di una popolazione avviene mediante l’analisi caratteri. Popolazioni, campioni, unità e caratteri

7 7 caratteri qualitativi (mutabili o categoriali) Tipo di attributo non numerico caratteri qualitativi sconnessi non è significativo stabilire un ordine tra le diverse modalità ex. Religione: mussulmano, cristiano, … ex. Nazionalità : italiano, francese,… ex. Sesso: maschio, femmina (… ?) caratteri qualitativi ordinati è possibile stabilire ordinamenti significativi tra le diverse modalità ex. Titolo di studio: diploma < laurea < dottorato ex. Nel feudalesimo: servi della gleba < contadini liberi < valvassori vassalli < Imperatore

8 8 Popolazioni, campioni, unità e caratteri caratteri quantitativi (variabile) Tipo di attributo numerico discreti L’insieme delle modalità è finito o numerabile Carattere modalità ex. numero di figli: 0,1,2,3,… ∞ ex. Clienti in un negozio: 0,1,2,… ∞ ex. Numero di testa in 5 lanci di una moneta: 0,12,3,4,5 Ex. Numero di atomi nell’universo: 0,1,2,…, ∞ continui L’insieme delle modalità è equipotente a R Carattere modalità ex. Altezza in metri di un individuo: [0,+∞[ ex. Peso in grammi di una trota: [0,+∞[ ex. Reddito in euro di un individuo: [0,+∞[ ex. Conto in banca di un individuo: ]- ∞,+∞[

9 9 Scale di misura I caratteri possono essere classificati in modo analogo mediante la scala di misura che si usa per rappresentarli Per caratteri qualitativi sconnessi dove l’unico confronto possibile tra unità statistiche avviene verificando se presentano o no la stessa modalità SCALA NOMINALE Per caratteri qualitativi ordinati in cui il risultato della misura è un numero che da indicazioni sul fatto che una certa unità statistica sia più o meno dotata di una certa proprietà, ma dove la differenza tra i valori di modalità non restituisce informazioni significative ex. carattere modalità Titolodiploma, laurea, dottorato Ha senso dire laurea > diploma ma non ha senso definire la differenza laurea – diploma SCALA ORDINALE

10 Scale di misura SCALA INTERVALLARE Per caratteri quantitativi in cui sono significative le differenze tra i risultati delle misure ma non i rapporti. In sintesi si usano scale intervallari dove non vi è un unico e significativo inizio della scala. ex. Temperatura, Anno Se in una settimana la temperatura a Napoli è passata da 20 a 40 gradi centigradi, ha senso dire che “la temperatura è aumentata di 20 gradi”, ma non ha senso dire che “la temperatura è raddoppiata”. Infatti il risultato dipende dalla scala di misura usata (se si usasse la scala Fahrenheit il rapporto cambierebbe) 10 Per caratteri quantitativi in cui il risultato della misura sono significative anche i rapporti le differenze ovvero è possibile stabilire un inizio assoluto della scala. ex. Reddito, numero di figli, peso, SCALA RAPPORTALE

11 Perché estrarre un campione ? Campioni statistici si estraggono continuamente Esempi - Il professore interroga un campione di allievi per verificare la preparazione della classe. - Il cuoco assaggia un campione di pasta per valutarne la cottura. - Il ricercatore valuta la risposta ad un farmaco su un campione di pazienti. - La ditta di sondaggi prevede l’esito delle elezioni interrogando un campione della popolazione (exit-pool) … 11 I risultati su un campione permettono di trarre conclusioni generali valide per tutta la popolazione da cui il campione è stato estratto. Questo processo si chiama INFERENZA STATISTICA.

12 Percorso dell’inferenza statistica: 12 Popolazione INFERENZA STATISTICA CAMPIONAMENTO Campione ANALISI DEI DATI (dati grezzi) (MODALITA’ ASSUNTE DAL CARATTERE O CARATTERI) STATISTICHE (STIMATORI) 1.estrazione di un campione della popolazione 2. calcolo delle statistiche a partire dalle modalità osservate sul campione (dati grezzi) 3. stima di un parametro del carattere sull’intera popolazione in base alle statistiche ottenute dal campione

13 ELEMENTI DI STATISTICA DESCRITTIVA Per l’analisi di dati in statistica esiste attualmente un gran numero di software disponibile. Tra questi uno dei principali è software libero R http://it.wikipedia.org/wiki/R_(software) http://www.r-project.org/ Premessa Nella stesura di questo materiale didattico è stato usato Matlab Un altro dei principali software per l’analisi di dati (e con molte altre funzionalità) è l’ambiente di risoluzione di problemi Matlab che offre un vasto toolbox statistico http://www.mathworks.com/products/statistics/

14 ELEMENTI DI STATISTICA DESCRITTIVA Si vuole studiare un carattere di una popolazione che assume caso discreto carattere con k possibili modalità Y 1 < Y 2 < … < Y h < … < Y k Campione n=8 persone selezionate (M.Rossi, …, F.Bianchi) Esempio Popolazione Italiani 0,1,2,…,100,…,200,… modalità possibili Carattere Peso in kg (approssimato al kg) Modalità osservate I valori assunti dalle unità (dati) possono essere “sistemati” in un vettore (array) Consideriamo un campione di n unità statistiche e denotiamo con D i l’i-esimo dato (modalità osservata per la i-esima unità)

15 ELEMENTI DI STATISTICA DESCRITTIVA 1° livello di sintesi – Distribuzioni in frequenza Partendo dai dati grezzi (caso discreto - carattere con k modalità) Unità statistica1 2in carattere YD 1 D 2 D i D n il fenomeno può quindi essere sintetizzato in vari livelli …… …… n i Frequenza assoluta della modalità Y i (cioè numero di unità statistiche per le quali si osserva il valore Y i ) Modalità Y 1 Y 2 Y h Y k Frequenze assolute n 1 n 2 n h n k …… …… …… …… …… …… Valori di YY 1 Y 2 Y h Y k Frequenze relative f 1 f 2 f h f k f i Frequenza relativa della modalità Y i (cioè porzione di unità statistiche per le quali si osserva il valore Y i ) I valori assunti dalle unità (dati) possono essere “sistemati” anche in una tabella

16 ELEMENTI DI STATISTICA DESCRITTIVA Nel caso vengano rilevati più caratteri della popolazione (statistica bivariata o multivariata) i dati grezzi vengono ancora una volta rilevati come segue: Valori di Y Valori di X Y 1 Y 2 Y j Y t X 1 n 11 n 12 n 1j n 1t X 2 n 21 n 22 n 2j n 2t X h n h1 n h2 n hj n ht X k n k1 n k2 n kj n kt … … … …… … … … ……………… ……………… tabella a doppia entrata (matrice k x t ): 1° livello di sintesi – Distribuzione doppia in frequenza n i j Frequenza assoluta della coppia di modalità (X i, Y j) (cioè numero di unità statistiche per le quali si osserva il valore X i sul primo carattere e il valore Y j per il secondo carattere ) …… …… …… …… Unità statistica 12in carattere XD 11 D 21 D i1 D n1 carattere YD 12 D 22 D i2 D n2 ………… D 1i modalità osservata del carattere X per la i-esima unità D 2i modalità osservata del carattere Y per la i-esima unità

17 Istogramma A partire dalle distribuzioni in frequenza è possibile rappresentare la distribuzione mediante un istogramma Un istogramma è un grafico della distribuzione delle frequenze assolute dei dati del campione Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 unità statistiche modalità

18 minmax Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 Istogramma

19 Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 - dividiamo l’intervallo che contiene i valori di modalità osservati in m sottointervalli (eventualmente di uguale ampiezza) dette classi o bins (bins) - gli estremi di tali intervalli sono detti cutoff - si conta il numero di dati del campione in ogni bin (frequenza della classe) e si visualizza una barra verticale per ogni bin con altezza pari alla frequenza bins cutoff Istogramma

20 Istogramma con 10 bins Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 Istogramma Istogramma con 7 bins

21 ELEMENTI DI STATISTICA DESCRITTIVA L’analisi statistica dei caratteri quantitativi permette tuttavia un livello di sintesi maggiore cioè quello legato allo studio dei parametri di sintesi dei fenomeni studiati. Una descrizione della popolazione può infatti essere basata anche sulla quantificazione di valori quali media e variabilità del fenomeno di interesse. 2° livello – Parametri della popolazione La conoscenza congiunta dei valori che tali costanti assumono nella popolazione permette di descrivere in maniera molto sintetica il fenomeno osservato nella popolazione. Si può distinguere in:  Indici di posizione  Indici di variabilità:  Indici di forma

22 Indici di posizione La definizione di molti indici di posizione è legata solo alla posizione che la modalità osservata ha nel campo di variazione di valori (quantili, percentili, mediana, …) altri indici di posizione sono invece legato anche al valore che la modalità assume. si ha …… …… …… …… Valori di YY 1 Y 2 Y h Y k Frequenze relative f 1 f 2 f h f k Dato il campione D=(D 1,D 2,…,D n ) e la sua distribuzione in frequenza relativa Si definisce funzione cumulativa empirica dei dati del campione (o funzione di ripartizione empirica o funzione di distribuzione cumulativa) una funzione F :   [0,1] che ad ogni valore reale x associa la porzione di dati che assume modalità minore o uguale ad x. Definizione:

23 Indici di posizione funzione cumulativa empirica Circa il 28% dei dati assume un valore minore o uguale a 4.6 cioè F(4.6)=0.28 0.28 4.6

24 Indici di posizione Si definisce moda campionaria (o moda del campione o valore modale) la (o le) modalità più frequente nel campione Definizione: Esempio La moda campionaria è 70 La moda campionaria è anche 58 Valori di Y505358707180 Frequenze assolute 112211

25 Indici di posizione Esempio Si definisce media campionaria (o media) la media aritmetica dei dati (modalità) del campione Definizione: La media campionaria è data da

26 Indici di posizione Esempio La media campionaria si può calcolare anche a partire dalla distribuzione in frequenza relativa o assoluta Formula alternativa La media campionaria è f i frequenza relativa della modalità Y i n i frequenza assoluta della modalità Y i Valori di Y505358707180 Frequenze assolute 112211 Valori di Y505358707180 Frequenze relative 0.125 0.125 0.25 0.25 0.125 0.125

27 Indici di posizione Proprietà della media  se i dati del campione sono tutti uguali a una costante D allora la media è D  la media è sempre compresa tra il più grande e il più piccolo dei dati del campione  la media di una trasformazione lineare dei dati è uguale alla trasformazione lineare della media campione campione trasformato

28 Indici di posizione Proprietà della media  la somma delle differenze dei dati dalla media campionaria (gli scarti) è sempre 0  la somma dei quadrati degli scarti da una qualsiasi costante è minima se e solo se la costante è la media campionaria

29 Indici di posizione Approssimazione della media  Se non si conoscono i dati, ma solo una distribuzione delle loro frequenze (assolute) in m classi (bins) classi frequenze assolute la media può essere approssimata come con

30  ordinare i dati  sia O i l’i-simo dato ordinato (parametro ordinale) Indici di posizione La mediana campionaria Md n è il parametro ordinale centrale se n è dispari, la media dei due parametri ordinali centrali se n è pari Definizione: Esempio ordino i dati n pari, considero i parametri ordinali centrali 58 e 70 Md n = (58+70)/2=64

31  ordinare i dati  sia O i l’i-simo dato ordinato (parametro ordinale) Indici di posizione Esempio ordino i dati La mediana campionaria Md n è il parametro ordinale centrale se n è dispari, la media dei due parametri ordinali centrali se n è pari Definizione: n dispari la mediana è il parametro ordinale centrale Md n = 70

32 Indici di posizione  Approssimativamente la mediana Md n è il valore in cui la funzione cumulativa empirica assume valore 0.5, cioè F( Md n )=0.5 Proprietà della mediana  la mediana è un numero che è maggiore o uguale del 50% dei dati del campione e minore o uguale del restante 50%  la somma dei valori assoluti degli scarti da una qualsiasi costante è minima se la costante è la mediana campionaria

33 Indici di posizione Esempio ordino i dati mediana valore 64 F(64)=0.5 F( Md n )=0.5 0.5 64

34  ordinare i dati  sia O i l’i-simo dato ordinato (parametro ordinale) Indici di posizione il campo di variazione campionario è la O n – O 1 Definizione: il midrange campionario è la quantità (O n +O 1 )/2 Definizione: Esempio ordino i dati campo di variazione 1000-50=950 midrange (1000+50)/2=525

35  ordinare i dati  sia O i l’i-esimo dato ordinato (parametro ordinale) Indici di posizione il quantile-p con p in [0,1] è un numero che è maggiore o uguale del 100xp% dei dati del campione e è minore o uguale del restante 100x(1-p)% Definizione: Esempio ordino i dati quantile-0.2 Possibili valori 51, 52.3 il 20% dei dati è a sinistra di 51 e 80% a destra il 20% dei dati è a sinistra di 52.3 e 80% a destra 51, 52.3

36 Indici di posizione approssimativamente il quantile-p è un qualunque valore in cui la funzione cumulativa empirica assume valore p, cioè F(quantile-p)=p  il quantile-p con p in [0,1] è maggiore o uguale del 100 x p%, cioè ad una porzione pari a p dei dati Proprietà dei quantili-p  il quantile-0.50 è un numero che è maggiore o uguale del 50% dei dati del campione e è minore o uguale del restante 50%, cioè è la mediana Osservazione La definizione data di quantile lascia aperta qualche ambiguità nella sua interpretazione. Ad esempio se i dati sono 10, il quantile 0.25 lascerebbe alla sua sinistra il 25% dei dati ma il 25% di 10 dati è due (dati) e mezzo! Allora quale valore scegliere? In situazioni così ambigue sono possibili vari approcci (che non discutiamo) per il calcolo del quantile, simili per qualche verso al calcolo della mediana nel caso di n pari. Tuttavia è bene osservare che se i dati diventano abbastanza numerosi (n grande) tutti questi metodi calcolano per il quantile approssimativamente lo stesso valore

37 Indici di posizione Esempio quantile-0.2 Possibili valori 51, 52.3 ordino i dati 0.2 51 F(quantile-p)=p F(51)=0.2

38 Indici di posizione I quantili con p=0,01,..,0,99 sono detti percentili Definizioni: Il quantile-0.25 è detto quartile primo e indicato con Q1 n o solo Q1 Il quantile-0.75 è detto quartile terzo e indicato con Q3 n o solo Q3 La differenza SIQ n =Q3 n -Q1 n è detta scarto interquartile (o range interquartile) Esempio ordino i dati Md n = (58+70)/2 SIQ n = 75.5-51.5 = 24 Q1 n =(50+53)/2=51.5 Q3 n =(71+80)/2=75.5

39 box & whiskers plot = diagrammi a scatola con baffi A partire dagli indici di posizione è possibile dare una rappresentare grafica della distribuzione dei dati mediante un diagramma a scatola con baffi Il diagramma scatola con baffi (box-and-whiskers plot) è un ideogramma che descrive in modo schematico un insieme di dati Proprietà della scatola con baffi  La scatola corrisponde alla parte centrale della distribuzione (intervallo delimitato dal primo e dal terzo quartile) e comprende circa il 50% dei casi.  La mediana è individuata dalla linea verticale all'interno della scatola.  I baffi corrispondono alle code di sinistra (fino al primo quartile) e di destra ( dal terzo quartile in poi). baffo sotto [Q 1 - 1.5 x SIQ, Q 1 ] baffo sopra [Q 3, Q 3 +1.5 x SIQ]  I dati (eventuali) esterni all'intervallo [Q1 - 1.5SIQ, Q3 + 1.5SIQ] sono considerati statisticamente anomali e sono rappresentati individualmente.

40 box & whiskers plot = diagrammi a scatola con baffi A partire dagli indici di posizione è possibile dare una rappresentare grafica della distribuzione dei dati mediante un diagramma a scatola con baffi mediana Q3Q3 Q1Q1 Q 3 +1.5 x SIQ Scarto interquartile Q 1 -1.5 x SIQ campo di variazione outlier

41 Esempio Md n = (58+70)/2 Q1 n =(50+53)/2=51.5 Q3 n =(71+80)/2=75.5 200 outlier -40 outlier box & whiskers plot = diagrammi a scatola con baffi

42 Altri esempi box & whiskers plot = diagrammi a scatola con baffi

43 Indici di variabilità dei dati (dispersione dei dati attorno alla media ) Indici di variabilità Definizione: Si definisce varianza campionaria il valore Definizione: Si definisce deviazione standard campionaria (o scarto quadratico medio, root mean square) il valore

44 Proprietà della deviazione standard  La deviazione standard di dati trasformati linearmente mediante la funzione f(x)= ax+b è |a| volte la deviazione standard iniziale Indici di variabilità Proprietà della varianza  La varianza di dati trasformati linearmente mediante la funzione f(x)= ax+b è a 2 volte la varianza iniziale  La varianza non risente di traslazioni sui dati (f(x)=x+b)  La deviazione standard non risente di traslazioni sui dati (f(x)=x+b)

45 Indici di variabilità Definizione: Si definisce coefficiente di variazione il rapporto tra deviazione campionaria standard e media campionaria  Il coefficiente di variazione risente di traslazioni sui dati Proprietà del coefficiente di variazione  Il coefficiente di variazione di dati trasformati linearmente mediante la funzione f(x)= ax coincide con il coefficiente di variazione dei dati non trasformati

46 standardizzazione dei dati i dati vengono trasformati linearmente mediante la funzione dati standardizzatiDati Proprietà  I dati standardizzati hanno media campionaria nulla e varianza campionaria unitaria

47 Indici di forma Definizione: Si definisce skewness (asimmetria) la media dei cubi dei dati standardizzati  skewness negativa denota asimmetria verso sinistra (coda verso i valori più bassi) Proprietà  skewness positiva denota asimmetria verso destra (coda verso i valori più alti)

48 Indici di forma Definizione: Si definisce curtosi la media delle quarte potenze dei dati standardizzati diminuita di 3 Proprietà  curtosi (forma rispetto alla normale) negativa appiattimento positiva picco più pronunciato

49 STATISTICA DESCRITTIVA MULTIVARIATA Nel caso vengano rilevati più caratteri della popolazione si parla di statistica bivariata (2 caratteri) o multivariata (più di 2 caratteri). D 1i modalità osservata del carattere X per la i-esima unità D 2i modalità osservata del carattere Y per la i-esima unità …… …… …… …… Unità statistica 12in carattere XD 11 D 21 D i1 D n1 carattere YD 12 D 22 D i2 D n2 ………… I dati grezzi possono essere organizzati in una tabella come segue o in una matrice caratteri Unità statistiche D matrice dei dati (nx2)

50 STATISTICA DESCRITTIVA BIVARIATA persone 1234 X(peso)75648166 Y(altezza)175164179162 Esempio Si considerano il peso in kg e l’altezza in cm di 4 persone (unità st.) Indica la modalità con cui si presenta il j-esimo carattere della i-esima unità statistica

51 m caratteri (variabili), n unità (dati) per ogni variabile STATISTICA DESCRITTIVA MULTIVARIATA caratteri Unità statistiche D matrice dei dati (nxm) Indica la modalità con cui si presenta il j-esimo carattere della i-esima unità statistica

52 Cosa si può dire una campione multivariato? 2.Si può indagare sull’esistenza di relazioni (non note a priori) tra caratteri diversi studiando la variabilità di un carattere rispetto all’altro (ad esempio osservare se al crescere della modalità di un carattere cresce o descresce la modalità per l’altro) C 11 media campionaria primo carattere C 22 media campionaria secondo carattere m 2 media campionaria secondo carattere m 1 media campionaria primo carattere 1. Si possono analizzare le singole variabili come nella statistica descrittiva univariata Osserviamo i dati rappresentati su un diagramma di dispersione (Grafico delle coppie (x i,y i ) ) STATISTICA DESCRITTIVA BIVARIATA

53 Unità statistiche caratteri ( X, Y ) 11 11 7 13 14 17 11 13 43 51 38 46 61 132 75 135 38 88 28 36 12 12 18 27 18 19 17 15 19 36 32 47 42 65 57 66 44 55 114 145 35 58 13 9 diagramma di dispersione Grafico delle coppie (x i,y i ) 114 145

54 Quale statistica usare per misurare questa tendenza dei dati ad allinearsi? Il grafico di dispersione mostra coppie di modalità dei caratteri quasi allineate ovvero osservando ad esempio la modalità del primo carattere con molta probabilità si avrà un carattere grande anche per la modalità del secondo carattere Si definisce matrice di covarianza (o matrice delle varianze e covarianze o matrice di dispersione) la matrice simmetrica 2 x 2 Definizione: Si definisce covarianza campionaria tra la prima e la seconda variabile il valore STATISTICA DESCRITTIVA BIVARIATA

55 Proprietà della covarianza  C 12 è un indicatore dell’esistenza di una relazione lineare tra le osservazioni delle due variabili STATISTICA DESCRITTIVA BIVARIATA C 12 positivo gli scarti delle modalità dei due caratteri rispetto alle rispettive medie tendono ad avere lo stesso segno C 12 negativo gli scarti delle modalità dei due caratteri rispetto alle rispettive medie tendono ad avere segno opposto L’ordine di grandezza di C 12 non è significativo (da solo)

56 STATISTICA DESCRITTIVA BIVARIATA X Y Unità statistiche Osservazione Se indichiamo il primo carattere con X e il secondo con Y Dove Z è la matrice

57 Quale statistica usare per misurare questa tendenza dei dati ad allinearsi? A partire dalla matrice covarianza si può ottenere una matrice 2 x 2 con entrate in modulo non superiori ad uno Definizione: Si definisce coefficiente di correlazione tra la prima e la seconda variabile il valore STATISTICA DESCRITTIVA BIVARIATA Si definisce matrice di correlazione la matrice simmetrica 2 x 2 con R 11 =R 22 =1 Definizione:

58 STATISTICA DESCRITTIVA BIVARIATA Se indichiamo il primo carattere con X e il secondo con Y Osservazione dev(X) la deviazione standard campionaria di X Poichè segue

59 Proprietà del coefficiente di correlazione  R 12 è un indicatore dell’esistenza di una relazione lineare tra le osservazioni delle due variabili STATISTICA DESCRITTIVA BIVARIATA R 12 =1 le osservazioni delle due variabili sono in (completa) relazione lineare (diretta) R 12 =0 le osservazioni delle due variabili non sono in relazione lineare R 12 =-1 le osservazioni delle due variabili sono in (completa) relazione lineare (inversa)

60 STATISTICA DESCRITTIVA BIVARIATA Esempio Si considerano il peso in kg e l’altezza in cm di 4 persone i dati sono “quasi” allineati su una retta con coefficiente angolare positivo R 12 =0.97

61 STATISTICA DESCRITTIVA BIVARIATA i dati sono “quasi” allineati su una retta con coefficiente angolare negativo

62 STATISTICA DESCRITTIVA BIVARIATA i dati sono “quasi” allineati su una retta con coefficiente angolare positivo

63 Cenni di STATISTICA INFERENZIALE Lo strumento di indagine è costituito dagli STIMATORI esempi - media campionaria (stimatore della media del carattere) - varianza campionaria (stimatore della varianza del carattere) Lo scopo dell’indagine campionaria è far luce su una o più costanti parametri che descrivono il carattere ignoto per una popolazione Il carattere può essere pensato come una v.a. con una sua media e varianza

64 Cenni di STATISTICA INFERENZIALE Un classico modo di fare inferenza statistica è quello di cercare stime puntuali e stime per intervallo dei parametri stime per intervallo identificare una regione di valori che contenga con una certa “confidenza” (fiducia) il vero valore del parametro (che non può essere con certezza quello stimato) proprietà incognita: stima puntuale (ad esempio uno dei valori osservati per la media campionaria una stima puntuale della media incognita) con una certa probabilità intervalli fiduciari (confidence interval)

65 Come stabilire gli estremi dell’intervallo di confidenza? Si usano conoscenze ci calcolo delle probabilità: Sotto opportune ipotesi è nota la distribuzione di probabilità dello stimatore Ovvero sono noti i valori che lo stimatore può assumere e le relative probabilità Teorema 1 ( correttezza e coerenza della media campionaria ) Se si estraggono n campioni da una popolazione avente media μ e varianza σ 2 La media campionaria M n ha valore atteso E[M n ]=μ e varianza Var[M n ]= σ 2 /n Standardizziamo la media campionaria e otteniamo una nuova variabile Il Teorema del limite centrale e stime per intervalli

66 Si dimostra un teorema fondamentale in statistica Osservazione 1 Empiricamente si verifica che un campione con n >29 unità è sufficiente per usare l’approssimazione Teorema del limite centrale Se si estraggono n campioni da una popolazione X avente media E[X] e varianza σ 2 La v.a. ottenuta standardizzando la media campionaria M n è una v.a. La cui distribuzione di probabilità tende alla distribuzione normale standard, ovvero Se i campioni provengono da una popolazione normale X allora Z n è normale anche per ogni valore di n (anche minore di 30) Il Teorema del limite centrale e stime per intervalli Osservazione 2

67 Il Teorema del limite centrale e stime per intervalli Il TCL risultato precedente può essere usato così - Fissiamo a=0.01 valore che riteniamo improbabile, ovvero il nostro procedimento ci porterà a conclusioni sbagliate solo nel 1% dei casi - Usando la tabella della normale standard determiniamo il quantile z = z 1-a/2 per il quale risulta z 1-a/2 = 2.57 Area 0.005 -z 1-a/2 = -2.57 Area 0.005 - Dalla simmetria della normale standard N S osservando il grafico si ha

68 = probabilità che la media incognita vera u si trovi nell’intervallo INTERVALLO DI CONFIDENZA PER LA MEDIA AL 99% (1-a)*100 % Il Teorema del limite centrale e stime per intervalli Il TCL risultato precedente può essere usato così Il Teorema del limite centrale e stime per intervalli

69 INTERVALLIDI CONFIDENZA PER LA MEDIA esempio determinare un intervallo fiduciario per la media di una variabile casuale X con distribuzione normale (media incognita, deviazione standard =3) usando il seguente campione casuale Teor. centrale ha distribuzione normale, con media 0 e var 1 Il Teorema del limite centrale e stime per intervalli

70 non dipende dal parametro incognito E [ X ] si può calcolare la probabilità che Z assuma un valore compreso tra due numeri scelti arbitrariamente INTERVALLIDI CONFIDENZA PER LA MEDIA Il Teorema del limite centrale e stime per intervalli

71 per es. INTERVALLIDI CONFIDENZA PER LA MEDIA Il Teorema del limite centrale e stime per intervalli

72 per es. INTERVALLIDI CONFIDENZA PER LA MEDIA Il Teorema del limite centrale e stime per intervalli

73 intervalli fiduciari del 95% INTERVALLIDI CONFIDENZA PER LA MEDIA Il Teorema del limite centrale e stime per intervalli per es.

74 l’intervallo (-0.24, 5.64) è il valore dell’intervallo casuale quando M 4 =2.7 La probabilità che l’intervallo casuale contenga la media incognita E [ X ] è 0.95 Il Teorema del limite centrale e stime per intervalli


Scaricare ppt "1 Cosa vuol dire fare statistica ? La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di fenomeni collettivi. “il profitto."

Presentazioni simili


Annunci Google