La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Seconda parte Strumenti statistici per le ricerche di.

Presentazioni simili


Presentazione sul tema: "1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Seconda parte Strumenti statistici per le ricerche di."— Transcript della presentazione:

1 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Seconda parte antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la customer satisfaction

2 2 Errori campionari e non campionari zConsideriamo un semplice caso di studio: vogliamo sapere quale percentuale (tecnicamente vogliamo sapere quale proporzione, ossia frequenza relativa, ma è più comodo ragionare in termini di percentuali, ottenute moltiplicando per 100 le frequenze relative) di cittadini dai 15 anni in poi che frequentano le biblioteche afferenti allente Biblioteche di Roma si sia a questo iscritto acquistando una bibliocard.

3 3 (segue) zPer conoscere questa percentuale dovremmo monitorare tutti gli ingressi in un periodo di tempo piuttosto lungo, ad esempio un anno (questa è la durata della tessera), depurarli di quelli multipli, contare le bibliocard emesse e quelle rinnovate e poi calcolarne la frequenza assoluta e poi la percentuale: dovremmo fare un censimento, che come si può facilmente valutare è unimpresa quasi impossibile, oltre che molto onerosa.

4 4 Stima proporzione - 1 zLinferenza statistica ci viene in aiuto: se estraiamo in modo casuale un campione di 2500 cittadini che sono entrati in una delle biblioteche nellanno in questione, sempre depurandoli dagli ingressi multipli, e chiediamo se possiedano o meno la bibliocard potremo utilizzare la percentuale calcolata in questo campione per effettuare una stima di quella della popolazione. Questa ultima sarà pari a quella del campione più o meno un certo ammontare, ossia: zp – ε π p + ε(1) zdove p è la proporzione campionaria, π quella della popolazione ed ε lerrore che si commette.

5 5 Stima proporzione - 2 zNel nostro caso potrebbe essere: z0,65 – 0,03 π 0,65 + 0,03(2) zOssia la percentuale di possessori di bibliocard nella popolazione di riferimento sarà compresa fra il 62% e il 68%! Ma questo vale solo e soltanto se il campione è estratto in modo casuale (secondo la definizione precedentemente data) dalla popolazione.

6 6 Una soluzione zVediamo subito che, in questo caso, la popolazione è incognita, ossia non possediamo una lista con tutte le unità che la compongono: non è così possibile né simulare una estrazione dallurna, né usare le tavole dei numeri aleatori! zUtilizzeremo un altro approccio, che ci deve comunque garantire il fatto che tutti gli utenti possano essere scelti per far parte del campione (Esercitazione n.3); in questo caso appare evidente come un campionamento casuale semplice possa creare alcuni problemi: qui può essere utile usarne uno stratificato, che tenga conto delle differenze fra biblioteche, oppure della stagionalità della frequenza.

7 7 (segue) zSe il campione è casuale, linferenza statistica ci permette di misurare con accuratezza lerrore della stima (ε), che sarà più o meno grande a seconda della numerosità del campione e della variabilità del carattere studiato (possesso della bibliocard).

8 8 Errori non campionari zMa gli errori che si commettono nel calcolare la percentuale che cerchiamo sono anche di altra natura e possono essere commessi sia in una rilevazione totale (censimento), sia in una parziale (campionamento casuale), ma anche in un campionamento non casuale: ad esempio non depurare, per mancanza di controlli, gli ingressi multipli, oppure considerare come tessere anche la bibliopass (che permette laccesso al prestito, ma non a internet e non è onerosa), le mancate registrazioni o le mancate risposte degli intervistati che non vogliono partecipare alla rilevazione e così via.

9 9 (segue) zQuesti altri errori (non campionari) non sono misurabili e portano quasi sempre a distorsioni sistematiche nel calcolo del parametro che cerchiamo di misurare. zRisulta quindi evidente che laccuratezza nella registrazione delle informazioni che si può avere quando si considerano solo 2500 casi è ben superiore a quella ottenibile in una rilevazione con decine di migliaia di unità: pertanto laggiunta di un ulteriore errore, quello campionario, che (ripetiamo!) è misurabile, compensa adeguatamente il fatto di considerare solo un numero ridotto di casi con impegno economico, temporale ridotto e con un controllo nellaccuratezza della rilevazione più alto.

10 10 La sintesi di una variabile zSi è già detto che i metodi della statistica descrittiva hanno come obiettivo la descrizione e la sintesi di una variabile: essi si applicano alle popolazioni, ma anche ai campioni e, in questo secondo caso, sono il prerequisito per poter poi inferire i parametri incogniti di una popolazione partendo dai valori ottenuti in un campione. zPer ogni variabile la prima operazione statistica è quella del conteggio: il risultato è però diverso per variabili qualitative, che in genere hanno un numero di alternative ridotto, e quelle quantitative, specialmente quando queste sono delle vere e proprie misure e sono, pertanto, rappresentate da numeri reali.

11 11 ( segue ) zConsideriamo dapprima il caso delle variabili qualitative e delle loro determinazioni, le categorie: si elencano le categorie e si contano quante unità presentano quella categoria: ad esempio, nella ricerca sulle biblioteche, alla richiesta sulle modalità di iscrizione, le risposte sono: tessera bibliocard, tessera bibliopass, nessuna tessera; queste categorie sono esaustive delle possibili risposte. Se contiamo le risposte avremo la seguente tabella, che ci fornisce una prima sintesi della distribuzione nel campione di 2557 intervistati.

12 12 Tessera posseduta Frequenza AssolutaPercentualePercentuale Valida Percentuale Cumulata Bibliocard 161163,0 *** Bibliopass 70227,5 *** Nessuna 2449,5 *** Totale 2557100,0 *** NB La percentuale è la frequenza relativa (frequenza assoluta diviso totale) per 100.

13 13 (segue) zSe consideriamo un'altra tabella, osserviamo come vi siano altre due informazioni di sintesi utili, che non avevano senso nella precedente, ossia: la percentuale valida, che è calcolata non su tutte le risposte, ma su quelle valide, ossia togliendo i 7 intervistati che non avevano voluto rispondere a questa domanda; lapercentuale cumulata che somma le categorie di risposta fino la livello di riferimento, ossia 11,1% corrisponde a un titolo di studio fino alla media inferiore, 60,9% fino alla media superiore, 100% ovviamente fino al massimo raggiungibile.

14 14 (segue) zLa percentuale cumulata si può calcolare in questo caso perché la variabile in questione è qualitativa ordinabile, ossia la seconda modalità è gerarchicamente superiore alla prima e la terza alla seconda, al contrario di quanto accade per le modalità di tesseramento.

15 15 Titolo di studio aggregato Frequenza assolutaPercentualePercentuale Valida Percentuale Cumulata Fino media inf 28211,011,1 Media sup 127149,749,860,9 Università 99739,039,1100,0 Totale 255099,7100,0 Mancante 70,3 Totale 2557100,0

16 16 …. zSe dobbiamo sintetizzare la distribuzione di una variabile quantitativa, ci possiamo trovare con maggiori difficoltà, in quanto (specialmente se stiamo considerando una misura) ogni unità potrebbe avere una misura diversa e quindi avere 2557 categorie diverse: pensate al peso degli intervistati espresso in grammi.

17 17 …. zIl problema è risolto nella seguente tabella, nella quale la variabile età, che in realtà è una variabile continua ed è rilevata come quantitativa discreta (anni compiuti), viene registrata con categorie corrispondenti a classi ottenute aggregando i valori interi rilevati. In questo caso le classi hanno ampiezze diverse per rispondere a criteri di analisi socio demografici, mentre potrebbe risultare più comodo avere categorie che riproducono la stessa ampiezza (ad esempio quinquennali o decennali).

18 18 …. zLimportante è che le classi così formate siano mutuamente esclusive, ossia ogni valore osservato deve essere incluso senza ambiguità in una e una sola categoria. La nuova variabile non può più essere trattata come quantitativa, ma come qualitativa ordinabile, essendo automatica una gerarchia delle categorie. Sono presenti anche mancate risposte e quindi tutte le colonne della tabella propongono chiavi di lettura e di sintesi della variabile stessa.

19 19 classe eta FrequencyPercentValid Percent Cumulative Percent Valid15-18 anni 1184,64,7 19-24 anni 67526,427,031,7 25-34 anni 57622,523,054,7 35-44 anni 44817,517,972,6 45-54 anni 32212,612,985,5 55-64 anni 1716,76,892,3 64 anni e piu 1937,57,7100,0 Total 250397,9100,0 Missing0 542,1 Total 2557100,0

20 20 …. zIn sintesi le distribuzioni delle tre variabili considerate, i cui valori sono stati registrati su 2557 unità, sono state sintetizzate con un numero ridotto di categorie, rispetto alle quali sono state calcolate alcune statistiche: la frequenza assoluta (il conteggio), la frequenza relativa (non utile a fini descrittivi, ma fondamentale per la fase inferenziale), la percentuale (calcolata su tutte le unità e solo su quelle che hanno risposto, quella valida) e la percentuale cumulata.

21 21 Una sintesi unica? zIl numero di categorie è molto ridotto (da tre a sette), rispetto a 2557, ma potremmo chiederci se non sia possibile sintetizzare la distribuzione con una sola misura, che potremmo chiamare genericamente di tendenza centrale, ossia con un valore che sia al centro della distribuzione.

22 22 …. zLa risposta è negativa per le variabili qualitative non ordinabili, parzialmente positiva per quelle ordinabili e sicuramente positiva per quelle quantitative: nel primo caso potremmo usare la moda (determinazione della variabile che ha la frequenza assoluta più alta); nel secondo la mediana (valore che divide in due parti di ammontare uguale le unità ordinate rispetto alle determinazioni della variabile); nel terzo la media aritmetica (baricentro della distribuzione, ovvero la somma dei valori assunti dalle unità diviso per il numero delle unità, ovvero equi ripartiti su di esse).

23 23 …. zOvviamente la moda e la mediana possono essere calcolate anche per una variabile quantitativa e la moda anche per una qualitativa ordinabile, ma non è possibile calcolare la media aritmetica per le variabili qualitative e la moda per le qualitative non ordinabili.

24 24 …. zLa moda è una sintesi molto rozza, possono essercene anche più di una e non è un centro di una distribuzione qualitativa quando questa non è ordinabile e può non stare al centro quando questa è ordinabile. Non ha, poi, valenza inferenziale e quindi è utile solo se confrontato con gli altri centri per studiare la forma della distribuzione. La mediana è una sintesi molto interessante di una distribuzione, addirittura preferibile alla più nota media aritmetica quando la distribuzione è fortemente asimmetrica o vi sono valori anomali; non ha però una altrettanto diffusa e riconosciuta valenza inferenziale.

25 25 …. zPertanto, quando si voglia effettuare una inferenza su variabili qualitative, si devono usare le frequenze relative (proporzioni, percentuali), ossia inferire il parametro π tramite il valore p calcolato nel campione. Quando si voglia effettuare una inferenza su variabili quantitative, invece, la strategia più efficace è quella di stimare, come sintesi della distribuzione, il parametro µ x tramite la media aritmetica M x calcolata nel campione.

26 26 …. zPossiamo ricordare le due formule chiave per calcolare la media aritmetica nel campione, quella semplice (3) e quella ponderata (4) (da usare per comodità se si conosce la distribuzione delle frequenza relative): zM x =x i /n(3) zM x =x i *p i (4) zove è la somma dei valori x i,con i che va da 1 a n, ze p i = n i /n, con n i frequenza assoluta.

27 27 La variabilità zAbbiamo finora cercato di sintetizzare una distribuzione con un solo centro: un semplice esempio ci mostrerà linsufficienza di quanto fatto. Consideriamo tre diverse distribuzioni della variabile numero di allenamenti settimanali in tre gruppi di atleti: v. tabella che segue.

28 28 Gruppo AGruppo BGruppo C 774 114 764 124 154 734 M x = 4

29 29 …. zLa media aritmetica è uguale nei tre gruppi, ma questa porta a una sintesi univoca di tre situazioni ben diverse: solo nel Gruppo C essa rappresenta perfettamente il comportamento di tutti gli atleti (la variabilità è nulla), negli altri loperazione di sintesi è più o meno efficace (a seconda della diversa variabilità. zÈ quindi necessario, accanto a una misura che rappresenti il centro di una distribuzione, affiancarne unaltra che sintetizzi la sua variabilità (dispersione): questa misura dovrà essere nulla quando la dispersione è nulla e tanto più grande quanto la dispersione aumenta.

30 30 …. zConsideriamo come base per questa strategia i valori (x i -M x ), che chiameremo scarti: se ne calcoliamo la m.a. scopriamo che essa è sempre nulla (per una delle proprietà della media stessa); se li eleviamo al quadrato e ne calcoliamo la media (semplice(5) o ponderata(6)): zs x 2 = (x i - M x ) 2 /n(5) zs x 2 = (x i - M x ) 2 p i (6) zotteniamo una misura della variabilità che ci soddisfa pienamente, e che chiamiamo varianza, ma che non è espressa nella stessa unità di misura della media aritmetica.

31 31 …. zPer ottenere questultimo risultato è quindi sufficiente estrarre la radice quadrata della varianza e avremo lo scarto quadratico medio (o, con una brutta traduzione dallinglese deviazione standard), che sarà la misura della variabilità che assoceremo alla media aritmetica.

32 32 …. zBisogna prestare attenzione al fatto che, quando lo scarto quadratico medio (s.q.m.) è calcolato nel campione per essere utilizzato come stima dellanalogo valore nella popolazione (σ x ), per poter ottenere una stima corretta va moltiplicato per il coefficiente n/(n-1): quindi le formule che si trovano anche nelle calcolatrici scientifiche o nei software più comuni per calcolare s x in un campione sono le seguenti: zs x = ((x i - M x ) 2 /(n-1))(7) zs x =((x i - M x ) 2 *n i /(n-1))(8) zcon (abc) simbolo che indica la radice quadrata di abc.

33 33 …. zAbbiamo così introdotto i tre principali parametri da stimare in una popolazione µ x,σ x e π e le modalità di calcolo dei loro stimatori in un campione (M x,s x e p); dopo aver sviluppato alcuni casi di studio (Esercitazione 4) di distribuzioni empiriche, passeremo nel paragrafo 10 alle distribuzioni teoriche fondamentali per linferenza statistica.

34 34 …. zAbbiamo così introdotto i tre principali parametri da stimare in una popolazione µ x, σ x e π e le modalità di calcolo dei loro stimatori in un campione (M x, s x e p); dopo aver sviluppato alcuni casi di studio (Esercitazione 4) di distribuzioni empiriche, passeremo nel paragrafo 10 alle distribuzioni teoriche fondamentali per linferenza statistica.

35 35 La comparabilità delle variabili zLe misure di sintesi delle variabili ci permettono anche di elaborare i valori di variabili con unità di misura diverse, ma anche con taglia e/o dispersione diverse: ad esempio per comparare diversi valori nelle variabili peso e statura (misurate in kg e in cm), oppure nei tempi impiegati nelle gare dei 100 metri piani e dei 400 metri piani (sempre in secondi).

36 36 La comparabilità delle variabili zLoperazione è definita standardizzazione: data una variabile X, con determinazioni x i, media M x e s.q.m. s, il valore z i = (x i – M x ) / s x zè definito standardizzato (o punteggio z). zQualunque sia la variabile X M z = 0 e s z = 1 zCosì tutte le variabili possono essere trasformate in altre, aventi la stessa unità di misura e la stessa variabilità, con tutti i valori inferiori alla media con segno negativo e superiori con segno positivo.

37 37 …. zpppp

38 38 …. zpppp


Scaricare ppt "1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Seconda parte Strumenti statistici per le ricerche di."

Presentazioni simili


Annunci Google