La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Introduzione all’inferenza statistica

Presentazioni simili


Presentazione sul tema: "Introduzione all’inferenza statistica"— Transcript della presentazione:

1 Introduzione all’inferenza statistica
Strumenti statistici per le ricerche di mercato e la customer satisfaction Parte prima Introduzione all’inferenza statistica di Antonio Mussino Grazie Presidente, devo ringraziare gli Organizzatori per l’onore che mi hanno fatto affidandomi la prima relazione di questa giornata; è un onore, ma è anche un piacere essere qui in questa sala dove 18 anni fa tenevo la mia prima relazione sul ruolo della Statistica sociale per lo sport. Ricordo con affetto di quella giornata Nicola Candeloro e Alberto Madella. Molta strada è stata fatta e oggi è per affrontare un tema come quello proposto in questo Convegno si pensa a dare un quadro di riferimento informativo sul quale impostare e contestualizzare le analisi. È per questo che ho dato questo titolo alla mia relazione. 1

2 Premessa E’ sempre più diffuso il ricorso all’informazione quantitativa nel mondo della comunicazione, sia pubblica e istituzionale che privata e imprenditoriale. Questa informazione, in particolare nell’ambito delle analisi dei comportamenti di consumo, si basa quasi esclusivamente su risultati di indagini campionarie e quindi su risultati che vengono generalizzati utilizzando, propriamente o (ahinoi!) impropriamente, l’inferenza statistica. In realtà la domanda cui forse bisognava dare una risposta in termini di quantificazione è nel sottotitolo del Convegno. Purtroppo non è facile dare una risposta scientificamente argomentata a questa precisa domanda, perché pochi sono gli studi sul ritorno, in termini di diffusione della partecipazione, dell’investimento fatto per organizzare un grande evento. Molti studi e ricerche, anche a livello internazionale, sono promossi prima dell’evento; poco diffusa è la valutazione degli effetti dell’evento stesso e prevalentemente orientata all’analisi dell’impatto mediatico e di quello economico. Mi permetterò alla fine una proposta perché questa volta si batta una strada diversa.

3 Le informazioni È, pertanto, fondamentale che Voi sappiate leggere e interpretare report contenenti informazioni statistiche, ma anche contribuire a comunicare queste informazioni in modo adeguato. Non è, in genere, necessario che sappiate applicare i metodi statistici, anche per la diffusione ormai capillare di software user oriented che elaborano facilmente l’informazione, ma certamente dovete sapere quale input è stato dato al software e, di conseguenza, comprendere e interpretare l’output fornito. Parlando di impatto mediatico possiamo dire che questo influenza sicuramente le scelte degli sportivi, in particolare dei più giovani, orientando verso la pratica di una disciplina piuttosto che di un’altra. Questo impatto è forte, soprattutto, se gli atleti azzurri hanno vinto o ottenuto buoni risultati. Questo avviene, peraltro, anche se l’evento è organizzato in un altro Paese.

4 Le definizioni base In un’indagine in cui si utilizza il metodo statistico vi sono due punti di riferimento chiave: le unità statistiche sulle quali si raccolgono le informazioni e i caratteri che costituiscono le informazioni stesse. L’insieme delle unità statistiche (consumatori, elettori, cittadini) è definito genericamente collettivo; se il collettivo è esaustivo, ossia vi sono incluse tutte le unità statistiche sulle quali vogliamo raccogliere le informazioni, allora lo definiamo popolazione; se, al contrario, solo una parte, in genere piccola, delle unità del collettivo è coinvolta nell’indagine, allora lo definiamo campione. Io torno alla domanda chiave. Certo le esperienze di grandi eventi organizzati nel nostro Paese sono o troppo lontane nel tempo, o troppo vicine perché possano esserne monitorate le conseguenze di largo respiro. È emblematico il caso delle Olimpiadi invernali di Torino 2006, che hanno avuto grande successo e grande impatto mediatico e anche un effetto di trascinamento per le Universiadi invernali del 2007, ma il cui contributo in termini di diffusione della partecipazione è misurabile solo a partire dall’inverno 2007. A tale proposito gli unici dati di riferimento utilizzabili per un primo grossolano approccio a cosa è successo della partecipazione di tutti i cittadini è il seguente….

5 Variabili I caratteri che costituiscono le informazioni devono assumere valori diversi nelle unità del collettivo; se tutte le unità presentano lo stesso valore il metodo statistico non serve; possiamo dire che la statistica studia la variabilità dell’informazione: pertanto risulta più facile definire le informazioni come variabili. Queste possono essere anche molte in un’indagine: nel caso se ne studi una sola alla volta parleremo di statistica univariata; nel caso si studino le relazioni fra due variabili di statistica bivariata; nel caso intervengano più variabili di statistica multivariata. In questo corso ci limiteremo a studiare l’inferenza nel caso univariato e in uno specifico caso di relazione fra due variabili. Io torno alla domanda chiave. Certo le esperienze di grandi eventi organizzati nel nostro Paese sono o troppo lontane nel tempo, o troppo vicine perché possano esserne monitorate le conseguenze di largo respiro. È emblematico il caso delle Olimpiadi invernali di Torino 2006, che hanno avuto grande successo e grande impatto mediatico e anche un effetto di trascinamento per le Universiadi invernali del 2007, ma il cui contributo in termini di diffusione della partecipazione è misurabile solo a partire dall’inverno 2007. A tale proposito gli unici dati di riferimento utilizzabili per un primo grossolano approccio a cosa è successo della partecipazione di tutti i cittadini è il seguente…. 5

6 Le “statistiche” Prima di poter applicare la statistica inferenziale è necessario calcolare le “statistiche” nel campione: in questo caso parleremo di statistica descrittiva; i suoi metodi coincidono con quelli che applicheremmo a un generico collettivo, quindi anche a una popolazione. Anche se questa è una risposta ripeto grossolana e molto parziale alla domanda chiave Dalle Olimpiadi (INVERNO 2006) alle ultime rilevazioni Istat del 2008 il Piemonte, sede dell’evento, ha visto un incremento nel numero di coloro che praticano sport con continuità, con regolarità del 14%, doppio di quello italiano e comunque significativamente più alto di quello del Nord d’Italia. Contemporaneamente il numero dei sedentari è diminuito qui del 6% a fronte di un calo del 5% nel Nord e appena dell’1% nella media italiana. La risposta è parziale perché nessuno può associare direttamente questi risultati positivi all’impatto del grande evento, non conoscendo neppure quali siano gli sport che hanno contribuito maggiormente a questa crescita, poi vedremo perché. È comunque un piccolo positivo contributo al dibattito, magari Pierpaolo Maza ci dirà se a livello locale loro hanno fatto qualcosa.

7 Ancora le variabili Qualunque carattere misurato sulle unità statistiche di un collettivo e che assume in tale ambito diversi valori è definibile variabile. Per registrare i diversi valori di una variabile, che possiamo definire genericamente determinazioni, possiamo utilizzare diverse scale di misurazione: così per la variabile “sport praticato” i diversi valori sono esprimibili mediante etichette, quali Atletica, Baseball, Calcio, Ginnastica, Nuoto e così via; per la variabile “tempo nei 100 metri piani” i diversi valori sono esprimibili in secondi e decimi di secondo. Entro ora nel cuore della relazione tentando di descrivere le attuali dinamiche della partecipazione sportiva nel nostro Paese, evidenziandone le criticità e le potenzialità Lascio tale quadro di riferimento ai colleghi e ai politici per ipotizzare quale possa essere l’impatto di un grande evento come i Mondiali di Nuoto a Roma del 2009.

8 Quantitative e qualitative
Così appare subito evidente che alcune variabili possono assumere come valori le categorie, altre i numeri. Una variabile è definita quantitativa quando le sue determinazioni sono numeri: questi possono essere interi (n. fratelli, età in anni compiuti) o vere e proprie misure (tempo nei cento m. piani, peso). È definita qualitativa quando le sue determinazioni sono categorie, esprimibili tramite codici alfanumerici; per lo sport possono essere: 01 calcio, 02 baseball, 03 pallavolo e così via; per lo stato civile: 1 coniugato, 2 vedovo, 3 separato, 4 divorziato, 5 single). Intanto bisogna avere chiaro cosa si intende misurare, per esempio come definire uno sportivo e quale sia la pratica sportiva di tutti (lo sportpertutti), ma anche recuperare l’attività fisica e motoria dei cittadini, utile comunque a caratterizzare uno stile di vita attivo e non sedentario.

9 Variabili qualitative ordinabili
Una attenzione particolare va posta nel caso qualitativo quando le categorie sono naturalmente ordinabili; ad esempio la pratica religiosa può essere espressa tramite la frequenza alla messa domenicale: se vengono contate le domeniche in un anno in cui l’intervistato va a messa abbiamo una variabile quantitativa; se la frequenza viene raggruppata in categorie (1 - tutte le settimane, 2 - almeno una domenica al mese, 3 - più raramente, 4 - mai) allora la variabile è qualitativa, ma in questo caso le categorie hanno una gerarchia di importanza e la variabile è definita qualitativa ordinabile. È importante rifuggire da slogan generici, che in questi giorni sono stati ampiamente diffusi, basandosi più su impressioni che su informazioni scientificamente valide e affidabili e cercare di capire le cause effettive delle dinamiche osservate e, a tal proposito, è necessario basarsi su dati di indagini che abbiano coinvolto un numero di cittadini sufficiente a poter descrivere i differenti comportamenti per genere, età, ripartizione territoriale, dimensione del comune di residenza e così via.

10 In sintesi La distinzione fra variabili quantitative, qualitative ordinabili e qualitative non ordinabili è importante, perché le statistiche che permettono la sintesi delle loro distribuzioni sono diverse nei tre casi. I dati utilizzabili sono di due tipi I dati Coni (amministrativi) ,validi per misurare la pratica sportiva organizzata nelle strutture federali (FSN e DSA). I dati di indagine (survey) sono validi per misurare tutta la pratica di sport e attività fisico motorie, organizzata e non, ossia lo sport di tutti, ma solo quelli dell’Istat hanno la numerosità campionaria sufficiente per poter rispondere alle nostre esigenze conoscitive

11 Un caso particolare Spesso nelle indagini di marketing ci troviamo di fronte a variabili qualitative ordinabili, espresse mediante una codifica numerica; ad esempio, la variabile è la risposta alla domanda “Che giudizio dà del servizio di prestito interbibliotecario?”: le categorie sono: 1 - per niente gradito, 2 - poco gradito, 3 - abbastanza gradito, 4 - molto gradito (una scala Likert con numero pari di alternative). In questo caso la variabile può essere trattata più propriamente come una qualitativa ordinabile, ma spesso risulta comodo utilizzare i codici numerici come veri e propri numeri e trattarla come quantitativa. Una breve presentazione di queste indagini: non sono dell’Istat, anzi qualche volta sono entrato in conflitto per alcune modalità di rilevazione con questo Ente, per cui considerate con attenzione questo riconoscimento della valenza di queste rilevazioni Il sistema delle Indagini Multiscopo prevede la realizzazione di un’indagine annuale su argomenti di carattere generale (“Aspetti della vita quotidiana”) e di altre indagini tematiche di approfondimento con cadenza (quasi) quinquennale, delle quali ci interessa quella che analizza la pratica sportiva (“I cittadini e il tempo libero”). Così abbiamo tre indagini tematiche (1995, 2000 e 2006) con un’analisi accurata della partecipazione sportiva e nove indagini annuali (1997, 1998, 1999, 2001, 2002, 2003, 2005, 2007 e 2008) che riprendono parzialmente il tema con quattro quesiti. 11

12 Che fare? La scelta è sempre molto rischiosa, perché corrisponde a un trattamento dell’informazione nel quale la distanza fra per niente gradito e poco gradito dovrebbe essere la stessa di quella che c’è fra poco gradito e abbastanza gradito, o, ancora, molto gradito dovrebbe valere quattro volte per niente gradito e così via, ma spesso viene fatta per la comodità delle sintesi che si ottengono. Una breve presentazione di queste indagini: non sono dell’Istat, anzi qualche volta sono entrato in conflitto per alcune modalità di rilevazione con questo Ente, per cui considerate con attenzione questo riconoscimento della valenza di queste rilevazioni Il sistema delle Indagini Multiscopo prevede la realizzazione di un’indagine annuale su argomenti di carattere generale (“Aspetti della vita quotidiana”) e di altre indagini tematiche di approfondimento con cadenza (quasi) quinquennale, delle quali ci interessa quella che analizza la pratica sportiva (“I cittadini e il tempo libero”). Così abbiamo tre indagini tematiche (1995, 2000 e 2006) con un’analisi accurata della partecipazione sportiva e nove indagini annuali (1997, 1998, 1999, 2001, 2002, 2003, 2005, 2007 e 2008) che riprendono parzialmente il tema con quattro quesiti. 12

13 Il campionamento Si è visto che con l’inferenza statistica si usano le statistiche ottenute in un campione per fare previsioni (stimare) su quelle corrispondenti nella popolazione, che chiamiamo parametri: ma quanto sono valide queste previsioni? Spesso si sente dire, nell’ambito della ricerca sociale, che sono tanto più valide quanto più il campione è rappresentativo della popolazione da cui è stato estratto: si tratta di una affermazione errata e paradossale, perché se potessi verificare la rappresentatività della popolazione da parte del campione, rispetto ai parametri che sto stimando, vorrebbe dire che conosco già le caratteristiche di tali parametri e quindi il campionamento è inutile! Ci portano a una classificazione più efficace (RMori). gli sportivi, ossia coloro che “praticano sport in modo continuativo”; i fisicamente attivi, ossia coloro che “praticano sport in modo saltuario” e coloro che “praticano solo qualche attività fisica”; i sedentari, ossia coloro che “non praticano alcuna attività”. 13

14 Campioni non probabilistici
In realtà la rappresentatività può essere controllata rispetto ad altre variabili che non sono in gioco nell’indagine, ad esempio nella composizione per età e sesso, come si fa nel campionamento per quote, o nel campionamento ragionato: queste sono due modalità di campionamento che definiamo non probabilistiche. L’Istat ci dice che nel 2008 l’impatto complessivo della partecipazione è di oltre 12 milioni di sportivi sulla popolazione dai tre anni in poi ( ); sono oltre 21 milioni i fisicamente attivi ( ); Sono ben oltre 23 milioni i sedentari, ossia coloro che hanno uno stile di vita non attivo ( ). 14

15 Campioni probabilistici
Tornando alla domanda precedente, ad essa si può dare risposta solo se il campionamento è probabilistico, ossia se la scelta delle unità della popolazione da inserire nel campione è fatta con una procedura casuale (randomization). Se il campione è scelto in tal modo sarà possibile misurare l’errore che si commette nella stima del parametro della popolazione, ossia quando si fanno le previsioni, partendo dalle statistiche campionarie. Il fattore culturale ha permesso alla tipologia degli sportivi di consolidarsi: infatti oltre alla crescita evidenziata dai dati amministrativi delle FSN, che hanno visto un incremento significativo dal 1997 al 2007 (+20%) oggi inseriamo in questo gruppo anche chi fa “yoga” o “ballo, danza”, cosa impensabile, sia per l’organizzazione sportiva, sia per l’Istat solo 10 anni fa! È comunque il fattore demografico ad essere decisivo! Per introdurlo vediamo come esempio un interessante grafico relativo ai tassi di pratica continuativa per genere ed età tra il 2000 e il 2006. 15

16 Campioni casuali: con e senza reintroduzione
Un campione è casuale semplice, se ogni unità della popolazione ha una uguale possibilità di esservi inserita, ovvero di essere scelta. Questa scelta è ben rappresentata da una estrazione di più palline da un’urna contenente tante palline quante sono le unità della popolazione (e contraddistinte da un codice identificativo): se la pallina è estratta e reinserita nell’urna prima della successiva estrazione si parla di campionamento con reintroduzione; se non viene reinserita oppure (è la stessa cosa!) le palline che faranno parte del campione sono estratte in blocco, allora si parla di campionamento senza reintroduzione. Evidentemente la domanda sta cambiando e richiede una diversa offerta non tradizionale: da un lato spazi legati alla vita quotidiana (ufficio, scuola, università), al chiuso, che devono essere capillarmente diffusi, ben attrezzati e disponibili in qualsiasi orario; dall’altra spazi attrezzati all’aperto, piste ciclabili, percorsi protetti per correre (percorsi vita). 16

17 Altre strategie probabilistiche e non
La procedura di campionamento casuale può essere più articolata, e allora si parla di campionamento casuale stratificato, di campionamento a grappoli, di campionamento sistematico, oppure di campionamento casuale a più stadi e così via.

18 (segue) In questi casi il processo di inferenza è molto complesso, mentre a noi interessa comprenderne la logica, quindi limiteremo lo studio delle stime al campionamento casuale semplice, lasciando a testi più completi la descrizione della effettiva strategia di campionamento: ad esempio nelle indagini campionarie dell’Istat il disegno di campionamento è molto complesso, a più stadi stratificati, ed è descritto accuratamente nelle note metodologiche al momento della pubblicazione dei risultati.

19 Esempio Solo alcuni cenni alle procedure che differenziano le principali strategie di campionamento: quello stratificato e quello a grappoli, mentre il campionamento a più stadi si basa su diverse fasi nelle quali le unità da campionare nei vari stadi sono via, via aggregazioni sempre più complesse (ad esempio: municipi, scuole, sezioni, classi, alunni) e in ogni stadio si sceglie una procedura stratificata o a grappoli o semplice (vedi Esercitazione n.1).

20 (segue) Nel campionamento stratificato la popolazione viene divisa in gruppi distinti, chiamati strati (ad esempio maschi e femmine, le classi di una scuola, i municipi di una città e così via) e in ogni strato viene effettuato un campionamento casuale semplice. Nel campionamento a grappoli la popolazione viene suddivisa in gruppi distinti, chiamati grappoli (in genere molto più numerosi degli strati) e in ogni grappolo sono prese tutte le unità.

21 (segue) Ad esempio in una scuola, volendo campionare studenti delle prime classi, si può suddividere la popolazione per sezioni e prendere un campioni di alunni in ogni prima, oppure prendere un numero ridotto di prime (almeno due) nelle quali tutti gli studenti entrano nel campione.

22 (segue) La prima scelta è preferibile se si ipotizza che le sezioni abbiano una composizione differente, la seconda se, al contrario, esse ne hanno una omogenea: in un’indagine sulla pratica di attività fisico motorie, ipotizzando che i compagni di classe siano anche compagni nelle attività ludiche e sportive, sarebbe preferibile un campionamento a strati; in un test sulle abilità logico matematiche, invece, potrebbe essere più facile coinvolgere solo due o tre classi e somministrarvi il test a tutti gli alunni.

23 Come effettuare una scelta aleatoria?
Ci si può chiedere come garantire che la scelta delle unità campionarie sia effettivamente casuale, visto che non appare fattibile l’estrazione da un’urna contenente di palline, corrispondenti agli elettori residenti nel Lazio, di un campione di palline, ovvero di elettori laziali per fare una previsione su quale sarà, ad esempio, il prossimo Presidente della Regione.

24 Tavole dei numeri aleatori?
Se si dispone di liste di riferimento (quelle anagrafiche di tutti i comuni del Lazio), si può assegnare a ciascun elettore un numero in sequenza, poi si possono usare le Tavole dei numeri casuali (aleatori), nella loro versione informatizzata, ossia generati da un computer secondo un algoritmo in grado di assicurare che ognuna delle cifre da 0 a 9 abbia la stessa possibilità di essere inserita nelle tavole e che la sua scelta sia indipendente da quella delle cifre inserite precedentemente.

25 Numeri aleatori Se abbiamo bisogno di scegliere tra di elettori, avremo bisogno di considerare stringhe di sette delle cifre generate dal software, associando ogni stringa al corrispondente numero sulla lista dei cittadini e, eventualmente riutilizzando i numeri da a , ricominciando da capo, ossia sottraendo a questi In questo caso il campionamento può essere teoricamente considerato con ripetizione, in quanto la stessa stringa può essere generata più volte, anche se si tratta di un evento rarissimo! Per un’applicazione operativa delle Tavole dei numeri aleatori si può fare riferimento all’Esercitazione n.2. 25


Scaricare ppt "Introduzione all’inferenza statistica"

Presentazioni simili


Annunci Google