ESERCITAZIONE RIEPILOGO di Statistica Descrittiva
ESERCITAZIONE MISURE DI TENDENZA CENTRALE
Livello di istruzione dei titolari attuali Numero di titolari Il Monte dei Paschi di Siena vuole fare una propaganda mirata per emettere più carte di credito ricaricabili. Se la banca dispone delle seguenti informazioni su quale gruppo di individui sicuramente avrà più presa se fa una propaganda mirata? Livello di istruzione dei titolari attuali Numero di titolari Licenza elementare 100 Licenza media 150 Licenza media superiore 250 laurea 400 Il carattere è qualitativo ordinale posso calcolare la mediana
Fj Nj Livello di istruzione dei titolari attuali Numero di titolari Licenza elementare 100 0.11 Licenza media 150 250 0.28 Licenza media superiore 500 0.56 laurea 400 900 1.00 Me=licenza media inferiore Il carattere è qualitativo ordinale la miglior misura di tendenza centrale è la mediana. La banca potrebbe decidere di fare una pubblicità target su coloro che hanno titolo minore o uguale alla Mediana cioè la licenza media superiore.
TV 54,8% Stampa 28,7% Radio 5,9% Internet 2,5% altro 8,1% TV 31,9% Supponiamo di aver letto sui giornali le seguenti informazioni sulla % di pubblicità che viene effettuata Italia e in Germania. TV 54,8% Stampa 28,7% Radio 5,9% Internet 2,5% altro 8,1% TV 31,9% Stampa 51,9% Radio 4,8% Internet 4,5% altro 6,9% Con quale misura di tendenza centrale potremmo sintetizzare l’informazione?
I dati riportati sono le quotazioni di un titolo in borsa rilevati negli ultimi cinque mesi: 2.5, 1.8, 3, 2.6, 4 Se il valore 2.6 fosse erroneamente trascritto come 26 quale sarebbe l'effetto sulle seguenti misure di tendenza centrale e perché? a) Un incremento della media aritmetica. b) Un incremento della mediana. c) Un incremento della moda.
La seguente tabella riporta il numero di rimorchiatori osservati in 10 giorni nel porto di Napoli. a)In media nel porto ci sono più rimorchiatori nei primi 5 giorni o nei restanti 5?
Alla sede centrale delle poste di Firenze si rilevano i tempi di attesa per usufruire del servizio su cinque clienti. 50 30 25 15 10 Entra un nuovo cliente che ha molta fretta e domanda all’impiegato quanto più o meno deve attendere in fila. L’impiegato risponde non più di 10 minuti. Valutare tale risposta sulla base dei dati a disposizione. Se fosse attendibile l’affermazione dell’impiegato dovrei osservare una media dei tempi di attesa inferiore o al massimo uguale a 10. Uno sguardo ai dati fa capire che tale affermazione è completamente arbitraria, perché?
Supponiamo che un ricercatore sia interessato a valutare se la distanza tra il valore aggiunto pro-capite delle aziende più ricche e di quelle più povere sia sostanzialmente diverso tra Sicilia e Piemonte sulla base delle seguenti informazioni.
SICILIA: Q3/Q1=50/32=1,56 PIEMONTE: Q3/Q1=43/23=1,89 C’è più distanza tra i valori aggiunti in Piemonte che in Sicilia v.a. Fi 25 0,125 32 0,25 43 0,375 48 0,5 49 0,625 50 0,75 64 0,875 81 1 v.a. Fi 20 0,125 23 0,25 26 0,375 28 0,5 29 0,625 43 0,75 48 0,875 80 1
Esercizi vari
I valori standardizzati Se il carattere quantitativo X ha media µ e deviazione standard σ allora è possibile sempre ottenere i suoi valori standardizzati i=1…n La distribuzione del carattere Y avrà allora media zero e deviazione standard uguale ad 1
esempio Supponiamo di aver osservato i seguenti valori 2, 4, 5, 5 , 6, 8, 10, 12, 18, 20 µ=9 σ =5.73 I valori standardizzati saranno dati da: y1=(2-9)/5,73=-1.22 y2=(4-9)/5,73=-0.35 ecc..
L’andamento dei consumi e dei redditi in USA negli anni (1921-1942) Caso di studio L’andamento dei consumi e dei redditi in USA negli anni (1921-1942) Un ricercatore vuole studiare l’andamento dei consumi e dei redditi in USA negli anni 1921-1942. Ha a disposizione la seguente serie storica dei consumi e redditi in USA dal 1921 al 1942.
Sviluppare lo studio del ricercatore Sviluppare lo studio del ricercatore. Tenendo presente che le domande a cui vuole rispondere sono le seguenti: la media del consumo di quanto è inferiore a quella del reddito? la serie dei consumi e dei redditi presentano la stessa variabilità? a quanto ammontano le mediane del consumo e del reddito?
Analisi del caso di studio: SINTESI DEI RISULTATI La media del consumo è 53.22 dollari Quella del reddito è di 57.66 dollari La deviazione standard è 7.39 e 10.94 La mediana è 52.7 e 57.75 Allora possiamo dire che il reddito medio è in genere più alto che il consumo medio. La variabilità del reddito rispetto alla media sembra più alto CV(consumo)=53.22/7.40=0.13 CV(reddito)=57.66/10.94=0.18 In conclusione la variabilità del reddito è più alta di quella del consumo
I consumi e i redditi hanno un andamento crescente per i primi 10 anni I consumi e i redditi hanno un andamento crescente per i primi 10 anni. Intorno agli anni ’30 (recessione) cominciano a decrescere per poi risalire inseguito
a) Determinare la moda e la mediana. Esercizio Si consideri la distribuzione degli alunni della scuola secondaria di primo grado per giudizio riportato all’esame di Stato nell’Anno scolastico 2006/07 in Italia (dati Istat) Giudizio Licenziati Sufficiente 37,1 Buono 26,4 Distinto 19,2 Ottimo 17,3 100,0 a) Determinare la moda e la mediana. b) Misurare l’eterogeneità della distribuzione 19
Si tratta di una distribuzione percentuale Fj fj Giudizio Licenziati Sufficiente 37,1 0,371 Buono 26,4 0,264 0,635 Distinto 19,2 0,192 0,827 Ottimo 17,3 0,173 1 100,0 1,000 fj La moda, ossia la modalità più frequente, è sufficiente Per il calcolo della mediana sulla colonna delle frequenze relative cumulate si individua la prima Fj che è uguale o maggiore di 0,5 La mediana è Buono 20
b) Eterogeneità della distribuzione Giudizio Licenziati Sufficiente 37,1 0,371 0,1376 Buono 26,4 0,264 0,0697 Distinto 19,2 0,192 0,0369 Ottimo 17,3 0,173 0,0299 100,0 1,000 0,2741 fj f2j 21
Rappresentare graficamente la distribuzione Determinare la moda Esercizio Si consideri la seguente distribuzione di 100 imprese per classi di fatturato: Classi di fatturato (migliaia di euro) N. imprese (0-20] 30 (20-50] 50 (50-100] 20 Totale 100 Rappresentare graficamente la distribuzione Determinare la moda 22
a) Costruzione dell’istogramma. Le classi hanno diversa ampiezza. E’ necessario calcolare la densità di frequenza Classi di fatturato (migliaia di euro) nj Ampiezza classe (aj) Densità di freq (hj) 0-20 30 20 1,5 20-50 50 1,67 50-100 0,4 Totale 100 b) La classe modale è quella che ha la densità di frequenza maggiore. Quindi la classe modale è 20-50 23
ISTOGRAMMA 24