facoltà di scienze politiche, sociologia, comunicazione statistica esercitazione #5 alessandro polli facoltà di scienze politiche, sociologia, comunicazione 9 maggio 2015
Obiettivi Contesto La PINAPPLE, una startup del settore delle app per smartphone, commissiona ad un istituto di ricerche di mercato un'indagine sul profilo della sua clientela L'istituto, oltre a rilevare la spesa del 2014 per l'acquisto di beni e servizi ICT (Information and Communication Technology) di un collettivo di n = 25 clienti, raccoglie informazioni sul genere, sull'eventuale possesso di un tablet, sul titolo di studio, sul gradimento per i prodotti distribuiti dal gruppo e sul reddito percepito nel 2014 e raccoglie le informazioni di base nel seguente data set
Obiettivi Data set
Obiettivi Task Sulla base delle informazioni contenute nella tabella, misurare: Asimmetria (Indice di Yule-Bowley e 𝛾 1 di Fisher) e curtosi del carattere «spesa annua per acquisto di beni e servizi ICT» Concentrazione del carattere «reddito» Eterogeneità del carattere «titolo di studio» Connessione dei caratteri «genere» e «possesso di un tablet» Connessione dei caratteri «genere» e «titolo di studio» Dipendenza in media del carattere «reddito» dal «genere» Correlazione tra i caratteri «spesa annua per acquisto di beni e servizi ICT» e «reddito»
Esercizio #1 Obiettivo Misurare asimmetria (Yule-Bowley e 𝛾 1 di Fisher) e curtosi ( 𝛾 2 di Fisher) del carattere «spesa annua per acquisto di beni e servizi ICT» Formulario 𝑎 𝑌 = 𝑄 3 − 𝑄 2 − 𝑄 2 − 𝑄 1 𝑄 3 − 𝑄 1 (Indice di asimmetria di Yule-Bowley) 𝛾 1 = 1 𝑁 𝑖=1 𝑛 𝑥 𝑖 −𝜇 𝜎 3 ( 𝛾 1 di Fisher) 𝛾 2 = 1 𝑁 𝑖=1 𝑛 𝑥 𝑖 −𝜇 𝜎 4 −3 ( 𝛾 2 di Fisher)
Esercizio #1 Misure di asimmetria basate sui quartili Approntiamo un prospetto con le elaborazioni utili per calcolare i quartili:
Esercizio #1 Misure di asimmetria basate sui quartili Calcoliamo il valore puntuale dei tre quartili per interpolazione. Per il primo quartile avremo che 𝑄 0,25 =400+400∙ 0,25−0,120 0,400−0,120 =585,71 La mediana sarà pari a 𝑄 0,50 =800+400∙ 0,50−0,400 0,680−0,400 =942,86 Il terzo quartile sarà dato da 𝑄 0,75 =1200+400∙ 0,75−0,680 0,920−0,680 =1.316,67
Esercizio #1 Misure di asimmetria basate sui quartili Determiniamo una prima misura di asimmetria utilizzando la relazione 𝑎 𝑄 = 𝑄 3 − 𝑄 2 − 𝑄 2 − 𝑄 1 È immediato verificare che 𝑎 𝑄 = 1.316,67−942,86 − 942,86−585,71 ≅16,67 Tale misura di asimmetria è di difficile interpretazione, poiché è espressa nella stessa unità di misura del carattere «spesa» (euro). Possiamo normalizzare la misura di asimmetria utilizzando la differenza interquartile Δ 𝑄 = 𝑄 3 − 𝑄 1 , che nel nostro esempio è pari a Δ 𝑄 =1.316,67−585,71=730,95
Esercizio #1 Misure di asimmetria basate sui quartili Il calcolo dell’indice di Yule-Bowley fornisce il seguente risultato: 𝑎 𝑌 = 𝑎 𝑄 Δ 𝑄 = 16,67 730,95 =0,023 Il valore dell’indice segnala la presenza di una contenuta asimmetria positiva
Esercizio #1 Misure di asimmetria e curtosi basate su variabili standardizzate Prepariamo il seguente prospetto di calcolo:
Esercizio #2 Obiettivo Misurare la concentrazione del carattere «reddito». Per la scelta della formula di calcolo, osservare che si tratta di un carattere continuo ripartito in classi Formulario 𝑅= 𝑛 𝑛−1 1− 𝑖=1 𝑛 𝑝 𝑖 − 𝑝 𝑖−1 𝑞 𝑖 + 𝑞 𝑖−1 (Ind. di concentrazione di Gini)
Esercizio #2 Indice di concentrazione di Gini Approntiamo un prospetto con le elaborazioni utili per calcolare l’indice:
Esercizio #3 Obiettivo Misurare l’eterogeneità del carattere «titolo di studio» Formulario 𝑖 𝐺 = 𝑘 𝑘−1 1− 𝑖=1 𝑘 𝑓 𝑖 2 (indice di eterogeneità di Gini)
Esercizio #3 Indice di eterogeneità di Gini Organizziamo il prospetto di calcolo:
Esercizio #4 Obiettivo Misurare la connessione dei caratteri «genere» e «possesso di un tablet» Formulario 𝜑= 𝑎𝑑−𝑏𝑐 𝑎+𝑏 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 (indice di connessione 𝜑)
Esercizio #4 Indice 𝜑 di connessione in tabelle tetracoriche Le lettere che figurano nella formula rappresentano le frequenze assolute congiunte che figurano nel quadro centrale e sono un semplice accorgimento mnemonico. Nel seguente schema è specificata la loro posizione:
Esercizio #4 Indice 𝜑 di connessione in tabelle tetracoriche Costruiamo la tavola di contingenza:
Esercizio #5 Obiettivo Misurare la connessione dei caratteri «genere» e «titolo di studio» Formulario 𝜙 2 = 𝜒 2 𝑛 = 𝑖=1 𝑘 𝑗=1 ℎ 𝑓 𝑖𝑗 − 𝑓 𝑖. 𝑓 .𝑗 2 𝑓 𝑖. 𝑓 .𝑗 (indice di connessione 𝜙 2 ) 𝑉= 𝜙 2 𝑚𝑖𝑛 𝑘, ℎ −1 (indice di connessione 𝑉)
Esercizio #5 Indici di connessione in tabelle 𝒓×𝒄 Approntiamo la tabella con la distribuzione delle frequenze assolute congiunte:
Esercizio #5 Indici di connessione in tabelle 𝒓×𝒄 Basandoci sulla distribuzione delle frequenze assolute congiunte, ricaviamo la distribuzione delle frequenze relative congiunte:
Esercizio #5 Indici di connessione in tabelle 𝒓×𝒄 Verifichiamo l’eventuale presenza di connessione esaminando le distribuzioni condizionate:
Esercizio #5 Indici di connessione in tabelle 𝒓×𝒄 Verifichiamo l’eventuale presenza di connessione esaminando le distribuzioni condizionate:
Esercizio #5 Indici di connessione in tabelle 𝒓×𝒄 Calcoliamo la distribuzione delle frequenze relative teoriche nel caso di assenza di connessione:
Esercizio #5 Indici di connessione in tabelle 𝒓×𝒄 Calcoliamo le contingenze (cioè le differenze tra le frequenze relative congiunte osservate e quelle teoriche):
Esercizio #5 Indici di connessione in tabelle 𝒓×𝒄 Calcoliamo le contingenze quadratiche:
Esercizio #5 Indici di connessione in tabelle 𝒓×𝒄 Rapportiamo le contingenze quadratiche alle frequenze relative teoriche osservabili in caso di assenza di connessione:
Esercizio #5 Indici di connessione in tabelle 𝒓×𝒄 Con le quantità riportate nella tabella precedente, siamo in grado di calcolare l’indice 𝜙 2 , che è la somma delle quantità che figurano nel quadro centrale. In formule: 𝜙 2 = 𝑖=1 𝑘 𝑗=1 ℎ 𝑓 𝑖𝑗 − 𝑓 𝑖. 𝑓 .𝑗 2 𝑓 𝑖. 𝑓 .𝑗 ≅0,0789 Poiché l’indice 𝜙 2 non è normalizzato, procediamo al calcolo dell’indice 𝑉 normalizzato, definito dalla relazione: 𝑉= 𝜙 2 𝑚𝑖𝑛 𝑘, ℎ −1
Esercizio #5 Indici di connessione in tabelle 𝒓×𝒄 Osservando che 𝑘=6 e ℎ=2, l’espressione 𝑚𝑖𝑛 𝑘, ℎ −1 assumerà valore 2−1=1 e quindi l’indice 𝑉 ammonterà a 𝑉= 𝜙 2 𝑚𝑖𝑛 𝑘, ℎ −1 = 0,0789 1 = 0,0789 ≅0,2809 Ricordando che 𝑉∈ 0, 1 , un valore di 𝑉=0,2809 segnala una connessione debole tra «titolo di studio» e «genere»
Esercizio #6 Obiettivo Misurare la dipendenza in media del carattere «reddito» dal «genere» Formulario 𝜂 𝑌|𝑋 2 = 𝜎 𝜇 𝑌|𝑋 2 𝜎 𝑌 2 (indice di dipendenza in media 𝜂 2 )
Esercizio #6 Indici di dipendenza in media Come di consueto, costruiamo il prospetto di sintesi:
Esercizio #6 Indici di dipendenza in media Calcoliamo media e varianza delle distribuzioni condizionate del reddito:
Esercizio #6 Indici di dipendenza in media Calcoliamo media e varianza delle distribuzioni condizionate del reddito:
Esercizio #6 Indici di dipendenza in media Calcoliamo media e varianza del reddito in base alla distribuzione marginale:
Esercizio #6 Indici di dipendenza in media Approntiamo il prospetto di calcolo per la varianza «between», cioè la varianza delle medie condizionate:
Esercizio #6 Indici di dipendenza in media Approntiamo il prospetto di calcolo per la varianza «within», cioè la media delle varianze condizionate:
Esercizio #6 Indici di dipendenza in media In ultimo, raccogliamo le informazioni in un prospetto di sintesi:
Esercizio #6 Obiettivo Misurare la correlazione tra i caratteri «spesa annua per acquisto di beni e servizi ICT» e «reddito» Formulario 𝜎 𝑥𝑦 = 𝑖=1 𝑘 𝑗=1 ℎ 𝑥 𝑖 𝑦 𝑗 𝑓 𝑖𝑗 − 𝜇 𝑥 𝜇 𝑦 (covarianza 𝜎 𝑥𝑦 ) 𝜌 𝑥𝑦 = 𝜎 𝑥𝑦 𝜎 𝑥 𝜎 𝑦 (coefficiente di correlazione lineare 𝜌 𝑥𝑦 )
Esercizio #7 Misure di concordanza e di correlazione In primo luogo, costruiamo il prospetto di sintesi:
Esercizio #7 Misure di concordanza e di correlazione Come secondo passo, individuiamo i valori centrali degli intervalli e calcoliamo la distribuzione delle frequenze relative congiunte:
Esercizio #7 Misure di concordanza e di correlazione Calcoliamo media, varianza e scarto quadratico medio delle variabili 𝑿 e 𝒀:
Esercizio #7 Misure di concordanza e di correlazione Calcoliamo media, varianza e scarto quadratico medio delle variabili 𝑿 e 𝒀:
Esercizio #7 Misure di concordanza e di correlazione Calcoliamo i prodotti ponderati 𝑥 𝑖 𝑦 𝑗 𝑓 𝑖𝑗 :
Esercizio #7 Misure di concordanza e di correlazione Calcoliamo infine il valore del coefficiente di correlazione di Bravais-Pearson: 𝜌 𝑥𝑦 = 𝜎 𝑥𝑦 𝜎 𝑥 𝜎 𝑦 = 3.002.880 10. 903,5×457,05 =0,603 Quindi fra le due variabili 𝑿 e 𝒀 vi è una contenuta associazione lineare