Corso di Analisi Statistica per le Imprese 2 Corso di Analisi Statistica per le Imprese 2.Cross tabulation e relazione lineare tra variabili Prof. L. Neri a.a. 2017-2018 1
Analisi Bivariata Una volta effettuata un’analisi preliminare delle singole variabili (analisi univariata), è necessario comprendere se le variabili oggetto di studio sono associate oppure no e, se sì, misurare il grado di associazione. In prima battuta si procede alla valutazione della interdipendenza (relazione X Y, relazione Y X) tra due variabili (analisi bivariata).
Analisi Bivariata Si distinguono due casi: le variabili X e Y sono qualitative (sconnesse o ordinali), o una qualitativa e l’altra quantitativa discreta con poche modalità, si procede alla rappresentazione tabellare con tabelle di contingenza (cross-tabulation analysis) e si misura il grado di interdipendenza tra le variabili le variabili X e Y sono quantitative, in questo caso si possono rappresentare i dati con uno scatter-plot e si misura la relazione lineare tramite opportuni indicatori
Cross-tabulation analysis Addetti Genere respons 6 M 10 F 7 3 4 Genere responsabile M F 3 4 6 7 10 2 1 Addetti 2 1 1 2 Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2 Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 4
Cross-tabulation analysis Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 1 è la frequenza congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile Addetti 5
Cross-tabulation analysis Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione marginale del genere del responsabile (distribuzione di frequenza semplice del carattere “genere del responsabile”) Addetti Qual è la proporzione di punti vendita il cui responsabile è una femmina? 6
Cross-tabulation analysis Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione marginale degli addetti (distribuzione di frequenza semplice del carattere “numero di addetti”) Addetti 7
Cross-tabulation analysis Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione parziale del numero di addetti, condizionata alla modalità “maschio” del carattere “genere del responsabile” Addetti Distribuzione del numero di addetti dato che il genere del responsabile è “maschio” Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo? 8
Cross-tabulation analysis Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione parziale del genere del responsabile, condizionata alla modalità “6” del carattere “numero di addetti” Addetti Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6 Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina? 9
Cross-tabulation analysis Ubicazione Vendita on line centro si periferia Semicentro no Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Ubicazione 10
Cross-tabulation analysis Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Qual è la proporzione di p.v. ubicati in centro? Nel sottoinsieme dei p.v. che effettuano anche la vendita on line, qual è la proporzione di p.v. ubicati in centro? Ubicazione Qual è la proporzione di p.v. che vendono anche on line? Nel sottoinsieme di p.v. ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line? 11
Cross-tabulation analysis Tot y1 … yj yK X X1 n11 n1j n1k n1. Xi ni1 nij nik ni. xH nH1 nHj nHK nH. n.1 n.j n.K n 2 distribuzioni marginali H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y 12
Relazione tra variabili: indipendenza Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essi Se tra X e Y non c’è alcun legame X e Y sono statisticamente indipendenti Tra due caratteri c’è indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro 13
Relazione tra variabili: Associazione In presenza di una qualche relazione «associazione» tra X e Y, per lo studio e la misura di tale relazione è necessario specificare se si è interessati a studiare la dipendenza o l’interdipendenza 14
Relazione tra variabili: dipendenza e interdipendenza Dipendenza: studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale, si parla di «dipendenza causale» Interdipendenza: si assume che i due caratteri siano sulla stesso piano ovvero non si distingue tra causa ed effetto e quindi che il legame sia bidirezionale 15
Misure di interdipendenza Frequenze osservate nij Frequenze teoriche (quelle che si osserverebbero in caso di indipendenza statistica) La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra ciascuna frequenza osservata e la corrispondente frequenza teorica 16
Misure di interdipendenza Y Tot y1 … yj yK X X1 n11 n1j n1k n1. Xi ni1 nik xH nH1 nHj nHK nH. n.1 n.K Freq. osservate Freq. che si utilizzano per ricavare le freq. teoriche nij ni. n.j n 17
Misure di interdipendenza: frequenze osservate Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Ubicazione 18
Misure di interdipendenza: frequenze teoriche Vendita on line Tot si no Centro 4 Semicentro 2 Perif. 3 6 9 Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte? Ubicazione 19
Misure di interdipendenza: frequenze osservate e teoriche Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Vendita on line Tot si no Centro 1,33 2,67 4 Semicentro 0,67 2 Perif. 1 3 6 9 Osservate Teoriche Ubicazione Ubicazione Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri Qual è il grado di associazione tra i due caratteri? 20
Misure di interdipendenza: indice Chi-quadrato Misura l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una cross tabulation indipendenza statistica grado di interdipendenza 21
Misure di interdipendenza: indice V di Cramer Indice relativo per misurare l’associazione (interdipendenza) tra due caratteri qualitativi V=0 indipendenza statistica V=1 associazione perfetta Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y 22
Misure di interdipendenza: Calcolo di χ2 e V H=3, K=2 quindi il minimo tra H-1 e K-1 è uguale a 1 Comunque basso grado di associazione tra le due variabili 23
Inferenza: test Chi-quadrato di indipendenza Selezionato un campione casuale con schema di campionamento probabilistico possiamo per verificare l’ipotesi di indipendenza tra X e Y ed estendere il risultato ottenuto alla popolazione. I passi: Stabilire H0 e H1 H0: indipendenza tra X e Y H1: X e Y non sono indipendenti 2.Cross tabulation di X e Y (frequenze osservate) 3.Calcolo delle frequenze attese 4. Calcolo del valore empirico della statistica test dove 24
Inferenza: test Chi-quadrato di indipendenza 25
Inferenza: test Chi-quadrato di indipendenza Nel nostro esempio 26
Percentuali di Colonna e Percentuali di Riga Si calcola: la percentuale di riga dividendo la frequenza osservata per la frequenza marginale di riga la percentuali di colonna dividendo la frequenza osservata per la frequenza marginale di colonna, cella per cella. Le percentuali di riga e di colonna sono utili per definire e comparare dei profili. Se la distribuzione delle percentuali di colonna per ciascun carattere in riga è simile da riga a riga allora i profili dei caratteri definiti dalla proprietà in riga sono simili. 27
Percentuali di Colonna e Percentuali di Riga Osservando le percentuali di riga si nota come i profili di maschi e femmine siano molto diversi per ciò che riguarda la ripetenza (75 percento dei ripetenti sono maschi contro il 25 percento delle femmine). Dato che il 75 percento dei ripetenti sono maschi, contro un profilo medio del 49 percento (ossia il 49 percento dei componenti del campione sono maschi), si può supporre vi sia attrazione tra l’essere maschi e l’essere ripetenti. Percentuali di colonna Osservando le percentuali di colonna si può dire la stessa cosa ribaltata: il 63 percento dei maschi è ripetente contro il 37 percento non ripetente. Quindi i profili dei Ripetenti e dei Non Ripetenti sono diversi. 28
Percentuali di Colonna e Percentuali di Riga Si percentualizza per Colonna quando si vuole analizzare l’influenza della variabile in colonna (var. indipendente) sulla variabile posta in riga (var. dipendente). Esempio Genere: variabile indipendente; Occupazione: variabile dipendente; si è posta la variabile “genere” in colonna e la variabile “occupazione” in riga per vedere se il genere ha effetto sulla condizione occupazionale se il genere non avesse effetto le due colonne di percentuali sarebbero uguali 29
Percentuali di Colonna e Percentuali di Riga Si percentualizza per Riga quando si vuole analizzare l’influenza della variabile in riga (var. indipendente) sulla variabile posta in colonna (var. dipendente) Esempio Residenza: variabile dipendente; Occupazione: variabile indipendente; si è posta la variabile “residenza” in riga e la variabile “occupazione” in colonna. se la residenza non avesse effetto le due righe di percentuali sarebbero uguali 30
Relazione tra Caratteri Quantitativi Se X e Y sono quantitativi una prima analisi della relazione tra esse viene svolta valutando l’esistenza e l’intensità del legame lineare tra esse. A tal fine si può costruire una rappresentazione grafica della relazione tra le due variabili (scatter plot) per rappresentare, se esiste, una linea di tendenza; si calcolano specifici indici che misurano l’intensità del legame lineare tra le due variabili (covarianza e coefficiente di correlazione). 31
Relazione tra Caratteri Quantitativi: scatter plot Due variabili quantitative: Ricavi sull’asse X Costi sull’asse Y Ogni punto rappresenta una unità (un punto vendita). Le coordinate (xi,yi) del punto i rappresentano i valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita. n=9 coppie di valori del tipo (xi,yi) 32
Relazione tra Caratteri Quantitativi: scatter plot Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due variabili. In questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassi. Si osserva una relazione lineare positiva (concordanza) tra costi e ricavi. 33
Relazione tra Caratteri Quantitativi: covarianza 34
Relazione tra Caratteri Quantitativi: covarianza Cov(X,Y)=0 35
Relazione tra Caratteri Quantitativi: covarianza Cov(X,Y)>0 36
Relazione tra Caratteri Quantitativi: covarianza Cov(X,Y)<0 37
Relazione tra Caratteri Quantitativi: coefficiente di correlazione 38
Relazione tra Caratteri Quantitativi: coefficiente di correlazione ρ=1 Perfetta concordanza ρ=-1 Perfetta discordanza 39
Relazione tra Caratteri Quantitativi: un esempio Ricavi (X) Costi (Y) 350 205 200 100 600 500 270 180 120 105 340 210 280 140 Scarti X Scarti Y 25 16,11 -125 -88,99 275 161,11 175 81,11 -55 11,11 -145 -68,89 -120 -83,89 15 21,11 -45 -48,89 (Scarti X) x (Scarti Y) 402,8 11111,1 44305,6 14194,4 -611,1 9988,9 10066,7 316,7 2200,0 Media 325 188,89 40
Relazione tra Caratteri Quantitativi: un esempio Ricavi (X) Costi (Y) 350 205 200 100 600 500 270 180 120 105 340 210 280 140 C’è una forte relazione lineare positiva: concordanza tra ricavi e costi Media 325 188,89 Dev std 142,83 82,25 41
Relazione tra Caratteri: summary Tipo di relazione Caratteri Struttura dati Indici Interdipendenza tra X e Y qualsiasi (se qualitativi sconnessi è l’unico tipo di relazione da studiare) Cross tabulation χ2 V (indice relativo) Lineare di Interdipendenza tra X e Y quantitativi Coppie di valori (X,Y) Covarianza, ρ (indice relativo) 42
Relazione tra Caratteri Quantitativi: indipendenza vs incorrelazione Se X ed Y sono indipendenti allora Cov (X, Y ) = 0 Il viceversa però non `e vero: non basta verificare la singola condizione numerica Cov (X, Y ) = 0 per dedurre l’indipendenza. Se la coppia (X, Y ) ha una distribuzione Normale bivariata, allora la condizione Cov (X, Y) ) = 0 implica l’indipendenza. 43