La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Corso di Analisi Statistica per le Imprese 2

Presentazioni simili


Presentazione sul tema: "Corso di Analisi Statistica per le Imprese 2"— Transcript della presentazione:

1 Corso di Analisi Statistica per le Imprese 2
Corso di Analisi Statistica per le Imprese 2.Cross tabulation e relazione lineare tra variabili Prof. L. Neri a.a 1

2 Analisi Bivariata Una volta effettuata un’analisi preliminare delle singole variabili (analisi univariata), è necessario comprendere se le variabili oggetto di studio sono associate oppure no e, se sì, misurare il grado di associazione. In prima battuta si procede alla valutazione della interdipendenza (relazione X Y, relazione Y X) tra due variabili (analisi bivariata).

3 Analisi Bivariata Si distinguono due casi:
le variabili X e Y sono qualitative (sconnesse o ordinali), o una qualitativa e l’altra quantitativa discreta con poche modalità, si procede alla rappresentazione tabellare con tabelle di contingenza (cross-tabulation analysis) e si misura il grado di interdipendenza tra le variabili le variabili X e Y sono quantitative, in questo caso si possono rappresentare i dati con uno scatter-plot e si misura la relazione lineare tramite opportuni indicatori

4 Cross-tabulation analysis
Addetti Genere respons 6 M 10 F 7 3 4 Genere responsabile M F 3 4 6 7 10 2 1 Addetti 2 1 1 2 Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2 Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 4

5 Cross-tabulation analysis
Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 1 è la frequenza congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile Addetti 5

6 Cross-tabulation analysis
Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione marginale del genere del responsabile (distribuzione di frequenza semplice del carattere “genere del responsabile”) Addetti Qual è la proporzione di punti vendita il cui responsabile è una femmina? 6

7 Cross-tabulation analysis
Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione marginale degli addetti (distribuzione di frequenza semplice del carattere “numero di addetti”) Addetti 7

8 Cross-tabulation analysis
Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione parziale del numero di addetti, condizionata alla modalità “maschio” del carattere “genere del responsabile” Addetti Distribuzione del numero di addetti dato che il genere del responsabile è “maschio” Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo? 8

9 Cross-tabulation analysis
Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione parziale del genere del responsabile, condizionata alla modalità “6” del carattere “numero di addetti” Addetti Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6 Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina? 9

10 Cross-tabulation analysis
Ubicazione Vendita on line centro si periferia Semicentro no Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Ubicazione 10

11 Cross-tabulation analysis
Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Qual è la proporzione di p.v. ubicati in centro? Nel sottoinsieme dei p.v. che effettuano anche la vendita on line, qual è la proporzione di p.v. ubicati in centro? Ubicazione Qual è la proporzione di p.v. che vendono anche on line? Nel sottoinsieme di p.v. ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line? 11

12 Cross-tabulation analysis
Tot y1 yj yK X X1 n11 n1j n1k n1. Xi ni1 nij nik ni. xH nH1 nHj nHK nH. n.1 n.j n.K n 2 distribuzioni marginali H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y 12

13 Relazione tra variabili: indipendenza
Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essi Se tra X e Y non c’è alcun legame X e Y sono statisticamente indipendenti Tra due caratteri c’è indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro 13

14 Relazione tra variabili: Associazione
In presenza di una qualche relazione «associazione» tra X e Y, per lo studio e la misura di tale relazione è necessario specificare se si è interessati a studiare la dipendenza o l’interdipendenza 14

15 Relazione tra variabili: dipendenza e interdipendenza
Dipendenza: studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale, si parla di «dipendenza causale» Interdipendenza: si assume che i due caratteri siano sulla stesso piano ovvero non si distingue tra causa ed effetto e quindi che il legame sia bidirezionale 15

16 Misure di interdipendenza
Frequenze osservate nij Frequenze teoriche (quelle che si osserverebbero in caso di indipendenza statistica) La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra ciascuna frequenza osservata e la corrispondente frequenza teorica 16

17 Misure di interdipendenza
Y Tot y1 yj yK X X1 n11 n1j n1k n1. Xi ni1 nik xH nH1 nHj nHK nH. n.1 n.K Freq. osservate Freq. che si utilizzano per ricavare le freq. teoriche nij ni. n.j n 17

18 Misure di interdipendenza: frequenze osservate
Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Ubicazione 18

19 Misure di interdipendenza: frequenze teoriche
Vendita on line Tot si no Centro 4 Semicentro 2 Perif. 3 6 9 Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte? Ubicazione 19

20 Misure di interdipendenza: frequenze osservate e teoriche
Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Vendita on line Tot si no Centro 1,33 2,67 4 Semicentro 0,67 2 Perif. 1 3 6 9 Osservate Teoriche Ubicazione Ubicazione Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri Qual è il grado di associazione tra i due caratteri? 20

21 Misure di interdipendenza: indice Chi-quadrato
Misura l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una cross tabulation indipendenza statistica grado di interdipendenza 21

22 Misure di interdipendenza: indice V di Cramer
Indice relativo per misurare l’associazione (interdipendenza) tra due caratteri qualitativi V= indipendenza statistica V= associazione perfetta Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y 22

23 Misure di interdipendenza: Calcolo di χ2 e V
H=3, K=2 quindi il minimo tra H-1 e K-1 è uguale a 1 Comunque basso grado di associazione tra le due variabili 23

24 Inferenza: test Chi-quadrato di indipendenza
Selezionato un campione casuale con schema di campionamento probabilistico possiamo per verificare l’ipotesi di indipendenza tra X e Y ed estendere il risultato ottenuto alla popolazione. I passi: Stabilire H0 e H1 H0: indipendenza tra X e Y H1: X e Y non sono indipendenti 2.Cross tabulation di X e Y (frequenze osservate) 3.Calcolo delle frequenze attese 4. Calcolo del valore empirico della statistica test dove 24

25 Inferenza: test Chi-quadrato di indipendenza
25

26 Inferenza: test Chi-quadrato di indipendenza
Nel nostro esempio 26

27 Percentuali di Colonna e Percentuali di Riga
Si calcola: la percentuale di riga dividendo la frequenza osservata per la frequenza marginale di riga la percentuali di colonna dividendo la frequenza osservata per la frequenza marginale di colonna, cella per cella. Le percentuali di riga e di colonna sono utili per definire e comparare dei profili. Se la distribuzione delle percentuali di colonna per ciascun carattere in riga è simile da riga a riga allora i profili dei caratteri definiti dalla proprietà in riga sono simili. 27

28 Percentuali di Colonna e Percentuali di Riga
Osservando le percentuali di riga si nota come i profili di maschi e femmine siano molto diversi per ciò che riguarda la ripetenza (75 percento dei ripetenti sono maschi contro il 25 percento delle femmine). Dato che il 75 percento dei ripetenti sono maschi, contro un profilo medio del 49 percento (ossia il 49 percento dei componenti del campione sono maschi), si può supporre vi sia attrazione tra l’essere maschi e l’essere ripetenti. Percentuali di colonna Osservando le percentuali di colonna si può dire la stessa cosa ribaltata: il 63 percento dei maschi è ripetente contro il 37 percento non ripetente. Quindi i profili dei Ripetenti e dei Non Ripetenti sono diversi. 28

29 Percentuali di Colonna e Percentuali di Riga
Si percentualizza per Colonna quando si vuole analizzare l’influenza della variabile in colonna (var. indipendente) sulla variabile posta in riga (var. dipendente). Esempio Genere: variabile indipendente; Occupazione: variabile dipendente; si è posta la variabile “genere” in colonna e la variabile “occupazione” in riga per vedere se il genere ha effetto sulla condizione occupazionale se il genere non avesse effetto le due colonne di percentuali sarebbero uguali 29

30 Percentuali di Colonna e Percentuali di Riga
Si percentualizza per Riga quando si vuole analizzare l’influenza della variabile  in riga (var. indipendente) sulla variabile posta in colonna (var. dipendente) Esempio Residenza: variabile dipendente; Occupazione: variabile indipendente; si è posta la variabile “residenza” in riga e la variabile “occupazione” in colonna.  se la residenza non avesse effetto le due righe di percentuali sarebbero uguali 30

31 Relazione tra Caratteri Quantitativi
Se X e Y sono quantitativi una prima analisi della relazione tra esse viene svolta valutando l’esistenza e l’intensità del legame lineare tra esse. A tal fine si può costruire una rappresentazione grafica della relazione tra le due variabili (scatter plot) per rappresentare, se esiste, una linea di tendenza; si calcolano specifici indici che misurano l’intensità del legame lineare tra le due variabili (covarianza e coefficiente di correlazione). 31

32 Relazione tra Caratteri Quantitativi: scatter plot
Due variabili quantitative: Ricavi sull’asse X Costi sull’asse Y Ogni punto rappresenta una unità (un punto vendita). Le coordinate (xi,yi) del punto i rappresentano i valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita. n=9 coppie di valori del tipo (xi,yi) 32

33 Relazione tra Caratteri Quantitativi: scatter plot
Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due variabili. In questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassi. Si osserva una relazione lineare positiva (concordanza) tra costi e ricavi. 33

34 Relazione tra Caratteri Quantitativi: covarianza
34

35 Relazione tra Caratteri Quantitativi: covarianza
Cov(X,Y)=0 35

36 Relazione tra Caratteri Quantitativi: covarianza
Cov(X,Y)>0 36

37 Relazione tra Caratteri Quantitativi: covarianza
Cov(X,Y)<0 37

38 Relazione tra Caratteri Quantitativi: coefficiente di correlazione
38

39 Relazione tra Caratteri Quantitativi: coefficiente di correlazione
ρ=1 Perfetta concordanza ρ=-1 Perfetta discordanza 39

40 Relazione tra Caratteri Quantitativi: un esempio
Ricavi (X) Costi (Y) 350 205 200 100 600 500 270 180 120 105 340 210 280 140 Scarti X Scarti Y 25 16,11 -125 -88,99 275 161,11 175 81,11 -55 11,11 -145 -68,89 -120 -83,89 15 21,11 -45 -48,89 (Scarti X) x (Scarti Y) 402,8 11111,1 44305,6 14194,4 -611,1 9988,9 10066,7 316,7 2200,0 Media 325 188,89 40

41 Relazione tra Caratteri Quantitativi: un esempio
Ricavi (X) Costi (Y) 350 205 200 100 600 500 270 180 120 105 340 210 280 140 C’è una forte relazione lineare positiva: concordanza tra ricavi e costi Media 325 188,89 Dev std 142,83 82,25 41

42 Relazione tra Caratteri: summary
Tipo di relazione Caratteri Struttura dati Indici Interdipendenza tra X e Y qualsiasi (se qualitativi sconnessi è l’unico tipo di relazione da studiare) Cross tabulation χ2 V (indice relativo) Lineare di Interdipendenza tra X e Y quantitativi Coppie di valori (X,Y) Covarianza, ρ (indice relativo) 42

43 Relazione tra Caratteri Quantitativi: indipendenza vs incorrelazione
Se X ed Y sono indipendenti allora Cov (X, Y ) = 0 Il viceversa però non `e vero: non basta verificare la singola condizione numerica Cov (X, Y ) = 0 per dedurre l’indipendenza. Se la coppia (X, Y ) ha una distribuzione Normale bivariata, allora la condizione Cov (X, Y) ) = 0 implica l’indipendenza. 43


Scaricare ppt "Corso di Analisi Statistica per le Imprese 2"

Presentazioni simili


Annunci Google