La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Presentazioni simili


Presentazione sul tema: "STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione."— Transcript della presentazione:

1 STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

2 Consideriamo un gruppo di 9 studenti dei quali vengono raccolte informazioni su sesso e regione di provenienza. NomeSessoRegione P. NeriMSardegna G. LanzarottiFMarche A.BianchiMLombardia V. RossiMLombardia E. MariononiFMarche M. DriuFSardegna E. ErbaFSardegna V. ArrigoniMLombardia M. MauriMSardegna Popolazione statistica? Variabili statistiche? SessoRegione Tabella di distribuzione doppia disaggregata

3 Una distribuzione doppia può essere: * Quantitativa se entrambe le variabili sono quantitative * Qualitativa se entrambe le variabili sono qualitative * Mista negli altri casi

4 RegioneSardegnaMarcheLombardia Sesso M203 F220 TABELLA DELLA DISTRIBUZIONE CONGIUNTA Vantaggio: facilità di lettura dati FREQUENZA CONGIUNTA Ogni casella contiene la delle 2 variabili

5 RegioneSardegnaMarcheLombardiaTotale Sesso M2035 F2204 Totale4239 SessoFrequenza M5 F4 RegioneFrequenza Sardegna4 Marche2 Lombardia3 DISTRIBUZIONI MARGINALI Sommando le frequenze per riga si ottengono le FREQUENZE MARGINALI per la VS sesso Sommando le frequenze per colonna si ottengono le FREQUENZE MARGINALI per la VS regione

6 Si dice distribuzione marginale ogni distribuzione di frequenza che si ottiene considerando le frequenze associate a una sola variabile, indipendentemente dallaltra.

7 Ci si può domandare come si distribuisce la variabile sesso per gli studenti che provengono da una certa regione. Ad esempio considerando la regione Lombardia In questo caso si studia la variabile sesso CONDIZIONATA dalla variabile regione Regione = Lombardia SessoFrequenzeRelativePercentuali M31100% F000% Totale31100% VS Sesso | Regione = Lombardia

8 Data una distribuzione doppia (X,Y) si ottiene la distribuzione condizionata di Y rispetto a x i osservando come si distribuisce Y solo per i soggetti della popolazione che hanno per la variabile X il valore fissato x i In simboli Y|(X = x i ) N.B: Nelle frequenze condizionate si formano tante tabelle quante le modalità della variabile X

9 Lo scopo dellanalisi di una distribuzione doppia è stabilire un legame tra le due variabili X e Y E stata effettuata unindagine sulla soddisfazione di 1316 utenti di una compagnia ferroviaria rispetto al tipo di treno su cui hanno viaggiato SoddisfazioneTipo di treno AVICRTotale Si No Totale

10 Calcoliamo le frequenze condizionate della soddisfazione X al tipo di treno Y SoddisfazioneAV Si0,62 No0,38 SoddisfazioneAVICRTotale Si0,620,410,250,38 No0,380,590,750,62 Totale111 La soddisfazione dipende dal treno! La variabile X dipende da Y

11 Se la tabella delle frequenza condizionate fosse stata SoddisfazioneAVICRTotale Si0,38 No0,62 Totale111 La soddisfazione sarebbe stata indipendente dal tipo di treno SoddisfazioneAVICRTotale Si49900 No Totale La variabile soddisfazione dipende perfettamente dal tipo di treno

12 Come misurare il grado di dipendenza tra 2 variabili? Test del 2 Pearson 1900 Come si calcola questo indice?

13 Frequenza teorica in caso di indipendenza 1) Si calcola la frequenza relativa dei soddisfatti Soddisfatti dei treni AV 2) Si moltiplica la frequenza relativa per il numero di utenti del treno AV 499/1316 (499/1316 )*325 FREQUENZA TEORICA IN CASO DI INDIPENDENZA

14 Frequenza teorica in caso di indipendenza 1) Si calcola la frequenza relativa degli insoddisfatti insoddisfatti dei treni AV 2) Si moltiplica la frequenza relativa per il numero di utenti del treno AV 817/1316 (817/1316 )*325 FREQUENZA TEORICA IN CASO DI INDIPENDENZA ECC.

15 Calcolo della contingenza Frequenza misurata Frequenza teorica ContingenzeQuadrato delle contingenze Si203123,2379,776362,73 No122201,77-79,776362,73 Contingenza = frequenza misurata – frequenza teorica in caso di indipendenza Treno AV Si ripete il calcolo delle contingenze per tutte le tipologie di treno

16 AVICR 51,630,8030,06 31,540,4918,36 Si dividono i quadrati delle contingenze per le frequenze teoriche La somma degli elementi della tabella è lindice 2 Qual è il suo significato?

17 Se i 2 caratteri sono indipendenti, la somma delle contingenze è nulla è uguale a zero Se i 2 caratteri sono dipendenti, il valore di chi-quadro aumenta allaumentare della dipendenza

18 NORMALIZZATO C = N (h-1) N = numero di unità statistiche considerate h = minore tra il numero delle righe e delle colonne 0 < C < 1


Scaricare ppt "STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione."

Presentazioni simili


Annunci Google