Corso di Analisi Statistica per le Imprese 2

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
LA MISURA IN PSICOLOGIA. Scopo del corso Il corso si propone di offrire allo studente:  un’introduzione alle tematiche connesse alla misura in psicologia.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
1 Principali analisi statistiche 1. Confronto fra medie (2 o piú campioni) 2. Correlazione e regressione 3. Analisi di tabelle di contigenza Variabile.
Introduzione all’uso degli indicatori di valutazione ed ai metodi di valutazione Dott.ssa Gabriella Giuliano Direttore Sanitario CREAS-IFC-CNR giugno.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Precorso di Statistica per le Lauree Magistrali
LA STATISTICA DESCRITTIVA
ESERCITAZIONE RIEPILOGO di Statistica Descrittiva
Analisi monovariata: frequenze
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
Lezione 2 CARATTERI DEI DATI: approfondimento (Borra-Di Ciaccio, cap
Distribuzioni limite La distribuzione normale
Variabili casuali a più dimensioni
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
GLI STRUMENTI AUSILIARI
Esercitazioni su testi d’esame
PEDAGOGIA SPERIMENTALE
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
L’analisi monovariata
Misure Meccaniche e Termiche - Università di Cassino
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Elementi di teoria delle probabilità
APPUNTI DI STATISTICA INFERENZIALE
Accenni di analisi monovariata e bivariata
Precorso di Statistica per le Lauree Magistrali
misure di eterogeneità
La Statistica Istituto Comprensivo “ M. G. Cutuli”
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Statistica descrittiva bivariata
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Corso di Analisi Statistica per le Imprese Rappresentazione dei dati
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
L’indagine statistica
Statistica Scienza che studia i fenomeni collettivi.
Impariamo a conoscere le Matrici
Statistica.
Statistica descrittiva bivariata
Statistica descrittiva bivariata
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Esercizio La popolazione di adulti presenta una media di ansia pari a 4. Ad un campione di 35 soggetti con disturbo ossessivo compulsivo è stato somministrato.
ANALISI DEI GRUPPI I.
Distribuzioni Bivariate
Precorso di Statistica per le Lauree Magistrali
Compito 1: La seguente distribuzione riporta i punteggi di ansia su un campione non clinico: Costruire una tabella di frequenza, indicando: f, fc, %, %c.
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Esercizio 1 Si vuole studiare la mobilità di voto degli elettori di una certa circoscrizione. Da un sondaggio telefonico risulta che: Si calcolino le distribuzioni.
Associazione tra due variabili
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Corso di Analisi Statistica per le Imprese
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Associazione tra variabili qualitative
Corso di Analisi Statistica per le Imprese
Statistica e probabilità Università degli Studi di Sassari Facoltà di Medicina veterinaria Corso di Laurea in Medicina veterinaria Anno Accademico 2017/2018.
Statistica descrittiva bivariata
Correlazione e regressione
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
I sistemi di equazioni di 1° grado
Transcript della presentazione:

Corso di Analisi Statistica per le Imprese 2 Corso di Analisi Statistica per le Imprese 2.Cross tabulation e relazione lineare tra variabili Prof. L. Neri a.a. 2017-2018 1

Analisi Bivariata Una volta effettuata un’analisi preliminare delle singole variabili (analisi univariata), è necessario comprendere se le variabili oggetto di studio sono associate oppure no e, se sì, misurare il grado di associazione. In prima battuta si procede alla valutazione della interdipendenza (relazione X Y, relazione Y X) tra due variabili (analisi bivariata).

Analisi Bivariata Si distinguono due casi: le variabili X e Y sono qualitative (sconnesse o ordinali), o una qualitativa e l’altra quantitativa discreta con poche modalità, si procede alla rappresentazione tabellare con tabelle di contingenza (cross-tabulation analysis) e si misura il grado di interdipendenza tra le variabili le variabili X e Y sono quantitative, in questo caso si possono rappresentare i dati con uno scatter-plot e si misura la relazione lineare tramite opportuni indicatori

Cross-tabulation analysis Addetti Genere respons 6 M 10 F 7 3 4 Genere responsabile M F 3 4 6 7 10 2 1 Addetti 2 1 1 2  Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2  Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 4

Cross-tabulation analysis Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 1 è la frequenza congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile Addetti 5

Cross-tabulation analysis Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione marginale del genere del responsabile (distribuzione di frequenza semplice del carattere “genere del responsabile”) Addetti Qual è la proporzione di punti vendita il cui responsabile è una femmina? 6

Cross-tabulation analysis Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione marginale degli addetti (distribuzione di frequenza semplice del carattere “numero di addetti”) Addetti 7

Cross-tabulation analysis Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione parziale del numero di addetti, condizionata alla modalità “maschio” del carattere “genere del responsabile” Addetti Distribuzione del numero di addetti dato che il genere del responsabile è “maschio” Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo? 8

Cross-tabulation analysis Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione parziale del genere del responsabile, condizionata alla modalità “6” del carattere “numero di addetti” Addetti Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6 Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina? 9

Cross-tabulation analysis Ubicazione Vendita on line centro si periferia Semicentro no Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Ubicazione 10

Cross-tabulation analysis Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Qual è la proporzione di p.v. ubicati in centro? Nel sottoinsieme dei p.v. che effettuano anche la vendita on line, qual è la proporzione di p.v. ubicati in centro? Ubicazione Qual è la proporzione di p.v. che vendono anche on line? Nel sottoinsieme di p.v. ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line? 11

Cross-tabulation analysis Tot y1 … yj yK X X1 n11 n1j n1k n1. Xi ni1 nij nik ni. xH nH1 nHj nHK nH. n.1 n.j n.K n 2 distribuzioni marginali H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y 12

Relazione tra variabili: indipendenza Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essi Se tra X e Y non c’è alcun legame X e Y sono statisticamente indipendenti Tra due caratteri c’è indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro 13

Relazione tra variabili: Associazione In presenza di una qualche relazione «associazione» tra X e Y, per lo studio e la misura di tale relazione è necessario specificare se si è interessati a studiare la dipendenza o l’interdipendenza 14

Relazione tra variabili: dipendenza e interdipendenza Dipendenza: studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale, si parla di «dipendenza causale» Interdipendenza: si assume che i due caratteri siano sulla stesso piano ovvero non si distingue tra causa ed effetto e quindi che il legame sia bidirezionale 15

Misure di interdipendenza Frequenze osservate nij Frequenze teoriche (quelle che si osserverebbero in caso di indipendenza statistica) La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra ciascuna frequenza osservata e la corrispondente frequenza teorica 16

Misure di interdipendenza Y Tot y1 … yj yK X X1 n11 n1j n1k n1. Xi ni1 nik xH nH1 nHj nHK nH. n.1 n.K Freq. osservate Freq. che si utilizzano per ricavare le freq. teoriche nij ni. n.j n 17

Misure di interdipendenza: frequenze osservate Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Ubicazione 18

Misure di interdipendenza: frequenze teoriche Vendita on line Tot si no Centro 4 Semicentro 2 Perif. 3 6 9 Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte? Ubicazione 19

Misure di interdipendenza: frequenze osservate e teoriche Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Vendita on line Tot si no Centro 1,33 2,67 4 Semicentro 0,67 2 Perif. 1 3 6 9 Osservate Teoriche Ubicazione Ubicazione Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri Qual è il grado di associazione tra i due caratteri? 20

Misure di interdipendenza: indice Chi-quadrato Misura l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una cross tabulation indipendenza statistica grado di interdipendenza 21

Misure di interdipendenza: indice V di Cramer Indice relativo per misurare l’associazione (interdipendenza) tra due caratteri qualitativi V=0 indipendenza statistica V=1 associazione perfetta Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y 22

Misure di interdipendenza: Calcolo di χ2 e V H=3, K=2 quindi il minimo tra H-1 e K-1 è uguale a 1 Comunque basso grado di associazione tra le due variabili 23

Inferenza: test Chi-quadrato di indipendenza Selezionato un campione casuale con schema di campionamento probabilistico possiamo per verificare l’ipotesi di indipendenza tra X e Y ed estendere il risultato ottenuto alla popolazione. I passi: Stabilire H0 e H1 H0: indipendenza tra X e Y H1: X e Y non sono indipendenti 2.Cross tabulation di X e Y (frequenze osservate) 3.Calcolo delle frequenze attese 4. Calcolo del valore empirico della statistica test dove 24

Inferenza: test Chi-quadrato di indipendenza   25

Inferenza: test Chi-quadrato di indipendenza Nel nostro esempio   26

Percentuali di Colonna e Percentuali di Riga Si calcola: la percentuale di riga dividendo la frequenza osservata per la frequenza marginale di riga la percentuali di colonna dividendo la frequenza osservata per la frequenza marginale di colonna, cella per cella. Le percentuali di riga e di colonna sono utili per definire e comparare dei profili. Se la distribuzione delle percentuali di colonna per ciascun carattere in riga è simile da riga a riga allora i profili dei caratteri definiti dalla proprietà in riga sono simili. 27

Percentuali di Colonna e Percentuali di Riga Osservando le percentuali di riga si nota come i profili di maschi e femmine siano molto diversi per ciò che riguarda la ripetenza (75 percento dei ripetenti sono maschi contro il 25 percento delle femmine). Dato che il 75 percento dei ripetenti sono maschi, contro un profilo medio del 49 percento (ossia il 49 percento dei componenti del campione sono maschi), si può supporre vi sia attrazione tra l’essere maschi e l’essere ripetenti. Percentuali di colonna Osservando le percentuali di colonna si può dire la stessa cosa ribaltata: il 63 percento dei maschi è ripetente contro il 37 percento non ripetente. Quindi i profili dei Ripetenti e dei Non Ripetenti sono diversi. 28

Percentuali di Colonna e Percentuali di Riga Si percentualizza per Colonna quando si vuole analizzare l’influenza della variabile in colonna (var. indipendente) sulla variabile posta in riga (var. dipendente). Esempio Genere: variabile indipendente; Occupazione: variabile dipendente; si è posta la variabile “genere” in colonna e la variabile “occupazione” in riga per vedere se il genere ha effetto sulla condizione occupazionale se il genere non avesse effetto le due colonne di percentuali sarebbero uguali 29

Percentuali di Colonna e Percentuali di Riga Si percentualizza per Riga quando si vuole analizzare l’influenza della variabile  in riga (var. indipendente) sulla variabile posta in colonna (var. dipendente) Esempio Residenza: variabile dipendente; Occupazione: variabile indipendente; si è posta la variabile “residenza” in riga e la variabile “occupazione” in colonna.  se la residenza non avesse effetto le due righe di percentuali sarebbero uguali 30

Relazione tra Caratteri Quantitativi Se X e Y sono quantitativi una prima analisi della relazione tra esse viene svolta valutando l’esistenza e l’intensità del legame lineare tra esse. A tal fine si può costruire una rappresentazione grafica della relazione tra le due variabili (scatter plot) per rappresentare, se esiste, una linea di tendenza; si calcolano specifici indici che misurano l’intensità del legame lineare tra le due variabili (covarianza e coefficiente di correlazione). 31

Relazione tra Caratteri Quantitativi: scatter plot Due variabili quantitative: Ricavi sull’asse X Costi sull’asse Y Ogni punto rappresenta una unità (un punto vendita). Le coordinate (xi,yi) del punto i rappresentano i valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita. n=9 coppie di valori del tipo (xi,yi) 32

Relazione tra Caratteri Quantitativi: scatter plot Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due variabili. In questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassi. Si osserva una relazione lineare positiva (concordanza) tra costi e ricavi. 33

Relazione tra Caratteri Quantitativi: covarianza   34

Relazione tra Caratteri Quantitativi: covarianza Cov(X,Y)=0 35

Relazione tra Caratteri Quantitativi: covarianza Cov(X,Y)>0 36

Relazione tra Caratteri Quantitativi: covarianza Cov(X,Y)<0 37

Relazione tra Caratteri Quantitativi: coefficiente di correlazione   38

Relazione tra Caratteri Quantitativi: coefficiente di correlazione ρ=1 Perfetta concordanza ρ=-1 Perfetta discordanza 39

Relazione tra Caratteri Quantitativi: un esempio Ricavi (X) Costi (Y) 350 205 200 100 600 500 270 180 120 105 340 210 280 140 Scarti X Scarti Y 25 16,11 -125 -88,99 275 161,11 175 81,11 -55 11,11 -145 -68,89 -120 -83,89 15 21,11 -45 -48,89 (Scarti X) x (Scarti Y) 402,8 11111,1 44305,6 14194,4 -611,1 9988,9 10066,7 316,7 2200,0 Media 325 188,89   40

Relazione tra Caratteri Quantitativi: un esempio Ricavi (X) Costi (Y) 350 205 200 100 600 500 270 180 120 105 340 210 280 140   C’è una forte relazione lineare positiva: concordanza tra ricavi e costi Media 325 188,89 Dev std 142,83 82,25 41

Relazione tra Caratteri: summary Tipo di relazione Caratteri Struttura dati Indici Interdipendenza tra X e Y qualsiasi (se qualitativi sconnessi è l’unico tipo di relazione da studiare) Cross tabulation χ2 V (indice relativo) Lineare di Interdipendenza tra X e Y quantitativi Coppie di valori (X,Y) Covarianza, ρ (indice relativo) 42

Relazione tra Caratteri Quantitativi: indipendenza vs incorrelazione Se X ed Y sono indipendenti allora Cov (X, Y ) = 0 Il viceversa però non `e vero: non basta verificare la singola condizione numerica Cov (X, Y ) = 0 per dedurre l’indipendenza. Se la coppia (X, Y ) ha una distribuzione Normale bivariata, allora la condizione Cov (X, Y) ) = 0 implica l’indipendenza. 43