Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1.

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
INTERPOLAZIONE MOD.10 CAP.1
Le distribuzioni di probabilità continue
2. Introduzione alla probabilità
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
____________________
Il chi quadro indica la misura in cui le
COORDINATE POLARI Sia P ha coordinate cartesiane
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
Variabili casuali a più dimensioni
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
ANALISI DELLA COVARIANZA
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Analisi Bivariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Esercizio 1 In una indagine statistica si vuole rilevare il numero di cellulari posseduti dagli studenti iscritti alla facoltà di economia. Si dica: -
EIE 06/07 II / 1 Strumenti delle politiche agricole in economia aperta equilibrio di mercato in economia aperta politiche di un paese importatore politiche.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Capitolo 9 I numeri indici
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Processi Aleatori : Introduzione – Parte I
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
G. Barbaro interpolazione1 INTERPOLAZIONE. G. Barbaro interpolazione1 In Statistica e in genere nelle scienze sperimentali, si studiano o si osservano.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
1ROL - Richieste On Line Ente pubblico 5ROL - Richieste On Line.
I NUMERI IMMAGINARI X2 + 1 = 0 X2 = -1
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
SCOPRI LA TABELLINA click Trova la regola nascosta… click
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
Associazione tra due variabili
1101 = x 10 x 10 x x 10 x = CORRISPONDENZE
Introduzione alla Regressione Lineare e alla Correlazione.
Bando di Residenza Cap Scheda ENTE 3ROL - Richieste On Line.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Gli italiani e la caccia (ricerca quantitativa – luglio 2013)
La regressione come strumento di sintesi delle relazioni tra variabili
Bando Pittori e Scultori in Piemonte alla metà del ‘700
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
lun mar mer gio ven SAB DOM FEBBRAIO.
Statistica La statistica è
Modulo 5 - Database. Contenuti della lezione 5.1.1Concetti Fondamentali 5.1.2Organizzazione di un Database 5.1.3Relazioni 5.2.1Lavorare con i database.
Equazioni differenziali e applicazioni economiche
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
ANALISI E INTERPRETAZIONE DATI
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Analisi delle osservazioni
Classi di addettiF >2504 La seguente tabella riporta la distribuzione di 100 aziende per classi di addetti. a.Si calcoli:
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Corso di Analisi Statistica per le Imprese 2
Transcript della presentazione:

Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1

Distribuzione doppia di frequenza Addetti Genere respons 6 M 10 F 7 3 4 Genere responsabile M F 3 4 6 7 10 2 1 Addetti 2 1 1 2  Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2  Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 2

Distribuzione doppia di frequenza Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 1 è la frequenza congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile Addetti 3

Distribuzione doppia di frequenza Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione marginale del genere del responsabile (distribuzione di frequenza semplice del carattere “genere del responsabile”) Addetti Qual è la proporzione di punti vendita il cui responsabile è una femmina? 4

Distribuzione doppia di frequenza Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione marginale degli addetti (distribuzione di frequenza semplice del carattere “numero di addetti”) Addetti 5

Distribuzione doppia di frequenza Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione parziale del numero di addetti, condizionata alla modalità “maschio” del carattere “genere del responsabile” Addetti Distribuzione del numero di addetti dato che il genere del responsabile è “maschio” Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo? 6

Distribuzione doppia di frequenza Genere responsabile Tot M F 3 2 4 1 6 7 10 5 9 Distribuzione parziale del genere del responsabile, condizionata alla modalità “6” del carattere “numero di addetti” Addetti Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6 Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina? 7

Distribuzione doppia di frequenza Ubicazione Vendita on line centro si periferia Semicentro no Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Ubicazione 8

Distribuzione doppia di frequenza Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Qual è la proporzione di p.v. ubicati in centro? Nel sottoinsieme dei p.v. che effettuano anche la vendita on line, qual è la proporzione di p.v. ubicati in centro? Ubicazione Qual è la proporzione di p.v. che vendono anche on line? Nel sottoinsieme di p.v. ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line? 9

Distribuzione doppia di frequenza Y Tot y1 … yj yK X X1 n11 n1j n1k n1. Xi ni1 nij nik ni. xH nH1 nHj nHK nH. n.1 n.j n.K n 2 distribuzioni marginali H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y 10

Relazioni tra variabili: indipendenza Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essi Se tra X e Y non c’è alcun legame X e Y sono indipendenti statisticamente Tra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro 11

Associazione In presenza di un qualche legame (associazione) tra X e Y, lo studio della relazione tra i due caratteri richiede di: distinguere la tipologia di caratteri che si esaminano specificare se si è interessati a studiare la dipendenza o l’interdipendenza 12

Dipendenza e interdipendenza studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale Interdipendenza: Si assume che i due caratteri abbiano lo stesso ruolo e che il legame sia bidirezionale 13

Caratteri qualitativi sconnessi Tabella doppia di frequenza Frequenze osservate nij Frequenze teoriche (quelle che si osserverebbero in caso di indipendenza statistica) La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra ciascuna frequenza osservata e la corrispondente frequenza teorica 14

Freq. osservate e freq. teoriche Y Tot y1 … yj yK X X1 n11 n1j n1k n1. Xi ni1 nik xH nH1 nHj nHK nH. n.1 n.K Freq. osservate Freq. che si utilizzano per ricavare le freq. teoriche nij ni. n.j n 15

Frequenze osservate Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Ubicazione 16

Frequenze teoriche Vendita on line Tot si no Centro 4 Semicentro 2 Perif. 3 6 9 Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte? Ubicazione 17

Frequenze osservate e teoriche Vendita on line Tot si no Centro 2 4 Semicentro Perif. 1 3 6 9 Vendita on line Tot si no Centro 1,33 2,67 4 Semicentro 0,67 2 Perif. 1 3 6 9 Osservate Teoriche Ubicazione Ubicazione Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri Qual è il grado di associazione tra i due caratteri? 18

Interdipendenza: Indice Chi-quadrato Studia l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una tabella doppia indipendenza statistica interdipendenza 19

Interdipendenza: Indice V di Cramer Indice relativo per misurare l’associazione (interdipendenza) tra due caratteri qualitativi V=0 indipendenza statistica V=1 associazione perfetta Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y 20

Calcolo di χ2 e V H=3, K=2 quindi il minimo tra H-1 e K-1 è uguale a 1 21

Per caratteri che non sono qualitativi sconnessi Se X e/o Y sono qualitativi ordinati o quantitativi (in classi), un’analisi esplorativa sulla tabella doppia con l’indice Chi-quadrato è sempre possibile Tuttavia ci sono indici più opportuni da utilizzare 22

Un carattere quantitativo e uno qualsiasi Se Y è un carattere quantitativo e X è qualitativo o quantitativo discreto o quantitativo continuo ma raggruppato in classi si può costruire un indice che misuri l’intensità della dipendenza in media di Y da X, si parla di rapporto di correlazione. 23

Caratteri quantitativi Se X e Y sono quantitativi si può costruire un indice che misuri l’intensità del legame lineare tra le variabili (covarianza, coefficiente di correlazione). 24

Rappresentazione grafica Grafico di dispersione Due variabili quantitative Ricavi sull’asse X Costi sull’asse Y Ogni punto rappresenta una unità (un punto vendita) Le coordinate (x,y) del punto rappresentano i valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita n=9 coppie di valori del tipo (xi,yi) 25

Grafico di dispersione Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due variabili In questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassi C’è una relazione lineare positiva (concordanza) tra costi e ricavi 26

Interdipendenza tra due caratteri quantitativi Covarianza: Indice simmetrico di associazione tra due variabili quantitative Cov > 0 se prevalgono scostamenti concordi di X e Y (bassi valori di X corrispondenti a bassi valori di Y oppure alti valori di X corrispondenti a alti valori di Y). Cov < 0 se prevalgono scostamenti discordi (alti valori di una variabile associati a bassi valori dell’altra variabile) Cov = 0 in assenza di relazione lineare tra X e Y 27

Covarianza nulla Cov(X,Y)=0 28

Covarianza positiva (concordanza) Cov(X,Y)>0 29

Covarianza negativa (discordanza) Cov(X,Y)<0 30

Legame non lineare La relazione tra X e Y non è di tipo lineare Ci aspettiamo un valore di Cov(X,Y) prossimo allo 0, il che indica assenza di legame lineare X e Y NON sono indipendenti, ma legati da una forte relazione di tipo non lineare 31

Correlazione lineare Indice relativo di concordanza/discordanza perfetta discordanza discordanza assenza di legame lineare concordanza concordanza perfetta 32

Concordanza e discordanza perfetta ρ=1 Perfetta concordanza ρ=-1 Perfetta discordanza 33

Calcolo della covarianza Ricavi (X) Costi (Y) 350 205 200 100 600 500 270 180 120 105 340 210 280 140 Scarti X Scarti Y 25 16,11 -125 -88,99 275 161,11 175 81,11 -55 11,11 -145 -68,89 -120 -83,89 15 21,11 -45 -48,89 (Scarti X) x (Scarti Y) 402,8 11111,1 44305,6 14194,4 -611,1 9988,9 10066,7 316,7 2200,0 Media 325 188,89 34

Calcolo del coefficiente di correlazione Ricavi (X) Costi (Y) 350 205 200 100 600 500 270 180 120 105 340 210 280 140 C’è una forte concordanza tra ricavi e costi Media 325 188,89 Dev std 134,66 78,48 35

Ancora sulla covarianza 36

Relazioni tra variabili: riepilogo Tipo di relazione Caratteri Struttura dati Indici Interdipendenza tra X e Y qualsiasi (se qualitativi sconnessi è l’unico tipo di relazione da studiare) Tabella doppia di frequenze χ2 V (relativo) Dipendenza in media di Y da X Y quantitativo X qualsiasi (se quantitativo continuo, in classi) Valori raggruppati in base alle modalità di X η2 (relativo) Interdipendenza tra X e Y (concordanza/discordanza) quantitativi Coppie di valori Cov ρ (relativo) 37

Relazioni tra variabili: applicazioni Si vuole investire nel mercato azionario italiano e in quello di un altro Paese con l’obiettivo di diversificare il portafoglio. Sulla base delle serie mensili delle variazioni del Morgan Stanley Capital Index (MSCI) riferito a Italia, Germania, Francia e Singapore si hanno i seguenti risultati: ρ Italia-Francia 0.87 Italia-Germania 0.88 Italia-Singapore 0.63 Il suggerimento è di investire in titoli azionari italiani e di Singapore. Perché? 38

Relazioni tra variabili: applicazioni Dalla teoria economica sappiamo che esiste una relazione tra la variabile produzione (misurata tramite il valore aggiunto) e gli input fattore capitale e fattore lavoro. Dalle serie storiche (1970-1983) delle tre variabili si ottengono i grafici di dispersione del valore aggiunto e, rispettivamente, l’input di capitale e l’input di lavoro 39

Relazioni tra variabili: applicazioni Il valore aggiunto ha una correlazione maggiore con l’input di capitale (grafico a sinistra) che con l’input di lavoro (grafico a destra) 40