RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
INTERPOLAZIONE MOD.10 CAP.1
Marco Riani STATISTICA A – K (60 ore) Marco Riani
STATISTICA A – K (60 ore) Esercizi di riepilogo al corso
La teoria di portafoglio: cap.7-9
Variabili casuali a più dimensioni
La regressione lineare trivariata
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
ANALISI DELLA COVARIANZA
Analisi multivariata.
Tecniche quantitative per l’analisi nella ricerca sociale
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Marco Riani STATISTICA A – K (60 ore) Marco Riani
STATISTICA A – K (60 ore) Marco Riani
STATISTICA A – K (60 ore) Marco Riani
RELAZIONI TRA 2 FENOMENI QUANTITATIVI
VARIABILI DOPPIE: UN ESEMPIO
STATISTICA 6.0: REGRESSIONE LINEARE
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Statistica sociale Modulo A
G. Barbaro interpolazione1 INTERPOLAZIONE. G. Barbaro interpolazione1 In Statistica e in genere nelle scienze sperimentali, si studiano o si osservano.
Teorie e tecniche di psicologia clinica
Cap. 11 Dipendenza e correlazione
STATISTICA PER LE DECISIONI DI MARKETING
La ricerca delle relazioni tra fenomeni
Associazione tra due variabili
Uso dei Modelli in Statistica
Grandezze e funzioni Marco Bortoluzzi.
Introduzione alla Regressione Lineare e alla Correlazione.
COVARIANZA e CORRELAZIONE.
Interpolazione e regressione
Esercizio 1 1) Calcolare il valore della funzione di ripartizione di una distribuzione di media -5 e scarto quadratico medio pari a 5 nei punti {-10,
Pippo.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
La regressione come strumento di sintesi delle relazioni tra variabili
STATISTICA A – K Marco Riani
Lez. 3 - Gli Indici di VARIABILITA’
Questionario Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
Correlazione e regressione Correlazione Come posso determinare il legame tra due o più variabili? COEFFICIENTE DI CORRELAZIONE (r di Pearson) massimo.
STATISTICA A – K (60 ore) Marco Riani
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
DATA MINING PER IL MARKETING
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Corso di Laurea in Scienze e Tecniche psicologiche
redditività var. continua classi di redditività ( < 0 ; >= 0)
COVARIANZA: DEFINIZIONE E CALCOLO
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
Dipartimento di Economia, Management e Istituzioni APPPLICAZIONI AZIENDALI MEDIANTE FOGLIO ELETTRONICO 4° modulo: Calcoli statistici, Regressione Prof.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Elementi di statistica descrittiva Prof.ssa Nadia Andreuzzi
Esercitazioni su testi d’esame A cura di Gabriella della Pietra.
Transcript della presentazione:

RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani

RELAZIONI TRA 2 FENOMENI QUANTITATIVI Vi è una relazione tra le variabili oggetto di studio? Di quanto variano i valori duna variabile quando cambiano i valori dellaltra? CORRELAZIONE REGRESSIONE

X = NUMERO DI DIPENDENTI Y = FATTURATO (in milioni di euro) Supermercatoxixi yiyi A101,9 B183,1 C203,2 D81,5 E306,2 F122,8 G142,3 Tot.11221,0 M(X) = 16 M(Y) = 3,0

DIAGRAMMA DI DISPERSIONE (SCATTER) M(X) = 16 M(Y) = 3,0 G (14 2,3) E (30 6,2)

DIAGRAMMA DI DISPERSIONE (SCATTER) Punti in I e III relazione diretta Punti in II e IV relazione inversa Punti si distribuiscono casualmente in tutti i quadranti allincirca nella stessa proporzione nessuna relazione lineare tra le due variabili I quadranti in cui compare la maggioranza dei punti indicano il tipo di relazione Losservazione della nuvola di punti nel diagramma di dispersione fornisce una prima idea sulla relazione eventualmente esistente tra i due fenomeni.

X = NUMERO DI DIPENDENTI Y = FATTURATO (in milioni di euro) Supermercatoxixi yiyi (x i – M x )(y i – M y ) A101, ,1 B183, ,1 C203, ,2 D81, ,5 E306, ,2 F122, ,2 G142, ,7 Tot.11221,000 M(X) = 16 M(Y) = 3,0

COVARIANZA = MEDIA ARITMETICA DEI PRODOTTI DEGLI SCOSTAMENTI COV(X,Y) >0 RELAZIONE DIRETTA COV(X,Y) <0 RELAZIONE INVERSA COV(X,Y) =0 X, Y INCORRELATE

X = NUMERO DI DIPENDENTI Y = FATTURATO (in milioni di euro) Supermercatoxixi yiyi (x i – M x )(y i – M y ) (x i -M x )(y i -M y ) A101, ,16,6 B183, ,10,2 C203, ,20,8 D81, ,512 E306, ,244,8 F122, ,20,8 G142, ,71,4 Tot.11221,00066,6 M(X) = 16 M(Y) = 3,0 COV(X,Y)=66,6/7=9,514

Osservazione: per ottenere la covarianza è sufficiente calcolare solo gli scostamenti di una variabile, moltiplicandoli per i valori dell'altra variabile (p. 153)

X = NUMERO DI DIPENDENTI Y = FATTURATO (in milioni di euro) Superm ercato xixi yiyi (x i – M x )(y i – M y ) (x i -M x ) (y i -M y ) (x i -M x ) y i (y i – M y ) x i A101, ,16,6 -11,4-11 B183, ,10,2 6,21,8 C203, ,20,8 12,84 D81, , E306, ,244,8 86,896 F122, ,20,8 -11,2-2,4 G142, ,71,4 -4,6-9,8 Tot ,6 M(X) = 16 M(Y) = 3,0 COV(X,Y)=66,6/7=9,514

Osservazione: può essere ottenuta anche in funzione dei dati originari (p.154) Superm ercato xixi yiyi xiyixiyi A101,9 19 B183,1 55,8 C203,2 64 D81,5 12 E306,2 186 F122,8 33,6 G142,3 32,2 Tot ,6 COV(X,Y) = 402,6/7-16*3=9,514 M(X) = 16 M(Y) = 3,0

Proprietà della covarianza E ESPRESSA NEL PRODOTTO DELLE UNITA DI MISURA DI X E DI Y COV(X,X)=VAR(X) E scale equivariant

Proprietà della covarianza

max | COV (X, Y) | = = [VAR(X) VAR(Y)] 1/2 = = σ(X) σ(Y)

Dimostrazione var(tX-Y)>0 t 2 var(X) -2t cov(X,Y) + var(Y) >0 h(t) è una funzione quadratica in t. Se h(t)>0 le radici non sono reali Δ<0 implica che 4 [cov(X,Y)] 2 -4 var(X) var(Y) <0 [cov(X,Y)] 2 < var(X) var(Y) |cov(X,Y)| < σ(X) σ(Y)

Come ovviare ai difetti della COV? La covarianza ha il difetto di risentire dell'unità di misura e dell'ordine di grandezza dei due fenomeni originari essendo espressa in termini del prodotto delle unità di misura di X e Y I valori che essa può assumere non sono compresi in un intervallo di interpretazione immediata,

RICHIAMO SCOSTAMENTI STANDARDIZZATI (p. 125) Proprietà: M z = 0 z = 1 puri numeri confronto tra fenomeni diversi

COEFFICIENTE DI CORRELAZIONE r xy (media dei prodotti degli scostamenti standardizzati è un numero puro)

SCOSTAMENTI STANDARDIZZATI Superm ercato xixi yiyi (x i – M x )/σ x (y i – M y )/σ y (x i – M x ) (y i – M y )/(σ x σ y ) A101,9 -0,87-0,770,67 B183,1 0,290,070,02 C203,2 0,580,140,08 D81,5 -1,15-1,051,21 E306,2 2,022,244,53 F122,8 -0,58-0,140,08 G142,3 -0,29-0,490,14 Tot.11221,0 006,73

r xy =6,73/7 =0,961 Superm ercato xixi yiyi (x i – M x ) (y i – M y )/σ x σ y A101,9 0,67 B183,1 0,02 C203,2 0,08 D81,5 1,21 E306,2 4,53 F122,8 0,08 G142,3 0,14 Tot.11221,0 6,73

Formule di calcolo alternative (p. 157)

Formule di calcolo alternative:

Interpretazione di r r xy = -1 perfetta relazione lineare inversa tra X ed Y (cioè quando y i = a + bx i, con b < 0 e a numero qualsiasi) r xy = 0 X ed Y sono incorrelate (non vi è tra loro un legame lineare; non si esclude però leventuale esistenza duna relazione non lineare, ad esempio parabolica o sinusoidale) r xy = +1 perfetta relazione lineare diretta tra X ed Y (cioè quando y i = a + bx i, con b > 0 e a numero qualsiasi)

Punti in situazioni estreme e r xy

Esemplificazione di dati con diverso valore del coefficiente di correlazione lineare

|r xy |= 1 se e solo cè perfetta relazione lineare tra X ed Y Se Y = a+|b| X

Esempio: 7 supermercati Super- mercat o (x i – M x )(y i – M y )(x i -M x )* (y i -M y ) (x i -M x ) 2 (y i -M y ) 2 A- 6- 1,16,6361,21 B+ 2+ 0,10,240,01 C+ 4+ 0,20,8160,04 D- 8- 1,512642,25 E ,244,819610,24 F- 4- 0,20,8160,04 G- 2- 0,71,440,49 Tot.0066,633614,28 COV(X,Y) = 66,6/7=9,514 VAR(X) = 336/7 = 48 VAR(Y) = 14,28/7 =2,04

Esempio: 7 supermercati (continua) Super- mercato (x i -M x )(y i -M y )(x i -M x ) 2 (y i -M y ) 2 A6,6361,21 B0,240,01 C0,8160,04 D12642,25 E44,819610,24 F0,8160,04 G1,440,49 Tot.66,633614,28 COV(X,Y) = 66,6/7=9,514 VAR(X) = 336/7 = 48 VAR(Y) = 14,28/7=2,04

Caratteristiche di r Dato che r xy = r yx, il coefficiente di correlazione è una misura simmetrica in X ed Y interdipendenza tra le due variabili. In esso non si assume una variabile come antecedente e laltra come conseguente, ma si valuta semplicemente il legame vicendevole tra X ed Y.

Proprietà di r xy (p. 160) è invariante in senso forte (cioè presenta lo stesso valore numerico) per trasformazioni lineari crescenti di una o di entrambe le variabili

Proprietà di r xy Proprietà di invarianza per trasformazioni lineari: il coefficiente di correlazione lineare rimane invariato effettuando una trasformazione lineare crescente di una o di entrambe le variabili. se si cambia lorigine del sistema di misurazione e/o lunità di misura in cui sono espresse le variabili, il valore del coefficiente di correlazione non varia.

Applicazione della precedente proprietà Si ottiene il medesimo valore di r xy anche effettuando il calcolo sui n.i. a base fissa

Esemplificazione di dati con diverso valore del coefficiente di correlazione lineare, in presenza di dati contaminati indicati con il simbolo * (p. 162)

Es: 6 famiglie, ammontare della spesa annua (in euro) per lacquisto di due generi di largo consumo: latte fresco e biscotti. (i) r xy ? (ii) commento (iii) diagramma di dispersione (iv) concordanza tra r xy e diagramma di dispersione (v) Perché r xy invece della retta di regressione? Famiglia Spesa annua per lacquisto di latte fresco () Spesa annua per lacquisto di biscotti () A B C D E F M(x)= M(y)= 119.2

CORRELAZIONE FRA DUE S.S. Esempio: X = numero di extracomunitari iscritti al collocamento, Y = numero di discount Calcolare e commentare r XY tra le variabili originarie, i NI a base fissa, le variazioni percentuali a base fissa, i NI a base mobile, le variazioni percentuali a base mobile AnniXY