Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Advertisements

Come organizzare i dati per un'analisi statistica al computer?
Distribuzione Normale o Curva di Gauss
Variabili casuali a più dimensioni
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Esercizio 1 In una indagine statistica si vuole rilevare il numero di cellulari posseduti dagli studenti iscritti alla facoltà di economia. Si dica: -
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Analisi della varianza (a una via)
L’analisi Bivariata Studia la relazione fra coppie di variabili.
Processi Aleatori : Introduzione – Parte I
Corso di biomatematica Lezione 2: Probabilità e distribuzioni di probabilità Davide Grandi.
Corso di biomatematica lezione 6: la funzione c2
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Analisi delle corrispondenze
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
I principali tipi di grafici
Corso di POPOLAZIONE TERRITORIO E SOCIETA’ 1 AA
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
COVARIANZA e CORRELAZIONE.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
STATISTICA La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi (descritti attraverso formule.
La regressione come strumento di sintesi delle relazioni tra variabili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Gli indici di dispersione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Strumenti statistici in Excell
Corso di Laurea in Scienze e Tecniche psicologiche
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13.
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Elementi di teoria delle probabilità
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Ipotesi operative TeoriaEsperienza diretta e/o personale Quesito Piano esecutivo Scelta popolazione Scelta strumenti Scelta metodi statistici Discussione.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Gli Indici di VARIABILITA’
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Statistica descrittiva bivariata
Statistica descrittiva bivariata
Statistica descrittiva bivariata
Statistica descrittiva bivariata
Transcript della presentazione:

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media

Variabili Si usa il termine variabile (oppure carattere) per indicare ogni caratteristica che viene rilevata su ciascuna unità statistica: Variabili qualitative Ordinali: variabili qualitative che, come il titolo di studio, hanno modalità ordinabili, cioè possono essere ordinate in senso crescente, dal più basso al più alto. Esempi: la valutazione della critica su un film, la categoria di un albergo etc. Nominali: variabili qualitative che, come il sesso e la regione di residenza, non hanno modalità ordinabili, si dicono anche variabili qualitative sconnesse. Variabili quantitative Discrete: i valori con cui si può manifestare la variabile costituiscono un insieme finito di numeri reali – ossia un insieme discreto. Esempi: numero componenti nucleo familiare, numero stanze abitazione. Continue : L’altezza o il peso di una persona sono grandezze misurabili quindi variabili continue. Occorre pensare al loro comportamento potenziale, possono assumere ogni valore in un intervallo, cioè in un insieme continuo di numeri reali (ad esempio 1 metro 78 centimetri 2 millimetri ….).

Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) var. quantitative: analisi di correlazione lineare una var. qualitativa e una quantitativa: confronto tra le medie

Tavole di contingenza Sono tabelle a doppia entrata; i valori riportati all’interno della tabella sono le frequenze congiunte assolute, e la loro somma è pari al totale dei casi osservati. Dalla tabella si possono ricavare inoltre le distribuzioni marginali, sommando per riga e per colonna le frequenze congiunte; le frequenze relative congiunte, pari al rapporto tra le frequenze assolute congiunte e il totale dei casi osservati.

Tavole di contingenza Dalle tabelle di contingenza si possono ricavare ulteriori distribuzioni unidimensionali : Frequenze subordinate ovvero la frequenza di osservare il carattere x dato il carattere y e viceversa. Formalmente: P y|x (xi,yj) = P (xi,yj) / P x(xi) P x|y (xi,yj) = P (xi,yj) / P y(yj) Indipendenza statistica se al variare di X le distribuzioni subordinate (Y|X)= xi sono tutte uguali tra loro,si può concludere che la distribuzione del carattere Y non dipende da X. Nel caso di indipendenza statistica, la frequenza relativa congiunta è pari al prodotto delle marginali corrispondenti P(xi,yj)=Px (xi)Py(yj) L’indipendenza stat. è un concetto simmetrico: se vale per X, vale anche per Y. Se si verifica, vuol dire che l’analisi bivariata di X (Y) non dà informazioni aggiuntive rispetto all’analisi univariata.

Tavole di contingenza Perfetta dipendenza unilaterale ad ogni valore di X corrisponde un solo valore di Y, ma non è detto che si verifichi il contrario. In generale, quando il numero di colonne (valori assunti dalla Y) è inferiore al numero di righe (valori assunti dalla X) non è mai possibile che X dipenda perfettamente da Y. Perfetta dipendenza bilaterale ad ogni valore di X corrisponde un solo valore di Y e viceversa; la perfetta dipendenza bilaterale si può avere allora solo per matrici quadrate.

χ²=N Σ Σ [P(xi,yj)-Px(xi) y(yj)] ²/ Px(xi) Py(yj) Indici di connessione Nella realtà è difficile che si verifichi la condizione di indipendenza statistica. Pertanto è utile disporre di indici che misurino il grado di connessione tra le variabili. χ² (chi-quadrato) assume valore nullo se i fenomeni X e Y sono indipendenti. Risente del numero delle osservazioni effettuate quindi al crescere di N, l’indice tende a crescere. χ²=N Σ Σ [P(xi,yj)-Px(xi) y(yj)] ²/ Px(xi) Py(yj)

Indici di connessione Un indice più efficace (perchè relativo, e dunque non risente del numero di osservazioni) è l’indice di Cramer V, basato sul χ². assume valori compresi tra 0 e 1: 0 nel caso di indipendenza statistica, 1 nel caso di perfetta dipendenza almeno unilaterale e tende a crescere all’aumentare del grado di dipendenza delle variabili considerate.

χ²=N Σ Σ [P(xi,yj)-Px(xi) y(yj)] ²/ Px(xi) Py(yj) Indici di connessione Nella realtà è difficile che si verifichi la condizione di indipendenza statistica. Pertanto è utile disporre di indici che misurino il grado di connessione tra le variabili. χ² (chi-quadrato) assume valore nullo se i fenomeni X e Y sono indipendenti. Risente del numero delle osservazioni effettuate quindi al crescere di N, l’indice tende a crescere. χ²=N Σ Σ [P(xi,yj)-Px(xi) y(yj)] ²/ Px(xi) Py(yj)

Indici di connessione Un indice più efficace (perchè relativo, e dunque non risente del numero di osservazioni) è l’indice di Cramer V, basato sul χ². assume valori compresi tra 0 e 1: 0 nel caso di indipendenza statistica, 1 nel caso di perfetta dipendenza almeno unilaterale e tende a crescere all’aumentare del grado di dipendenza delle variabili considerate.

Tavole di contingenza Che relazione c’è tra la professione e il fatto di avere una polizza vita?

Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) var. quantitative: analisi di correlazione lineare una var. qualitativa e una quantitativa: confronto tra le medie

Correlazione lineare Le misure di connessione possono essere applicate a variabili qualitative. Se si vuole misurare il grado di concordanza tra due variabili quantitative occorre utilizzare altri indici: Covarianza Cov(X,Y) è un indice che assume valori positivi se vi è concordanza tra X e Y (a modalità elevate dell’una, corrispondono modalità elevate dell’altra); assume valori negativi nel caso di discordanza (a modalità elevate dell’una non corrispondono modalità elevate dell’altra). Nel caso di indipendenza statistica, la covarianza assumerà valore nullo. È un indice assoluto, ovvero segnala la presenza e la direzione di un legame tra due variabili, ma nulla si può dire sul grado del loro legame. Cov(X,Y)= Σ Σ (xi-μx) (yj- μy) p(xi,yj)

Correlazione lineare Covarianza tra due variabili: Cov(x,y) > 0 x e y tendono a muoversi nella stessa direzione Cov(x,y) < 0 x e y tendono a muoversi in direzioni opposte Cov(x,y) = 0 x e y no relazione lineare Riguarda solo la forza della relazione, ma non implica un effetto causale

Correlazione lineare Coefficiente di correlazione lineare ρ(X,Y) è un indice relativo che ovvia al problema del precedente indice. Assume valori compresi tra -1 e 1. In particolare vale 1 se e solo se Y è funzione lineare di X (e viceversa) e in questo caso i punti corrispondenti alle osservazioni sono disposti su una retta con inclinazione positiva. Analogamente l’indice assume valore -1 nel caso in cui i punti siano disposti su una retta con inclinazione negativa. Assume valore nullo se tra le variabili non è presente alcun tipo di relazione lineare (indipendenti in correlazione).

Correlazione lineare Coefficiente di correlazione lineare ρ(X,Y) : ρ = 0 non c’è relazione lineare tra X e Y ρ > 0 relazione lineare positiva tra X e Y quando X assume valori alti (bassi) allora anche Y probabilmente assume valori alti (bassi) ρ = +1 => dipendenza lineare perfetta positiva ρ < 0 relazione lineare negativa tra X e Y quando X assume valori alti (bassi) allora Y probabilmente assume valori bassi (alti) ρ = -1 => dipendenza lineare perfetta negativa

Correlazione lineare Senza unità di misura Campo di variazione fra –1 e 1 Quanto più è vicino a –1, tanto più è forte la relazione lineare negativa Quanto più è vicino a 1, tanto più è forte la relazione lineare positiva Quanto più è vicino a 0, tanto più è debole la relazione lineare

Correlazione lineare Y Y Y X X X r = -1 r = -0.6 r = 0 Y Y Y X X X

Correlazione lineare

Correlazione lineare C’è una relazione lineare tra la lunghezza e la profondità dei laghi? Il coeff. di correlazione lineare tende a zero, le due variabili sono linearmente indipendenti

Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) var. quantitative: analisi di correlazione lineare una var. qualitativa e una quantitativa: confronto tra le medie

Confronto tra le medie Per misurazione della connessione tra una variabile quantitativa Y e una qualitativa X, è possibile confrontare le distribuzioni condizionate di Y tramite le medie condizionate.

Confronto tra le medie Se si vuole incrociare una variabile quantitativa con una variabile qualitativa, la loro relazione può essere descritta confrontando le medie della variabile numerica all’interno delle categorie definite dalla variabile misurata a livello nominale/ordinale. Rapidità Tipo cliente Media N Persone fisiche 7.8403 357 Aziende 8.5132 76 Totale 7.9584 433

Confronto tra le medie Un indice sintetico dell’intensità della relazione si basa sulla scomposizione della varianza per la variabile quantitativa Y, di cui viene studiata la dipendenza nei confronti della variabile categorica X. La variabilità totale di Y è SQTy=SQtra + SQnei dove SQTy (somma dei quadrati tot) è la variabilità totale, SQtra variabilità tra i gruppi (somma dei quadr. tra i gruppi) esprime quanta variabilità di Y può essere legata al variare delle categorie di X, SQnei variabilità interna ai gruppi (somma dei quadr. nei gruppi) esprime la variabilità nell’andamento di Y indipendente da X.

Confronto tra le medie E’ quindi possibile definire un indice relativo per misurare la dipendenza in media, come η2= SQtra /SQTy=1-(SQnei /SQTy) Per l’interpretazione del valore assunto da η2 si consideri che: η2= 0 ⇒ indipendenza in media η2> 0 ⇒ dipendenza in media η2= 1 ⇒ massima dipendenza in media η2 è sempre compreso tra 0 e 1.

in media della produzione Confronto tra le medie Modesta dipendenza in media della produzione artigianale dall’età In caso di indipendenza in media le medie dei diversi gruppi (medie condizionate ai diversi livelli della variabile qualitativa) saranno tutte uguali tra loro e quindi la variabilità tra i gruppi sarà nulla. Viceversa qualora ad ogni livello della variabile qualitativa sia associato un unico valore della variabile quantitativa, si parlerà di massima dipendenza in media e si avrà variabilità interna ai gruppi nulla. Per misurare l’intensità della dipendenza in media si può utilizzare l’indice η2.

Confronto tra le medie La pubblicità ha influenzato le vendite di snacks? Esiste una relazione di dipendenza in media tra le due variabili Devianza Varianza Tra Nei (Entro) eta quadro

Summary Tipologia variabili Tipo di analisi Indici di connessione 2 variabili qualitative e/o quantitative discrete DIPENDENZA STATISTICA - TABELLA DI CONTINGENZA - CHI QUADRO - V DI CRAMER 2 variabili quantitative continue DIPENDENZA LINEARE - COVARIANZA - INDICE DI CORRELAZIONE DI PEARSON 1 variabile quantitativa continua e 1 variabile qualitativa DIPENDENZA IN MEDIA - η2 (ETA QUADRO)

Esempio Siano X e Y due variabili di cui si vuole indagare la relazione bivariata. Quali indici utilizzare nei seguenti casi? X= peso in kg e Y= altezza in cm X= sesso e Y= altezza in cm X= sesso e Y= fumatore (SI/NO)