Cap. 11 Dipendenza e correlazione

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Le distribuzioni di probabilità continue
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Sistema di riferimento sulla retta
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
Distribuzione Normale o Curva di Gauss
Intervalli di confidenza
“Teoria e metodi della ricerca sociale e organizzativa”
Variabili casuali a più dimensioni
Lez. 3 - Gli Indici di VARIABILITA’
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Esercizio 1 In una indagine statistica si vuole rilevare il numero di cellulari posseduti dagli studenti iscritti alla facoltà di economia. Si dica: -
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Esercizi x1=m-ts x2=m+ts
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
La logica della regressione
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Esercizi x1=m-ts x2=m+ts
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi delle corrispondenze
Cap. 10 Indipendenza, connessione e associazione Cioè l’analisi statistica congiunta di una coppia di fenomeni qualitativi.
I principali tipi di grafici
Principali analisi statistiche
Corso di POPOLAZIONE TERRITORIO E SOCIETA’ 1 AA
La ricerca delle relazioni tra fenomeni
Associazione tra due variabili
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
COVARIANZA e CORRELAZIONE.
Simone Mosca & Daniele Zucchini 4Bi.
La regressione come strumento di sintesi delle relazioni tra variabili
Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e sintetizza matematicamente il comportamento congiunto di.
Lez. 3 - Gli Indici di VARIABILITA’
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Anova a due fattori Esempio di piano fattoriale: il caso della progettazione robusta di batterie Tipo di Materiale Temperatura (°F)
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Gli indici di dispersione
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Corso di Laurea in Scienze e Tecniche psicologiche
Analisi e gestione del rischio
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
Introduzione a rischio, rendimento e costo opportunità del capitale
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
analisi bidimensionale #2
Correlazione e regressione lineare
La covarianza.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
Statistica con Excel Corso di Fisica ed Elementi di Laboratorio ed Informatica CdL Scienze Biologiche AA 2015/2016.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Gli Indici di VARIABILITA’
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Transcript della presentazione:

Cap. 11 Dipendenza e correlazione

Attenzione: non significa necessariamente dare una interpretazione di causa-effetto, ma solo misurare l’intensità della relazione Premessa Quanto visto nel capitolo 10 è applicabile a fenomeni di qualsiasi natura (quindi anche solo qualitativi): utilizzando solo le frequenze abbiamo potuto rilevare l’esistenza o meno di una relazione statistica tra X e Y e misurarne l’intensità con un indice sintetico normalizzato. Quando almeno uno dei due fenomeni congiuntamente osservati su U è quantitativo è possibile aumentare il livello di analisi: utilizzando sia le frequenze che le modalità è possibile anche dare un verso alla relazione, cioè stabilire se, quanto e come X influenza Y o viceversa. Se entrambi i fenomeni sono quantitativi e di conseguenza l’intera v.s. doppia è numerica è possibile esplorare ancora più in dettaglio la natura e la tipologia della relazione.

Medie e varianze marginali

14 x 5 x 1 1 x 2 Incidenti 1 2 Genere M 6 3 1 10 F 8 2 10 14 5 1 20 Calcolare numero medio di incidenti e varianza

Medie e varianze condizionate

M F Calcolare numero medio di incidenti e varianza condizionati al genere

Proprietà di associatività della media La media marginale è uguale alla media (ponderata) delle medie condizionate

Medie condizionate e proprietà associativa delle medie La media marginale è uguale alla media (ponderata) delle medie condizionate

Numero medio di incidenti marginali e condizionati al genere Proprietà associativa della media CVD

Varianze marginali e condizionate al genere Quale distribuzione è più variabile?

Scomponibilità della varianza marginale (corrisponde all’associatività delle medie ma è un po’ diversa) La media marginale è uguale alla media (ponderata) delle medie condizionate La varianza marginale è (?) uguale alla media (ponderata) delle varianze condizionate + la varianza delle medie condizionate

Scomponibilità della varianza marginale (corrisponde all’associatività delle medie ma è un po’ diversa) La media marginale è uguale alla media (ponderata) delle medie condizionate VARIANZA NEI GRUPPI La varianza marginale è uguale alla media (ponderata) delle varianze condizionate + la varianza delle medie condizionate

Scomponibilità della varianza marginale (corrisponde all’associatività delle medie ma è un po’ diversa) VARIANZA FRA GRUPPI VARIANZA NEI GRUPPI La varianza marginale è uguale alla media (ponderata) delle varianze condizionate + la varianza delle medie condizionate

Scomponibilità della varianza marginale (corrisponde all’associatività delle medie ma è un po’ diversa) La varianza marginale è uguale alla media (ponderata) delle varianze condizionate + la varianza delle medie condizionate Between Within VARIANZA NEI GRUPPI VARIANZA FRA GRUPPI

Scomponibilità della varianza Media delle varianze (condizionate) Varianza delle medie (condizionate)

X qualsiasi e Y quantitativo Studio della dipendenza in media

Un’interpretazione grafica e alcune formule alternative Condizionate Marginale Parte di variabilità di Y dovuta alla differenza tra le medie condizionate

Si può interpretare come parte di variabilità di Y spiegata da X Interpretazione del rapporto Quando accade che Parte di variabilità dovuta ad X Si può interpretare come parte di variabilità di Y spiegata da X

Indice di dipendenza (rapporto di correlazione) Si può interpretare come parte di variabilità di Y spiegata da X Solo se le varianze condizionate sono (quasi) uguali In questo caso, soprattutto se già si sa che X è causa di Y, il rapporto si può interpretare come misura di quanto Y dipende da X Ma di per sé un elevato rapporto non significa necessariamente che X sia causa di Y Se le varianze condizionate sono molto diverse il rapporto si può interpretare solo come parte di variabilità di Y “dovuta alla differenza tra le medie” N.B. in tutti i libri di testo l’ interpretazione (1) viene estesa anche al caso in cui le varianze condizionate siano diverse, ma a parer nostro è azzardata

Aumenta Fissate le varianze condizionate Se cresce la distanza tra le medie Aumenta Aumenta la varianza marginale e quella FRA gruppi

Aumenta In particolare Se le varianze condizionate tendono a ridursi Fissate le distanze tra le medie Aumenta In particolare Si riduce la varianza marginale e quella NEI gruppi

Indipendenza Statistica e Rapporto di correlazione Se tra X e Y ci fosse I.S. allora le distribuzioni condizionate sarebbero tutte uguali alle marginali Quando il rapporto è pari a zero si dice anche che c’è indipendenza in media di Y da X

1 Indice di dipendenza di Y da X Rapporto di correlazione di Y da X In genere non si sa se X causa Y, ma se il rapporto è molto alto, questo fa sorgere il dubbio che sia così Indipendenza in media di Y da X Forte dipendenza di Y da X 1

Se il rapporto è uguale a zero si dice che Y è indipendente in media da X L’Indipendenza in Media non implica l’Indipendenza Statistica L’Indipendenza Statistica implica l’Indipendenza in Media X e Y statisticamente indipendenti X e Y non statisticamente indipendenti

Indipendenza Statistica Se NON c’è Indipendenza in Media NON ci può essere Indipendenza Statistica

Un alto rapporto di correlazione non garantisce l’esistenza Alcuni elementi di riflessione importanti Se si è sicuri che X sia causa di Y come segue: a valori diversi di X corrispondono valori diversi delle medie di Y|x e le varianze condizionate sono quasi uguali misura la parte di variabilità di Y dovuta ad X Se non vale b) allora solo “Parte di variabilità dovuta alla diversità delle medie” molto vicino ad 1, allora è possibile pensare che X sia causa di Y Un alto rapporto di correlazione non garantisce l’esistenza di una relazione di causa – effetto (quanto meno necessario affiancare una teoria)

Esempio: Genere e Incidenti stradali Tuttavia le varianze sono molto diverse Between Within VARIANZA NEI GRUPPI VARIANZA FRA GRUPPI

Esempio

La scomposizione ci dice che la variabilità della speranza di vita nei Paesi ONU (cioè il fatto che Paesi diversi abbiano una diversa speranza di vita) è complessivamente misurabile con la varianza marginale s2Y = 118.74 che per la parte s2FRA = 33.31 dipende dall’accesso all’acqua potabile e per la parte s2NEI = 85.43 non dipende dall’accesso all’acqua potabile. Senza dubbio l’accesso all’acqua influisce sulla speranza di vita per cui in questo caso il rapporto ci dice quanta parte (28%) della variabilità della speranza di vita dipende da tale accesso

X e Y non sono indipendenti X e Y non sono indipendenti. Ad esempio: (il c2 normalizzato è intorno al 10%). La connessione però sparisce se si sintetizzano le distribuzioni condizionate nelle loro medie

L’elevato valore del rapporto di correlazione induce a pensare ad una relazione di causa-effetto tra X e Y La varianza NEI è pari a 0, tutta la varianza totale è dunque varianza FRA; l’indice di dipendenza è pari a 1

Esempio: Y è indipendente in media da X: X dipende perfettamente da Y:

X e Y entrambi quantitativi Covarianza e correlazione

Successione dei dati statistici Successioni doppie (X, Y) quantitative: rappresentazione mediante scatterplot Successione dei dati statistici Y : peso La struttura della nuvola è indicativa dell’eventuale tipo di relazione esistente tra X e Y X : statura Successione dei dati statistici

Diagramma a dispersione (scatter plot) La tabella osservata viene rappresentata sul diagramma come una nuvola di k × h punti. Le coppie di valori osservati (xi,yj) sono le coordinate. Se X e Y sono statisticamente indipendenti, i punti si presentano sparpagliati sul diagramma, senza alcuna struttura. Se tra X e Y c’è una relazione statistica, la nuvola di punti si presenta strutturata. Questa struttura ci dà informazioni sul tipo di relazione esistente. Le variabili sono indipendenti tra loro

Posso avvicinarmi alla bocca del geiser “Old Faithful”? Dovrei avere almeno 68’ di tempo (ma meglio venire via prima) Maggiore è (X) la durata dell’eruzione più alto è (Y) l’intervallo di tempo tra due eruzioni successive

Covarianza: misura di variabilità congiunta Tenderà ad assumere il segno dei quadranti in cui si concentrano i punti I quadrante II quadrante VI quadrante III quadrante

La covarianza: misura la variabilità congiunta Successione dei dati statistici Tabella di frequenza doppia

Una formula alternativa

La covarianza: formula alternativa Successione dei dati statistici Tabella di frequenza doppia

Covarianza: proprietà Tanto più la covarianza si avvicina al limite inferiore o superiore, tanto più la nuvola di punti tende a concentrarsi su una retta y = a + b x inclinata negativamente o positivamente a seconda del segno della covarianza

Omogeneità della deviazione standard Esercizio teorico Dimostrare che se Y = a + b X allora dove il segno è determinato da quello di b Omogeneità della deviazione standard Linearità della media Correggere diapositive e appunti

Coefficiente di correlazione

Coefficiente di correlazione Il coefficiente di correlazione misura il grado di relazione lineare tra X e Y Tanto più vicino a 1 (in valore assoluto) l’indice, tanto più vicina ad una relazione lineare perfetta la relazione (e viceversa visto l’esercizio teorico)

“Bolle” con area pari alla frequenza In un diagramma a dispersione, le osservazioni con la stessa coppia di modalità sono punti sovrapposti. Per rappresentare graficamente una coppia di fenomeni con frequenze congiunte molto differenziate (da valori piccoli a valori grandi) è allora meglio utilizzare un diagramma a bolle

Calcolare il coefficiente di correlazione lineare 46

Prendendo la retta tracciata come “rappresentativa” della relazione tra X e Y individuare il voto medio che si può attendere uno studente con voto alla maturità pari ad 80

Correlazione spuria Attenzione: una (elevata) correlazione tra X e Y non implica necessariamente una relazione di causa-effetto. Numero di gelati consumati e numero di accessi in piscina (positiva) Alta marea e numero di auto che passano su un ponte (negativa) Di fronte ad una elevata correlazione tra X e Y è probabile vi possa essere una relazione di causa-effetto, ma questa va giustificata sempre sulla base di ragionamenti teoricamente validi Minuti di eruzione di un geiser e minuti all’eruzione successiva (positiva) Correlazione “ecologica” Origin of concept The term comes from a 1950 paper by William S. Robinson.[11] For each of the 48 states + District of Columbia in the US as of the 1930 census, he computed the literacy rate and the proportion of the population born outside the US. He showed that these two figures were associated with a positive correlation of 0.53 — in other words, the greater the proportion of immigrants in a state, the higher its average literacy. However, when individuals are considered, the correlation was −0.11 — immigrants were on average less literate than native citizens. Robinson showed that the positive correlation at the level of state populations was because immigrants tended to settle in states where the native population was more literate. He cautioned against deducing conclusions about individuals on the basis of population-level, or "ecological" data. In 2011, it was found that Robinson's calculations of the ecological correlations are based on the wrong state level data. The correlation of 0.53 mentioned above is in fact 0.46.[12] An early example of the ecological fallacy was Émile Durkheim's 1897 study of suicide in France although this has been debated by some.[13][14]