La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Cap. 11 Dipendenza e correlazione 1. Premessa Quanto visto nel capitolo 10 è applicabile a fenomeni di qualsiasi natura (quindi anche solo qualitativi):

Presentazioni simili


Presentazione sul tema: "Cap. 11 Dipendenza e correlazione 1. Premessa Quanto visto nel capitolo 10 è applicabile a fenomeni di qualsiasi natura (quindi anche solo qualitativi):"— Transcript della presentazione:

1 Cap. 11 Dipendenza e correlazione 1

2 Premessa Quanto visto nel capitolo 10 è applicabile a fenomeni di qualsiasi natura (quindi anche solo qualitativi): utilizzando solo le frequenze abbiamo potuto rilevare lesistenza o meno di una relazione statistica tra X e Y e misurarne lintensità con un indice sintetico normalizzato. Quando almeno uno dei due fenomeni congiuntamente osservati su U è quantitativo è possibile aumentare il livello di analisi: utilizzando sia le frequenze che le modalità è possibile anche dare un verso alla relazione, cioè stabilire se, quanto e come X influenza Y o viceversa. Se entrambi i fenomeni sono quantitativi e di conseguenza lintera v.s. doppia è numerica è possibile esplorare ancora più in dettaglio la natura e la tipologia della relazione. 2 Attenzione: non significa necessariamente dare una interpretazione di causa- effetto, ma solo misurare lintensità della relazione

3 Medie e varianze marginali

4 0 1 2 M F Incidenti Genere Calcolare numero medio di incidenti e varianza 14x05x11x2

5 Medie e varianze condizionate

6 Calcolare numero medio di incidenti e varianza condizionati al genere MF

7 Proprietà di associatività della media La media marginale è uguale alla media (ponderata) delle medie condizionate

8 Medie condizionate e proprietà associativa delle medie La media marginale è uguale alla media (ponderata) delle medie condizionate

9 Numero medio di incidenti marginali e condizionati al genere Proprietà associativa della media CVD

10 Varianze marginali e condizionate al genere Quale distribuzione è più variabile?

11 Scomponibilità della varianza marginale (corrisponde allassociatività delle medie ma è un po diversa) La media marginale è uguale alla media (ponderata) delle medie condizionate La varianza marginale è (?) uguale alla media (ponderata) delle varianze condizionate + la varianza delle medie condizionate

12 Scomponibilità della varianza marginale (corrisponde allassociatività delle medie ma è un po diversa) La media marginale è uguale alla media (ponderata) delle medie condizionate La varianza marginale è uguale alla media (ponderata) delle varianze condizionate + la varianza delle medie condizionate VARIANZA NEI GRUPPI

13 Scomponibilità della varianza marginale (corrisponde allassociatività delle medie ma è un po diversa) La varianza marginale è uguale alla media (ponderata) delle varianze condizionate + la varianza delle medie condizionate VARIANZA NEI GRUPPI VARIANZA FRA GRUPPI

14 Scomponibilità della varianza marginale (corrisponde allassociatività delle medie ma è un po diversa) La varianza marginale è uguale alla media (ponderata) delle varianze condizionate + la varianza delle medie condizionate VARIANZA NEI GRUPPIVARIANZA FRA GRUPPI Within Between

15 Scomponibilità della varianza Media delle varianze (condizionate) Varianza delle medie (condizionate)

16 X qualsiasi e Y quantitativo Studio della dipendenza in media

17 Uninterpretazione grafica e alcune formule alternative Marginale Condizionate Parte di variabilità di Y dovuta alla differenza tra le medie condizionate

18 Interpretazione del rapporto Parte di variabilità dovuta ad X Quando accade che Si può interpretare come parte di variabilità di Y spiegata da X

19 Indice di dipendenza (rapporto di correlazione) In questo caso, soprattutto se già si sa che X è causa di Y, il rapporto si può interpretare come misura di quanto Y dipende da X N.B. in tutti i libri di testo l interpretazione (1) viene estesa anche al caso in cui le varianze condizionate siano diverse, ma a parer nostro è azzardata Solo se le varianze condizionate sono (quasi) uguali Ma di per sé un elevato rapporto non significa necessariamente che X sia causa di Y Si può interpretare come parte di variabilità di Y spiegata da X Se le varianze condizionate sono molto diverse il rapporto si può interpretare solo come parte di variabilità di Y dovuta alla differenza tra le medie

20 Fissate le varianze condizionate Aumenta la varianza marginale e quella FRA gruppi Aumenta Se cresce la distanza tra le medie

21 Se le varianze condizionate tendono a ridursi Aumenta Fissate le distanze tra le medie Si riduce la varianza marginale e quella NEI gruppi In particolare

22 Se tra X e Y ci fosse I.S. allora le distribuzioni condizionate sarebbero tutte uguali alle marginali Indipendenza Statistica e Rapporto di correlazione Quando il rapporto è pari a zero si dice anche che cè indipendenza in media di Y da X

23 Indice di dipendenza di Y da X Rapporto di correlazione di Y da X 0 1 Forte dipendenza di Y da X In genere non si sa se X causa Y, ma se il rapporto è molto alto, questo fa sorgere il dubbio che sia così Indipendenza in media di Y da X

24 Se il rapporto è uguale a zero si dice che Y è indipendente in media da X X e Y statisticamente indipendenti X e Y non statisticamente indipendenti LIndipendenza in Media non implica lIndipendenza Statistica LIndipendenza Statistica implica lIndipendenza in Media

25 Se NON cè Indipendenza in Media NON ci può essere Indipendenza Statistica

26 Alcuni elementi di riflessione importanti Se si è sicuri che X sia causa di Y come segue: a)a valori diversi di X corrispondono valori diversi delle medie di Y|x b)e le varianze condizionate sono quasi uguali misura la parte di variabilità di Y dovuta ad X molto vicino ad 1, allora è possibile pensare che X sia causa di Y Un alto rapporto di correlazione non garantisce lesistenza di una relazione di causa – effetto (quanto meno necessario affiancare una teoria) Se non vale b) allora solo Parte di variabilità dovuta alla diversità delle medie

27 Esempio: Genere e Incidenti stradali VARIANZA NEI GRUPPIVARIANZA FRA GRUPPI Within Between Tuttavia le varianze sono molto diverse

28 Esempio 28

29 29 La scomposizione ci dice che la variabilità della speranza di vita nei Paesi ONU (cioè il fatto che Paesi diversi abbiano una diversa speranza di vita) è complessivamente misurabile con la varianza marginale 2 Y = che per la parte 2 FRA = dipende dallaccesso allacqua potabile e per la parte 2 NEI = non dipende dallaccesso allacqua potabile. Senza dubbio laccesso allacqua influisce sulla speranza di vita per cui in questo caso il rapporto ci dice quanta parte (28%) della variabilità della speranza di vita dipende da tale accesso

30 X e Y non sono indipendenti. Ad esempio: (il 2 normalizzato è intorno al 10%). La connessione però sparisce se si sintetizzano le distribuzioni condizionate nelle loro medie 30

31 31 La varianza NEI è pari a 0, tutta la varianza totale è dunque varianza FRA; lindice di dipendenza è pari a 1 Lelevato valore del rapporto di correlazione induce a pensare ad una relazione di causa-effetto tra X e Y

32 Esempio: Y è indipendente in media da X : X dipende perfettamente da Y: 32

33 X e Y entrambi quantitativi Covarianza e correlazione

34 Successioni doppie ( X, Y) quantitative: rappresentazione mediante scatterplot Successione dei dati statistici X : statura Y : peso Successione dei dati statistici La struttura della nuvola è indicativa delleventuale tipo di relazione esistente tra X e Y

35 Diagramma a dispersione (scatter plot) La tabella osservata viene rappresentata sul diagramma come una nuvola di k × h punti. Le coppie di valori osservati (x i,y j ) sono le coordinate. Se X e Y sono statisticamente indipendenti, i punti si presentano sparpagliati sul diagramma, senza alcuna struttura. Se tra X e Y cè una relazione statistica, la nuvola di punti si presenta strutturata. Questa struttura ci dà informazioni sul tipo di relazione esistente. 35 Le variabili sono indipendenti tra loro

36 Maggiore è (X) la durata delleruzione più alto è (Y) lintervallo di tempo tra due eruzioni successive Posso avvicinarmi alla bocca del geiser Old Faithful? Dovrei avere almeno 68 di tempo (ma meglio venire via prima)

37 I quadrante II quadrante III quadrante VI quadrante Tenderà ad assumere il segno dei quadranti in cui si concentrano i punti Covarianza: misura di variabilità congiunta

38 La covarianza: misura la variabilità congiunta Successione dei dati statistici Tabella di frequenza doppia

39 Una formula alternativa

40 La covarianza: formula alternativa Successione dei dati statistici Tabella di frequenza doppia

41 Covarianza: proprietà 0 Tanto più la covarianza si avvicina al limite inferiore o superiore, tanto più la nuvola di punti tende a concentrarsi su una retta y = a + b x inclinata negativamente o positivamente a seconda del segno della covarianza

42 Esercizio teorico Dimostrare che se Y = a + b X allora dove il segno è determinato da quello di b Linearità della media Omogeneità della deviazione standard Correggere diapositive e appunti

43 Coefficiente di correlazione 0

44 0 Il coefficiente di correlazione misura il grado di relazione lineare tra X e Y Tanto più vicino a 1 (in valore assoluto) lindice, tanto più vicina ad una relazione lineare perfetta la relazione ( e viceversa visto lesercizio teorico )

45 45 In un diagramma a dispersione, le osservazioni con la stessa coppia di modalità sono punti sovrapposti. Per rappresentare graficamente una coppia di fenomeni con frequenze congiunte molto differenziate (da valori piccoli a valori grandi) è allora meglio utilizzare un diagramma a bolle Bolle con area pari alla frequenza

46 Calcolare il coefficiente di correlazione lineare 46

47 Prendendo la retta tracciata come rappresentativa della relazione tra X e Y individuare il voto medio che si può attendere uno studente con voto alla maturità pari ad 80

48 Correlazione spuria Attenzione: una (elevata) correlazione tra X e Y non implica necessariamente una relazione di causa-effetto. Di fronte ad una elevata correlazione tra X e Y è probabile vi possa essere una relazione di causa-effetto, ma questa va giustificata sempre sulla base di ragionamenti teoricamente validi Origin of concept The term comes from a 1950 paper by William S. Robinson.[11] For each of the 48 states + District of Columbia in the US as of the 1930 census, he computed the literacy rate and the proportion of the population born outside the US. He showed that these two figures were associated with a positive correlation of 0.53 in other words, the greater the proportion of immigrants in a state, the higher its average literacy. However, when individuals are considered, the correlation was 0.11 immigrants were on average less literate than native citizens. Robinson showed that the positive correlation at the level of state populations was because immigrants tended to settle in states where the native population was more literate. He cautioned against deducing conclusions about individuals on the basis of population-level, or "ecological" data. In 2011, it was found that Robinson's calculations of the ecological correlations are based on the wrong state level data. The correlation of 0.53 mentioned above is in fact 0.46.[12][11]1930 census[12] An early example of the ecological fallacy was Émile Durkheim's 1897 study of suicide in France although this has been debated by some.[13][14]Émile Durkheimstudy of suicide[13][14] Numero di gelati consumati e numero di accessi in piscina (positiva) Alta marea e numero di auto che passano su un ponte (negativa) Correlazione ecologica Minuti di eruzione di un geiser e minuti alleruzione successiva (positiva)


Scaricare ppt "Cap. 11 Dipendenza e correlazione 1. Premessa Quanto visto nel capitolo 10 è applicabile a fenomeni di qualsiasi natura (quindi anche solo qualitativi):"

Presentazioni simili


Annunci Google