Indipendenza tra due caratteri

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Advertisements

IPSSCT V. Bosso a.s Francesca Alloatti EquazioneSPURIA EquazioneMONOMIA EquazionePURA EQUAZIONI II GRADO Una equazione è un ’ uguaglianza tra.
DISEQUAZIONI DI SECONDO GRADO INTERE Un approccio al METODO GRAFICO di risoluzione.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
Disequazioni in una variabile. LaRegola dei segni La disequazione A(x) · B(x) > 0 è soddisfatta dai valori di per i quali i due fattori A(x) e B(x) hanno.
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Precorso di Statistica per le Lauree Magistrali
Equazioni di 2°grado Prof.ssa A.Comis.
Le funzioni matematiche e il piano cartesiano
SUMMERMATHCAMP TARVISIO, AGOSTO 2017
Insiemi di numeri e insiemi di punti
Distribuzioni limite La distribuzione normale
La parabola e la sua equazione
Variabili casuali a più dimensioni
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Funzioni crescenti e decrescenti
L’integrale indefinito
GLI STRUMENTI AUSILIARI
La circonferenza nel piano cartesiano
Le equazioni di II°Grado
Esercitazioni su testi d’esame
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
x : variabile indipendente
Le disequazioni DEFINIZIONE DISEQUAZIONI EQUIVALENTI
La circonferenza nel piano cartesiano
Il concetto di derivata
I teoremi delle funzioni derivabili
4 < 12 5 > −3 a < b a > b a ≤ b a ≥ b
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Equazioni di 2° grado.
x : variabile indipendente
Raccogliamo x al primo membro e 2 al secondo:
Equazioni differenziali
Insiemi di punti: altre caratteristiche
La Misura 19 Leader Stato di attuazione Roma 24 Ottobre 2017
Equazioni e disequazioni
22) Funzioni (prima parte)
MATEMATICA III.
Le trasformazioni nel piano cartesiano
Riferimento Ruolo Cellulare Fabrizio Vitelli
Precorso di Statistica per le Lauree Magistrali
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Introduzione.
Riferimento Ruolo Cellulare Fabrizio Vitelli
Statistica descrittiva bivariata
ANALISI DELLE DISTRIBUZIONI STATISTICHE
Parabola a cura Prof sa A. SIA.
Corso di Analisi Statistica per le Imprese 2
Statistica descrittiva bivariata
Matrici Definizioni Matrici Rettangolari Quadrate 02/01/2019
Equazioni di 2°grado Introduzione.
Statistica descrittiva bivariata
Ufficio Tesseramento FIG
Esercizio La popolazione di adulti presenta una media di ansia pari a 4. Ad un campione di 35 soggetti con disturbo ossessivo compulsivo è stato somministrato.
Distribuzioni Bivariate
Precorso di Statistica per le Lauree Magistrali
Introduzione Oggetto della statistica: studio dei fenomeni collettivi
Associazione tra due variabili
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
L’EQUAZIONE DI UNA RETTA
Associazione tra variabili qualitative
Equazioni di 2°grado Prof.ssa A.Comis.
DERIVATA DI UNA FUNZIONE
Statistica descrittiva bivariata
Correlazione e regressione
La retta Esercitazioni Dott.ssa Badiglio S..
I sistemi di equazioni di 1° grado
La circonferenza Esercitazioni Dott.ssa Badiglio S.
Transcript della presentazione:

Indipendenza tra due caratteri   Definizioni: 1) due caratteri sono indipendenti se tra essi non esiste una relazione di causa ed effetto; 2) due caratteri sono indipendenti se la conoscenza di una modalità di uno dei due caratteri non migliora la previsione sulla modalità dell’altro;

Esempio di Distribuzione Bivariata: X/Y y1 y2 y3 y4 Tot. x1 12 4 16 8 40 x2 15 5 20 10 50 x3 9 3 6 30 36 48 24 120 X f(X|y1) f(X|y2) f(X|y3) f(X|y4) f(X) x1 12/36=0.33 4/12=0.33 16/48=0.33 8/24=0.33 40/120=0.33 x2 15/36=0.42 5/12=0.42 20/48=0.42 10/24=0.42 50/120=0.42 x3 9/36=0.25 3/12=0.25 12/48=0.25 6/24=0.25 30/120=0.25 Tot. 1.00 Domanda: se sulla 121^ unità si rileva Y=y3 questa informazione migliora la nostra previsione su quale potrebbe essere il valore di X? La risposta è NO! Perché il sapere che Y=y3 non aggiunge nulla rispetto all’informazione che ci viene data dalla semplice distribuzione marginale di X.

Pertanto possiamo concludere che: X è indipendente da Y f(Y|x1) f(Y|x2) f(Y|x3) f(Y) y1 12/40=0.30 15/50=0.30 9/30=0.30 36/120=0.30 y2 4/40=0.10 5/50=0.10 3/30=0.10 12/120=0.10 y3 16/40=0.40 20/50=0.40 12/30=0.40 48/120=0.40 y4 8/40=0.20 10/50=0.20 6/30=0.20 24/120=0.20 Tot. 1.00 Nota: se tutte le distribuzioni di X condizionate ad Y sono uguali tra loro ed uguali alla marginale di X anche tutte le distribuzioni di Y condizionate ad X sono uguali tra loro ed uguali alla marginale di Y. Pertanto, anche in questo caso, se sulla 121^ unità dovesse essere rilevato, ad esempio, X=x1 la nostra previsione circa la modalità di Y non migliorerebbe rispetto all’informazione che ci viene data dalla distribuzione marginale della stessa Y. Quindi Y è indipendente da X. Domanda: come sono le medie condizionate di X e di Y?

Tornando, invece, alle 100 barrette d’acciaio ed esaminando la tabelle delle distribuzioni di Y condizionate ad X, sapendo, ad esempio che: 0<X<0,75 quale previsione potremmo fare su Y? Y f( Y| x1 ) f( Y| x2 ) f( Y| x3 ) f( Y| x4 ) 2 - 4 0,7143 0,1667 0,0571 0,0000 4 - 5 0,2857 0,5417 0,1714 5 - 6 0,2500 0,1429 0,2000 6 - 7 0,0417 0,4286 0,3500 7 - 9 0,4500 Totali 1,0000

Distribuzione Bivariata di Frequenze

Distribuzioni di X condizionate ad Y 𝑛 𝑖1 𝑛 ∙1 =⋯= 𝑛 𝑖𝑗 𝑛 ∙𝑗 =⋯= 𝑛 𝑖𝑠 𝑛 ∙𝑠 = 𝑘 𝑖 ⇒ 𝑛 𝑖∙ 𝑛 = 𝑘 𝑖 (𝑖=1,…,𝑟)

𝑛 11 𝑛 .1 =…= 𝑛 1𝑗 𝑛 .𝑗 =…= 𝑛 1𝑠 𝑛 .𝑠 = 𝑘 1 ……………………………………………………. 𝑛 𝑖1 𝑛 .1 =…= 𝑛 𝑖𝑗 𝑛 .𝑗 =…= 𝑛 𝑖𝑠 𝑛 .𝑠 = 𝑘 𝑖 𝑛 𝑟1 𝑛 .1 =…= 𝑛 𝑟𝑗 𝑛 .𝑗 =…= 𝑛 𝑟𝑠 𝑛 .𝑠 = 𝑘 𝑟

…………………………………………………………………… ………………………………………………………………….. (1) 𝑛 11 =𝑘1 𝑛 .1 ;…; 𝑛 1𝑗 =𝑘1 𝑛 .𝑗 ;…; 𝑛 1𝑠 =𝑘1 𝑛 .𝑠 ; …………………………………………………………………… (i) 𝑛 𝑖1 =𝑘𝑖 𝑛 .1 ;…; 𝑛 𝑖𝑗 =𝑘𝑖 𝑛 .𝑗 ;…; 𝑛 𝑖𝑠 =𝑘𝑖 𝑛 .𝑠 ; ………………………………………………………………….. (s) 𝑛 𝑖1 =𝑘𝑖 𝑛 .1 ;…; 𝑛 𝑖𝑗 =𝑘𝑖 𝑛 .𝑗 ;…; 𝑛 𝑖𝑠 =𝑘𝑖 𝑛 .𝑠 ;

Sommando membro a membro in ogni riga avremo: 𝑗=1 𝑠 𝑛 1𝑗 = 𝑘 1 𝑗=1 𝑠 𝑛 .𝑗 ⇒ 𝑛 1. = 𝑘 1 ∙𝑛 ⇒ 𝑘 1 = 𝑛 1. 𝑛 ………………………………………………………………………………………………... 𝑗=1 𝑠 𝑛 𝑖𝑗 = 𝑘 𝑖 𝑗=1 𝑠 𝑛 .𝑗 ⇒ 𝑛 𝑖. = 𝑘 𝑖 ∙𝑛 ⇒ 𝑘 𝑖 = 𝑛 𝑖. 𝑛 ………………………………………………………………………………………………... 𝑗=1 𝑠 𝑛 𝑟𝑗 = 𝑘 𝑟 𝑗=1 𝑠 𝑛 .𝑗 ⇒ 𝑛 𝑟. = 𝑘 𝑟 ∙𝑛 ⇒ 𝑘 𝑟 = 𝑛 1. 𝑛 Pertanto per (i=1,r) e (j=1,s) avremo: 𝑛 𝑖𝑗 𝑛 .𝑗 = 𝑛 𝑖. 𝑛

DIMOSTRAZIONE da cui: cioè se le distribuzioni di X condizionate ad Y sono uguali tra di loro allora esse saranno uguali alla distribuzione marginale di X, ovvero: 𝑛 𝑖𝑗 𝑛 ∙𝑗 = 𝑘 𝑖 ⇒ 𝑛 𝑖𝑗 = 𝑘 𝑖 𝑛. 𝑗 ⇒ 𝑗=1 𝑠 𝑛 𝑖𝑗 = 𝑘 𝑖 𝑗=1 𝑠 𝑛. 𝑗 ⇒ 𝑛 𝑖∙ = 𝑘 𝑖 𝑛 ⇒ 𝑘 𝑖 = 𝑛 𝑖∙ 𝑛 (𝑖=1,…,𝑟 𝑛 𝑖𝑗 𝑛 ∙𝑗 = 𝑛 𝑖∙ 𝑛 (𝑖=1,…,𝑟;𝑗=1,…,𝑠

Distribuzioni di Y condizionate ad X 𝑛 1𝑗 𝑛 1 . =⋯= 𝑛 𝑖𝑗 𝑛 𝑖 . =⋯= 𝑛 𝑟𝑗 𝑛 𝑟 . = ℎ 𝑗 ⇒ 𝑛 . 𝑗 𝑛 = ℎ 𝑗 (𝑗=1,…,𝑠

DIMOSTRAZIONE Dalla dimostrazione precedente abbiamo ottenuto che se le distribuzioni di X condizionate ad Y sono uguali tra loro allora: ma da questa otteniamo anche che: cioè che (a) le distribuzioni di Y condizionate ad X sono uguali tra di loro ed anche che (b) esse saranno uguali alla distribuzione marginale di Y. 𝑛 𝑖𝑗 𝑛 ∙𝑗 = 𝑛 𝑖∙ 𝑛 (𝑖=1,…,𝑟;𝑗=1,…,𝑠 ⇒ 𝑛 𝑖𝑗 𝑛 𝑖 . = 𝑛 . 𝑗 𝑛 = ℎ 𝑗 (𝑖=1,…,𝑟;𝑗=1,…,𝑠

Infine, poiché le distribuzioni di X condizionate ad Y sono uguali tra loro e conseguentemente anche le distribuzioni di Y condizionate ad X sono uguali tra loro, potremo concludere dicendo che X ed Y sono indipendenti e la condizione d’indipendenza è: 𝑛 𝑖𝑗 = 𝑛 𝑖 . 𝑛. 𝑗 𝑛 (𝑖=1,…,𝑟;𝑗=1,…,𝑠

Teorema: Se f(xi|y1)=...=f(xi|yj)=… =f(xi|ys)=ki per (i=1,..,r) cioè se: ni1 / n.1=…= nij / n.j =…= nis / n.s= ki per (i=1,..,r) allora: (2) f(xi)=ki per (i=1,..,r), cioè: ni . / n = ki per (i=1,..,r); (3) f(yj|x1)=...=f(yj|xi)=...=f(yj|xr)=hj per (j=1,..,s) cioè: n1j / n1.=…= nij / ni . =…= nrj / nr .= hj per (j=1,..,s); (4) f(yj)=hj per (j=1,..,s), cioè: n.j / n = hj per (j=1,..,s) ed infine: (5) X è indipendente da Y e Y è indipendente da X.

ni1 / n.1 = ... = nij / n.j = ... = nis / n.s = ki cioè: Dimostrazione: dalla (1) avremo che: ni1 / n.1 = ... = nij / n.j = ... = nis / n.s = ki cioè: ni1 = n.1 ki;….; nij = n.j ki; …. ; nis = n.s ki sommando membro a membro avremo che: cioè per (i=1,..,r) ovvero: ki = ni. / n per (i=1,..,r), che dimostra la (2).

f(xi|yj) = f(xi) = ki per (i=1,..,r) e (j=1,..,s) Da (1) e (2) deduciamo che: f(xi|yj) = f(xi) = ki per (i=1,..,r) e (j=1,..,s) che equivale a: per (i=1,..,r) e (j=1,..,s) da cui: che dimostrano la (3) e la (4). Se sono tutte vere: (1), (2), (3) e (4) esse implicano anche la (5), che è dalle stesse definita. Infine la condizione di Indipendenza Statistica tra X e Y è data da: per (i=1,..,r) e (j=1,..,s) c.d.d..

Condizione d’Indipendenza: In sintesi, abbiamo dimostrato che: {indipendenza} { f(xi|yj)=f(xi)} { f(yj|xi)=f(yj)}; i,j ovvero: {indipendenza} {nij/n.j = ni./n} {nij/ni .= n.j/n}; i,j   Condizione d’Indipendenza: Verificare la condizione d’indipendenza sulle ultime due distribuzioni bivariate (pagine 138 e 144).      

Regione Y X Piemonte 174,2 287 Valle d'Aosta 174,95 281 Lombardia 173,79 282 Trentino A.A. 175,43 266 Veneto 174,83 262 Friuli V.G. 176,11 302 Liguria 174,19 318 Emilia R. 174,58 285 Toscana 174,49 280 Umbria 173,71 263 Marche 173,46 259 Lazio 173,98 239 Abruzzi 172,3 243 Molise 171,33 230 Campania 171,2 148 Puglia 171,42 223 Basilicata 169,86 204 Calabria 169,58 173 Sicilia 170,48 175 Sardegna 169,27 209 (X): Numero degli abbonamenti alla RAI (1982) per 1000 abitanti per Regione; (Y) Statura media in cm. degli iscritti di leva (classe 1962). Stabiliamo le seguenti Classi di Modalità di Y 169-173; 173-175; 175-177; e di X: 140-210; 210-250; 250-300; 300-320. X/Y 169 - 173 173 - 175 175 - 177 Totali 140 - 210 5 210 - 250 3 1 4 250 - 300 8 9 300 - 320 2 10 20 Essendo per tutti gli (i,j) i caratteri (X,Y) sono statisticamente dipendenti, ma non essendo logicamente dipendenti, diremo che si tratta di dipendenza spuria. Nel seguito “Dipendenza” significherà “Dipendenza Statistica”.

Esempio: collettivo di 50 famiglie classificate per n° figli e per settore d’attività economica del capofamiglia; Frequenze congiunte nij d’indipendenza n’ij Contingenze cij Y/X 1 2 3 4 5 Tot. A 1.30 3.12 4.94 2.34 1.04 0.26 13 I 1.90 4.56 7.22 3.42 1.52 0.38 19 S 1.80 4.32 6.84 3.24 1.44 0.36 18 12 9 50 Y/X 1 2 3 4 5 Tot. A -0.30 -1.12 -1.94 1.66 0.96 0.74 0.00 I -0.90 -0.56 1.78 0.58 -0.52 -0.38 S 1.20 1.68 0.16 -2.24 -0.44 -0.36

Misure sintetiche di Dipendenza Statistica Indice Chi-Quadro di Pearson: dove le cij = (nij – n’ij ) e le n’ij = (ni. n.j / n ). Proprietà di χ2: a) se X ed Y sono indipendenti allora χ2 = 0; b) se X ed Y non sono indipendenti χ2 > 0, ed è tanto più grande quanto più le nij si differenziano dalle n’ij ; c) χ2 è una misura di dipendenza per X ed Y caratteri quantitativi e/o qualitativi ed il suo calcolo non si basa né sulle modalità di X né su quelle di Y; d) χ2 è una misura assoluta di dipendenza statistica.

Calcolo di χ2: 1)Tabella dati originari: nij; 2)Tabella di Indipendenza: n’ij; 3)Tabella delle contingenze: cij; 4)Tabella dei rapporti: c2ij / n’ij; 5) χ2=10,49. Nota: il valore di χ2 ottenuto ci assicura che tra X ed Y c’è dipendenza statistica ma non dice quanto essa è forte, perché χ2 è una misura assoluta di dipendenza. Y/X 1 2 3 4 5 Tot. A 13 I 9 19 S 6 7 18 12 50 1,3 3,12 4,94 2,34 1,04 0,26 1,9 4,56 7,22 3,42 1,52 0,38 1,8 4,32 6,84 3,24 1,44 0,36 -0,3 -1,12 -1,94 1,66 0,96 0,74 -0,9 -0,56 1,78 0,58 -0,52 -0,38 1,2 1,68 0,16 -2,24 -0,44 -0,36 0,07 0,40 0,76 1,18 0,89 2,11 5,40 0,43 0,44 0,10 0,18 1,59 0,80 0,65 0,00 1,55 0,13 3,50 1,30 1,12 1,20 2,82 2,85 10,49

Calcolo alternativo di χ2: poiché :

Pertanto avremo anche: infine, se non si vuole passare per il calcolo delle n’ij=ni. n.j / n, avremo:

Definizione di Massima Dipendenza La dipendenza è massima se per ogni riga o per ogni colonna non più di una frequenza congiunta è diversa da zero. Esempio: X/Y y1 y2 y3 y4 Tot. x1 n11 x2 n23 x3 n32 n Per le caselle con nij ≠ 0 avremo: n2ij = ni. n.j e di conseguenza , dove t = minore ( r , s ) e max χ2 =( t – 1)  n Definiamo, quindi, l’indice relativo di dipendenza di Cràmer: C2 = χ2/ max χ2 = χ2/ [ ( t – 1 ) n ] con [0 ≤ C2 ≤ 1] .

Esempio collettivo di 50 famiglie classificate per n° figli e per settore d’attività economica del capofamiglia: Il max χ2 per la tabella precedente è quello che si otterrebbe da una tabella con le stesse dimensioni (3 x 6) e con lo stesso totale (n=50). In tal caso: max χ2 = ( t – 1 )  n = [ min (3,6) – 1 ]  50 = 100, quindi: C 2 = χ2/max χ2 = 10,49/100 = 0,1049

Misure di dipendenza lineare o correlazione Se due caratteri quantitativi risultano “statisticamente dipendenti” possiamo ipotizzare che essi siano legati da una relazione lineare, cioè del tipo Y= a + b X . Per verificare questa ipotesi misureremo la: “strettezza della relazione lineare, ovvero, misurando il grado di correlazione tra X e Y”. Si considerino le coppie di modalità (xi , yj), riportati nelle tabelle che seguono, ed i relativi di diagrammi scatter che mettono in luce una possibile relazione lineare tra X e Y:

Data Set (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y 1,00 -3,70 6,00 -1,98 11,00 24,07 17,00 13,06 14,53 6,60 2,42 10,30 -4,60 6,18 1,30 -3,62 7,00 6,03 12,81 17,40 12,10 -4,46 -7,16 11,40 -1,16 18,00 15,31 -1,54 -1,70 12,00 10,76 7,33 1,60 -7,99 19,24 5,14 18,10 12,97 1,70 10,86 7,10 -7,68 21,17 19,00 13,56 1,50 11,97 9,32 13,00 7,38 9,45 2,00 9,11 7,80 9,02 25,59 20,30 26,55 -11,32 8,00 15,06 14,81 21,00 14,07 2,40 -6,60 19,28 13,40 9,64 22,90 22,42 3,00 2,83 8,70 19,33 24,97 23,10 26,72 5,71 17,56 0,54 24,00 29,89 3,40 9,73 7,99 14,00 24,08 33,89 -7,08 8,20 19,50 14,50 0,26 25,10 14,39 7,64 13,02 0,33 25,00 15,87 3,60 13,74 9,00 23,64 9,13 4,00 -1,76 11,69 14,20 2,79 15,41 4,10 3,66 9,10 17,11 15,00 14,89 26,70 29,08 5,00 -6,50 -1,30 -2,37 26,00 17,58 5,40 5,54 9,60 17,32 14,56 26,20 22,06 10,00 16,51 16,00 1,66 27,00 10,48 -6,96 17,61 25,73 5,20 3,47 -5,79 3,23 28,20 15,30 5,68 29,00 18,37

Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y

(in sovrimpressione la retta d’equazione: Y = 1,5 + 0,71 X ) Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y (in sovrimpressione la retta d’equazione: Y = 1,5 + 0,71 X )

Data Set (b) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y

Diagramma Scatter (b) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y

(in sovrimpressione la retta d’equazione: Y = 1 + 0,75 X ) Diagramma Scatter (b) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y (in sovrimpressione la retta d’equazione: Y = 1 + 0,75 X )

Misure di strettezza della relazione lineare o di La differenza tra i due diagrammi scatter (a) e (b) consiste nel fatto che il primo diagramma mostra una nuvola di punti più dispersa che non nel secondo caso, pur mostrando entrambe una sottostante relazione lineare tra X e Y. Più precisamente diremo che nel caso (b) la relazione lineare tra X e Y è più stretta che non nel caso (a). Misure di strettezza della relazione lineare o di Correlazione tra X e Y La Covarianza Date le n coppie di modalità (x1, y1)……(xn, yn) chiameremo Covarianza la media dei prodotti degli scarti dalle rispettive medie di X e di Y:

Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y

Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y My=9,9 Mx=11,9

Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y I° Quadrante My=9,9 Mx=11,9

Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y I° Quadrante Pi My=9,9 Mx=11,9 (xi – Mx ) < 0

Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y I° Quadrante Pi (yi – My ) > 0 My=9,9 Mx=11,9 (xi – Mx ) < 0

Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y I° Quadrante NEGATIVO Pi (yi – My ) > 0 My=9,9 Mx=11,9 (xi – Mx ) < 0

Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y I° Quadrante NEGATIVO II° Quadrante POSITIVO Pi (yi – My ) > 0 My=9,9 Mx=11,9 (xi – Mx ) < 0

Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y I° Quadrante NEGATIVO II° Quadrante POSITIVO Pi (yi – My ) > 0 My=9,9 Mx=11,9 (xi – Mx ) < 0 III° Quadrante POSITIVO

Diagramma Scatter (a) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y I° Quadrante NEGATIVO II° Quadrante POSITIVO Pi (yi – My ) > 0 My=9,9 Mx=11,9 (xi – Mx ) < 0 IV° Quadrante NEGATIVO III° Quadrante POSITIVO

Per il data set (a) sono prevalenti i prodotti degli scarti [(xi - M(X)] × [yi – M(Y)] > 0 , essendo X ed Y concordi, quindi Cov(X,Y)>0 , in particolare: Cov(X,Y) = 41,42.

Analogamente, per il data set (b), essendo i caratteri quantitativi X e Y concordi, sono prevalenti i prodotti di scarti positivi, quindi Cov(X,Y)>0, in particolare: Cov(X,Y) = 41,64.

in particolare: Cov(X,Y) = 41,64. Analogamente, per il data set (b), essendo i caratteri quantitativi X e Y concordi, sono prevalenti i prodotti di scarti positivi, quindi Cov(X,Y)>0, in particolare: Cov(X,Y) = 41,64. II° Quadrante POSITIVO I° Quadrante NEGATIVO My=10,3 IV° Quadrante NEGATIVO Mx=11,9 III° Quadrante POSITIVO

Se X ed Y sono concordi sono prevalenti i punti che cadono nel II° e nel III° quadrante. A tali punti corrispondono scarti di X e di Y che hanno, rispettivamente, lo stesso segno e che producono, pertanto, prodotti di scarti positivi. La Covarianza, essendo pari alla media dei prodotti degli scarti, sarà positiva. Nel caso in cui X ed Y siano discordi i punti del diagramma scatter saranno prevalenti nel I° e nel IV° quadrante. A tali punti corrisponderanno scarti di X e di Y che avranno segno opposto e daranno luogo, pertanto, a prodotti di scarti negativi. La Covarianza, in questo secondo caso, essendo pari alla media dei prodotti degli scarti, sarà negativa.

Data Set (c) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y 1,00 23,94 6,00 18,37 11,00 19,17 17,00 7,80 21,20 6,60 22,22 10,30 13,95 13,15 1,30 24,83 7,00 21,30 16,49 17,40 11,26 21,85 17,87 11,40 13,47 18,00 13,36 25,48 15,97 12,00 15,54 13,01 1,60 23,63 18,58 14,54 18,10 13,75 1,70 23,86 7,10 17,18 12,10 12,96 19,00 7,76 1,50 25,80 19,95 13,00 16,75 9,38 2,00 21,82 18,65 14,36 20,30 7,35 23,42 8,00 18,12 16,25 21,00 9,57 2,40 22,87 13,40 16,28 22,90 4,96 3,00 20,89 8,70 16,29 13,49 23,10 3,34 18,78 21,12 17,64 24,00 7,68 3,40 21,24 16,61 14,00 10,71 7,25 18,82 8,20 19,54 14,50 10,20 25,10 5,37 22,33 18,44 13,69 25,00 8,31 3,60 19,50 9,00 16,53 2,94 4,00 19,75 20,61 14,20 13,60 4,40 4,10 22,09 9,10 18,68 15,00 9,51 26,70 4,93 5,00 23,13 15,28 16,05 26,00 5,94 5,40 18,74 9,60 19,04 9,86 26,20 4,24 17,99 10,00 16,42 16,00 14,48 27,00 1,29 18,87 16,13 11,52 28,20 3,87 5,20 23,06 17,10 28,00 5,92 23,12 18,63 15,08 29,00 5,05

Diagramma Scatter (c) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y

Diagramma Scatter (c) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y My=15,4 Mx=10,9

Nel data set (c) sono prevalenti i prodotti di scarti negativi, cioè [(xi-M(X)] × [yi –M(Y)] < 0 (essendo i caratteri quantitativi X e Y discordi), quindi Cov(X,Y)<0 , in particolare: Cov(X,Y)= - 43,72 . ……..-……. In caso di bilanciamento tra prodotti degli scarti positivi e negativi si ha: Cov( X , Y ) = 0.

Data Set (d) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y 1,00 -3,39 6,00 4,33 11,00 5,65 17,00 -2,62 1,81 6,60 5,89 10,30 -2,73 -1,86 1,30 -0,89 7,00 4,86 3,63 17,40 -2,42 -0,55 2,87 11,40 3,24 18,00 -1,38 -1,00 4,21 12,00 0,11 2,09 1,60 3,88 1,40 3,29 18,10 4,68 1,70 -2,77 7,10 4,22 12,10 5,13 19,00 4,35 1,50 0,41 5,49 13,00 -1,17 5,72 2,00 -2,94 7,80 -2,84 5,85 20,30 -3,54 4,95 8,00 -1,27 2,19 21,00 4,64 2,40 -1,26 2,07 13,40 -3,99 22,90 -0,91 3,00 1,03 8,70 0,97 0,72 23,10 0,10 2,34 -3,66 3,66 24,00 5,02 3,40 -2,29 -3,08 14,00 2,85 -3,86 -3,40 8,20 -2,15 14,50 3,93 25,10 4,57 2,64 4,54 -2,57 25,00 2,24 3,60 3,44 9,00 0,39 -2,64 4,07 4,00 3,34 4,11 14,20 4,10 -3,03 9,10 -0,27 15,00 -3,72 26,70 0,75 5,00 4,53 -2,18 26,00 3,98 5,40 4,03 9,60 5,17 -0,56 -1,94 -3,19 10,00 1,33 16,00 0,70 26,20 -3,77 4,94 0,87 -1,87 27,00 4,55 5,20 4,15 -1,60 1,93 1,27 4,20 3,54 -0,23

Data Set (d) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y My=1,2 Mx=11,8

X ed Y sono INDIPENDENTI Nel data set (d) i prodotti di scarti positivi equivalgono quelli negativi, non solo, ma a valori di X piccoli corrispondono sia valori di Y piccoli che grandi e lo stesso succede per i valori grandi di X. In altre parole, non si riesce a riconoscere alcuna relazione funzionale tra i valori di Y in funzione di X (ma anche viceversa). In questa situazione se in una unità si conosce la modalità con la quale si manifesta uno dei due caratteri è impossibile fare una previsione razionale circa la modalità del secondo carattere. Per cui concluderemo che: X ed Y sono INDIPENDENTI In particolare, in questo data set (d) si ha: Cov(X,Y)= - 0,20 .

Medie Condizionate e Marginale di Y (Data Set D) (1) Classi X (2) Val. Centr. X (3) Somma(Yi) (4) Frequenze (5)=(3)/(4) M(Y|x) 0 - 5 2,5 2,33 19 0,12 5 - 10 7,5 56,78 27 2,10 10 - 15 12,5 38,41 22 1,75 15 - 20 17,5 2,86 15 0,19 20 - 25 22,5 1,44 6 0,24 25 - 30 27,5 14,97 11 1,36 Totali --- 116,79 100 1,17

(M(Y|x) = medie di Y condizionate ad x) Data Set (d) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y (M(Y|x) = medie di Y condizionate ad x) 2,10 1,75 My=1,2 1,36 0,24 Mx=11,8 0,19 0,12

Data Set (e) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y 2,24 1,32 0,83 -2,45 4,78 -2,80 4,36 0,16 3,01 4,13 3,13 1,85 3,80 2,12 3,57 1,99 1,96 4,80 -0,75 1,90 -0,48 4,57 -1,08 1,74 -0,73 1,63 -0,85 5,22 -4,20 2,47 2,74 2,42 3,78 2,51 2,20 1,24 1,49 2,13 3,00 3,18 2,67 2,77 2,50 1,06 5,42 -5,50 3,25 1,73 4,06 0,99 1,68 -0,01 1,86 0,31 3,07 4,47 5,15 -2,64 2,80 3,72 1,17 4,31 -0,66 3,97 2,68 5,43 -4,82 1,48 0,80 1,75 0,51 -1,30 2,43 1,16 1,81 2,03 2,40 2,58 3,42 4,59 -2,51 4,45 1,00 4,96 -2,01 4,97 -1,26 3,85 0,72 -2,88 3,46 3,03 3,19 2,95 0,86 -2,78 3,08 2,21 1,76 0,38 -2,30 1,34 -0,95 2,48 0,69 1,41 0,00 1,18 -1,83 5,45 -4,71 3,76 2,78 1,20 2,02 1,59 0,20 4,72 -1,36 2,91 1,40 0,53 -5,97 3,58 2,65 0,65 -4,15 5,07 -3,62 0,88 -3,71 5,48 -5,19 0,96 -2,25 2,92 2,36 2,64 2,45 1,66 1,79 1,45 5,02 -1,57 1,38 0,57 4,03 1,94 0,79 -2,75 4,84 -2,10 3,32 0,82 -3,27 1,64 0,84 3,41 2,06 -0,14 0,75 -3,63 2,41 3,68 1,77 4,24 1,92 0,71 -3,73 3,37 2,00 4,86 -2,18 3,64 0,91 2,72 4,69 -3,46 1,70 1,35 -0,62

Data Set (e) relativo a 100 coppie di modalità (xi , yi ) dei caratteri quantitativi X e Y My=0,1 Mx=2,9

Anche per il data set (e) c’è un bilanciamento nei quattro quadranti, come nel caso del data set (d), quindi la covarianza, se non proprio nulla, sarà vicina a zero. Infatti in questo data set (e) si ha: Cov(X,Y)= - 0,03 . Rispetto al data set (d), i punti del diagramma scatter relativo al data set (e) mostrano, però, una chiara relazione funzionale di Y rispetto alla X. In particolare, al crescere della X la Y prima cresce e poi decresce. Pertanto, in una unità, conoscendo la modalità di X adesso siamo in grado di poter fare una previsione sul valore della Y, quindi possiamo concludere che Y DIPENDE da X, anche se la dipendenza non è LINEARE, cioè la CORRELAZIONE è quasi NULLA.

se tra i due caratteri X ed Y c’è perfetta Da tutto quello è stato mostrato negli esempi si evince chiaramente che: se tra i due caratteri X ed Y c’è perfetta INDIPENDENZA allora la COVARIANZA è pari a zero. Non vale il viceversa, cioè: se la COVARIANZA è nulla non è detto che i due caratteri X ed Y siano INDIPENDENTI perché Y potrebbe essere legata ad X da una relazione diversa da quella lineare. In altre parole: se c’è INDIPENDENZA c’è (a fortiori) INCORRELAZIONE, se c’è INCORRELAZIONE non è detto che ci sia INDIPENDENZA. In simboli: Indipendenza ⟹ Cov(X,Y)=0 Cov(X,Y)=0⇏Indipendenza

Caso 1: Δ > 0 Caso 2: Δ = 0 Caso 3: Δ < 0 Richiami sulle equazioni di II° grado: y = a x2 + b x + c La precedente equazione geometricamente rappresenta una parabola che si disporrà nel piano in funzione dei valori assunti dai parametri a, b e c. Se ad esempio a > 0, la concavità è rivolta verso l’alto. Indichiamo con Δ il valore Δ = b2 - 4ac. Poichè le radici dell’equazione y=0 sono: x1 = (-b - √Δ) / 2 a , x2 = (-b + √Δ) / 2 a se Δ > 0, le radici sono reali e distinte, se Δ = 0 le radici sono reali e coincidenti ed, infine, se Δ < 0, le radici sono immaginarie coniugate: Caso 1: Δ > 0 Caso 2: Δ = 0 Caso 3: Δ < 0 NB: nei casi 1, 2 e 3 si ha sempre: a>0, concavità verso l’alto (vedi y=a x2), solo nei casi 2 e 3 si ha: y≥0 Δ ≤ 0

Diseguaglianza di Cauchy-Schwarz Cov( X , Y )2 ≤ V( X )  V( Y ) Dimostrazione: 𝑦= 𝑙 2 𝑖=1 𝑛 𝑤 𝑖 2 +𝑙 2 𝑖=1 𝑛 𝑧 𝑖 𝑤 𝑖 + 𝑖=1 𝑛 𝑧 𝑖 2 ≥0 Cioè:

Poiché l’espressione precedente è non – negativa, cioè si ha sempre y ≥ 0 ed a > 0, quindi il polinomio in l, (a) (b) (c) non ammette radici reali e distinte, cioè il suo discriminante Δ è Δ ≤ 0 (perché y ≥ 0) , cioè:

ma, sostituendo al posto di zi e wi gli scarti di xi e yi dalle rispettive medie, avremo: cioè: Cov( X , Y )2 ≤ V( X )  V( Y ) c.d.d. da cui consegue:

Nella diseguaglianza di Cauchy-Schwarz vale il segno “=“ quando X ed Y sono legate da una perfetta relazione lineare, cioè Y=a+bX. Infatti, se Y=a+bX allora yi = a + b xi ,  i , quindi, ricordando che M(Y) = a + b M(X), avremo:

inoltre, essendoci una relazione lineare tra le medie avremo anche: M(X)=-(a/b)+M(Y)/b pertanto:

Y=a+bX allora Cov(X,Y)2=V(X)V(Y) quindi, in ultima analisi: Cov(X,Y)=bV(X) Cov(X,Y)=V(Y)/b pertanto se: Y=a+bX allora Cov(X,Y)2=V(X)V(Y) c.d.d. inoltre, se b>0 si ha Cov(X,Y)=bV(X)≥0 , quindi: se, invece, b<0 si ha Cov(X,Y)=bV(X)≤0 , quindi:

Indice relativo di dipendenza lineare o correlazione: il significato di r(X,Y), detto coefficiente di correlazione di Bravais – Pearson, è identico a quello di Cov(X,Y) ma, a differenza di quest’ultima, r(X,Y) è una misura relativa di correlazione.

Per il Data Set (a) avremo: M(X)=11,87; M(Y)=9,87; V(X)=58,74; V(Y)=102,84; Cov(X,Y)=41,42; r(X,Y)=0,53. Per il data set (b) avremo: M(X)=11,87;M(Y)=10,29;V(X)=58,78;V(Y)=33,21; Cov(X,Y)=41,64; r(X,Y)=0,94. Per il data set (c) avremo: M(X)=11,88; M(Y)=15,40; V(X)=59,05; V(Y)=36,31; Cov(X,Y)=-43,72; r(X,Y)=-0,94. Per il data set (d) avremo: M(X)=11,82;M(Y)=1,17;V(X)=57,42;V(Y)=9,28; Cov(X,Y)=-0,20; r(X,Y)=-0,01. Per il data set (e) avremo: M(X)=2,91; M(Y)=0,14; V(X)=2,01; V(Y)=6,17; Cov(X,Y)=-0,03; r(X,Y)=-0,01.

Dati Auto (Auto.xlsx) mpg cylinders displacement horsepower weight acceleration year origin name 1 18.0 8 307.0 130 3504 12.0 70 chevrolet chevelle malibu 2 15.0 350.0 165 3693 11.5 buick skylark 320 3 318.0 150 3436 11.0 plymouth satellite 4 16.0 304.0 3433 amc rebel sst 5 17.0 302.0 140 3449 10.5 ford torino 6 429.0 198 4341 10.0 ford galaxie 500 7 14.0 454.0 220 4354 9.0 chevrolet impala 440.0 215 4312 8.5 plymouth fury 9 455.0 225 4425 pontiac catalina 10 390.0 190 3850 amc ambassador dpl 11 383.0 170 3563 dodge challenger se 12 340.0 160 3609 8.0 plymouth 'cuda 340 13 400.0 3761 9.5 chevrolet monte carlo 14 3086 buick estate wagon (sw) 15 24.0 113.0 95 2372 toyota corona mark 16 22.0 198.0 2833 15.5 plymouth duster 17 199.0 97 2774 amc hornet 18 21.0 200.0 85 2587 ford maverick 19 27.0 97.0 88 2130 14.5 datsun pl510 20 26.0 46 1835 20.5 volkswagen 1131 deluxe sedan 21 25.0 110.0 87 2672 17.5 peugeot 504 22 107.0 90 2430 audi 100 ls 23 104.0 2375 saab 99e 24 121.0 113 2234 12.5 bmw 2002 25 2648 amc gremlin 26 360.0 4615 ford f250 27 200 4376 chevy c20 28 210 4382 13.5 dodge d200

Dati Auto (Auto.txt) mpg cylinders displacement horsepower weight acceleration year origin name 372 29.0 4 135.0 84 2525 16.0 82 1 dodge aries se 373 27.0 151.0 90 2735 18.0 pontiac phoenix 374 24.0 140.0 92 2865 16.4 ford fairmont futura 375 36.0 105.0 74 1980 15.3 2 volkswagen rabbit 376 37.0 91.0 68 2025 18.2 3 mazda glc custom l 377 31.0 1970 17.6 mazda glc custom 378 38.0 63 2125 14.7 plymouth horizon miser 379 98.0 70 17.3 mercury lynx l 380 120.0 88 2160 14.5 nissan stanza xe 381 107.0 75 2205 honda accord 382 34.0 108.0 2245 16.9 toyota corolla 383 67 1965 15.0 honda 384 32.0 15.7 honda civic (auto) 385 1995 16.2 datsun 310 gx 386 25.0 6 181.0 110 2945 buick 387 262.0 85 3015 17.0 oldsmobile cutlass ciera 388 26.0 156.0 2585 chrysler lebaron medallion 389 22.0 232.0 112 2835 ford granada l 390 144.0 96 2665 13.9 toyota celica gt 391 2370 13.0 dodge charger 2.2 392 2950 chevrolet camaro 393 86 2790 15.6 ford mustang gl 394 44.0 97.0 52 2130 24.6 vw pickup 395 2295 11.6 dodge rampage 396 28.0 79 2625 18.6 ford ranger 397 119.0 2720 19.4 chevy s-10

Diagrammi di Dispersione per coppie di variabili (dati Auto.txt)

tabella a doppia entrata o tabella di contingenza. Sino ad ora, nello studio dei delle distribuzioni bivariate abbiamo supposto che i dati siano forniti sotto forma di n coppie di modalità rilevate (xi , yi ). Analizzeremo ora il caso in cui, invece, essi siano forniti sotto forma di: tabella a doppia entrata o tabella di contingenza. I dati da prendere in considerazione saranno ora le r x s coppie (xi , yj ) di modalità diverse ciascuna considerata con la propria frequenza nij .

Tabella a Doppia Entrata La covarianza rimane definita come la media aritmetica, in questo caso “ponderata”, dei prodotti degli scarti dalla media, rispettivamente, di X e di Y .

NON E’ VERO IL VICEVERSA Si noti che se le variabili X e Y sono indipendenti allora si avrà che: nij = ni. n.j / n ,  (i,j), sostituendo nella formula della covarianza avremo: = 0  0 = 0 In conclusione: se (X, Y) sono Indipendenti Cov(X, Y)=0 , r(X, Y)=0 . NON E’ VERO IL VICEVERSA 

Calcolo semplificato della Covarianza da cui:

Verifichiamo con un contro – esempio che Cov(X, Y)=0 non implica l’indipendenza: Infatti nella tabella, di cui sopra, M(X)=0, M(Y)=2, quindi Cov(X,Y)=r(X,Y)=0 ma, chiaramente, Y dipende da X secondo una legge quadratica. In questo caso X ed Y si dicono incorrelati . X Y XY -2 4 -8 -1 1 2 8 10

se i dati sono organizzati in una tabella a doppia entrata avremo analogamente: il calcolo del coefficiente di correlazione si effettuerà come di consueto: