DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1) Finora ci siamo occupati di medie e scarti ma dobbiamo anche affrontare il problema di studiare le relazioni tra insiemi di dati. La media e la deviazione standard possono essere usate per descrivere una singola distribuzione di frequenza ma non ci dicono nulla sulle eventuali relazioni tra due variabili.
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI(2) Potremmo, ad esempio, essere interessati a valutare il grado di associazione tra l'altezza e il peso “della stessa persona” all’interno di un gruppo di persone, tra il reddito medio pro-capite di un Paese e il tasso di mortalità neonatale, tra età della madre e numero di nati affetti da sindrome di Down e così via. Il primo passo da compiere quando si vuole studiare una relazione tra due variabili consiste nell'elencare le coppie di valori relative alle due variabili in studio e rappresentarle graficamente
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI(2) Si consideri un insieme di coppie (xi , yi) di valori di uricemia, misurati con due metodi (X ed Y) in un gruppo di 10 uomini anziani. Si consideri che ciascun prelievo di sangue (uno per soggetto) è stato ripartito in due aliquote, l'una analizzata con il metodo X e l'altra con il metodo Y.
F Grafico di Dispersione DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (2) L'esame visivo del grafico (diagramma di dispersione) fornisce una prima idea dell'entità e della forma della relazione. F Grafico di Dispersione I dati della tabella sono riportati nel diagramma cartesiano qui a fianco. Ogni punto rappresenta una coppia (xi , yi), la linea rossa verticale la media (x) delle xi, e La linea rossa orizzontale la media (y) delle yi.
CORRELAZIONE LINEARE Poiché ogni coppia di misure si riferisce a un differente valore i tipico del soggetto in esame, ci si aspetta che, se una misura xi è maggiore della media, anche la corrispondente misura yi sia maggiore della media . In altre parole, ci si attende che a scarti dalla media (xi-xm) positivi sull'asse x corrispondano scarti dalla media(yi- ym) positivi sull'asse y, e che a scarti negativi sull‘asse x corrispondano scarti negativi sull'asse y: in effetti, i punti (xi,yi) sono addensati nel primo e nel terzo quadrante.
ASSENZA DI CORRELAZIONE LINEARE Un singolo prelievo di sangue viene suddiviso in 10 provette, ed il contenuto di ogni provetta è ripartito in due aliquote, analizzate l'una con il metodo X e l'altra con il metodo Y. Nell'insieme di 10 coppie (xi , yi) di misure di un unico valore , le fluttuazioni attorno alle medie e sono dovute solo ad errori di misura.
Grafico di Dispersione Perciò non ci si aspetta che a scarti positivi sull'asse x corrispondano scarti positivi sull'asse y: in effetti, i punti(xi,yi) si disperdono uniformemente nei quadranti della figura Grafico di Dispersione I dati della tabella sono riportati nel diagramma cartesiano qui a fianco. Ogni punto rappresenta una coppia (xi , yi), la linea rossa verticale la media (xm) delle x, e la linea rossa orizzontale la media (ym) delle y.
La somma dei prodotti degli scarti prende il nome di codevianza: Tale somma è positiva se le coppie di scarti concordi (+,+ o -,-) prevalgono su quelle di scarti discordi, negativa in caso contrario, e nulla se coppie concordi e discordi si equivalgono: In analogia con quanto visto per la varianza campionaria, si definisce un indice detto covarianza dato dal rapporto tra codevianza e numerosità (n) del campione diminuita di un'unità
INDICI DI COVARIAZIONE: Il rapporto tra la covarianza e il prodotto delle deviazioni standard (sx e sy) delle variabili x e y è detto coefficiente di correlazione lineare: Il coefficiente di correlazione lineare può assumere valori compresi tra -1 e +1.
ESEMPIO DI CALCOLO (1) La tabella seguente riporta lo schema di calcolo (basato sugli scarti dalla media) degli indici di Correlazione Lineare per l'esempio 1
ESEMPIO DI CALCOLO (2) La tabella seguente riporta lo schema di calcolo (basato sulle somme dei quadrati e le somme dei prodotti) degli indici di covariazione per l'esempio 1. ESEMPIO di calcolo (2)
COME APPARE LA CORRELAZIONE: Gli esempi qui riportati si riferiscono alla correlazione tra i valori di uricemia rilevati, in differenti condizioni, con due metodi di misura (X e Y) su un campione di 100 soggetti anziani. uno studente alla 1° lezione uno studente all'ultima lezione un analista esperto uno studente alla 2° lezione
La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta, e non risente dell'inclinazione della retta, salvo che per due importanti eccezioni.
La FORZA e il TIPO dell'ASSOCIAZIONE Grafici di dispersione per variabili a correlazione elevata o molto elevata.
La FORZA e il TIPO dell'ASSOCIAZIONE Grafici di dispersione per variabili a correlazione nulla o lieve.
La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione è positivo se la retta giace nei quadranti I e III, negativo in caso contrario. Se i punti si allineano perfettamente su una retta parallela ad uno dei due assi, il coefficiente di correlazione è indeterminato.
La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta: vi possono essere associazioni anche forti, ma di tipo non lineare per le quali il coefficiente di correlazione è prossimo a 0.