analisi bidimensionale #2 statistica analisi bidimensionale #2 alessandro polli facoltà di scienze politiche, sociologia, comunicazione 29 aprile 2015
Generalità Obiettivo Nella sezione precedente abbiamo esaminato i principali metodi per l’analisi di fenomeni complessi, la cui osservazione in un collettivo comporta la considerazione congiunta di più caratteri qualitativi, limitandoci all’analisi bidimensionale Estendiamo adesso l’analisi al caso di variabili statistiche doppie c.d. miste, cioè composte da una mutabile statistica definita su scala nominale/ordinale e da una variabile definita su scala quantitativa Ovviamente, nel caso di variabili statistiche doppie miste è possibile, come in precedenza, analizzare la distribuzione congiunta delle frequenze (assolute e relative) allo scopo di accertare l’eventuale presenza di connessione tra le due variabili statistiche componenti la variabile statistica doppia
Generalità Obiettivo Del resto, il fatto che una delle due variabili componenti sia definita su uno spazio numerico apre la strada a nuove interessanti possibilità di indagine: infatti, se al mutamento di stato della variabile qualitativa si verifica una variazione nei valori della variabile quantitativa (effetto segnalato dalla «polarizzazione» delle osservazioni in precise regioni dell’insieme ℝ), allora significa che le due variabili statistiche non soltanto sono connesse, ma vi è un «qualcosa in più» che lega tra loro le due variabili: in breve, è lo stesso concetto di connessione che va riformulato La proprietà che caratterizza una coppia di variabili statistiche, di cui una qualitativa ed una quantitativa, componenti una variabile statistica doppia mista è indicata come dipendenza in media
Generalità La dipendenza in media Esempio 1. Ipotizziamo di essere interessati ad accertare se il reddito medio delle famiglie italiane è influenzato dalla ripartizione geografica. A tale scopo, rileviamo il reddito medio in un collettivo di 𝑛=500 famiglie residenti nelle tre ripartizioni geografiche del territorio nazionale. Il risultato della rilevazione è contenuto nel seguente prospetto:
Generalità La dipendenza in media Con riferimento alla precedente tabella, potremmo procedere con l’analisi della connessione e calcolare quindi gli indici 𝜙 2 e 𝑉, tuttavia le due variabili non sono equivalenti su un piano logico, in quanto siamo interessati a verificare se al passaggio dall’una all’altra ripartizione geografica, varia il reddito medio annuo familiare, mentre la relazione inversa non ha giustificazione logica o, semplicemente, non è interessante Quindi, in presenza di variabili statistiche doppie miste, lo studio delle relazioni tra le variabili componenti è asimmetrico, in quanto mira ad accertare la risposta della variabile quantitativa ai cambiamenti di stato della variabile qualitativa (variazione del reddito medio al mutare della ripartizione geografica), o la risposta della variabile qualitativa ad una variazione della variabile quantitativa (attenuazione dei sintomi per una determinata patologia a seguito di un aumento nel dosaggio di un farmaco), ma di solito non mira a verificare la relazione inversa
Generalità La dipendenza in media Con riferimento ai dati riportati nella Tabella 1, per accertare se al passaggio dall’una all’altra ripartizione il reddito medio varia, possiamo calcolare le medie delle quattro distribuzioni univariate del reddito ─ quelle che caratterizzano le tre ripartizioni geografiche e quella riferita all’intero territorio nazionale Se al passaggio dall’una all’altra ripartizione del territorio nazionale il reddito medio non varia e assume un valore prossimo o al limite uguale a quello medio nazionale, ciò indica assenza di legame tra ripartizione geografica e reddito. Poiché per accertare tale proprietà abbiamo fatto riferimento a medie (più precisamente, medie condizionate, come vedremo tra poco), indicheremo tale situazione come assenza di dipendenza in media, o meglio di indipendenza in media Traduciamo la precedente intuizione nei termini che seguono
Generalità La dipendenza in media Calcoliamo il reddito medio nella ripartizione dell’Italia settentrionale, il che equivale a «lavorare» sui dati della prima riga del quadro centrale della Tabella 1 e applicare la metodologia standard per il calcolo di una media aritmetica. Impostiamo il prospetto di calcolo:
Generalità La dipendenza in media Procediamo adesso a determinare il reddito medio con riferimento all’Italia centrale (seconda riga del quadro centrale della Tabella 1), seguendo la stessa procedura. Otteniamo:
Generalità La dipendenza in media Analogamente, calcoliamo il reddito medio che caratterizza l’Italia meridionale e insulare (terza riga del quadro centrale della Tabella 1), impostando il seguente prospetto di calcolo:
Generalità La dipendenza in media Infine, determiniamo il reddito medio sull’intero territorio nazionale (riga dei totali della Tabella 1), seguendo la stessa impostazione: Poiché la media aritmetica del reddito in questo caso è stata calcolata utilizzando la distribuzione marginale delle frequenze, la indicheremo come media marginale
Spezzata di regressione Generalità La dipendenza in media Raccogliamo i risultati precedenti in un prospetto di sintesi e rappresentiamoli graficamente: Media marginale Medie condizionate Dall’esame della spezzata di regressione, appare evidente che passando da «nord» a «sud» il reddito medio diminuisce Spezzata di regressione
Generalità La dipendenza in media Con riferimento al grafico precedente, appare chiaro che deve esistere una qualche relazione di dipendenza in media tra «ripartizione geografica» e «reddito» Se viceversa tale situazione non si fosse verificata e ci fossimo trovati in un caso di indipendenza in media, avremmo riscontrato che le medie del reddito nelle tre ripartizioni geografiche sarebbero risultate tutte uguali fra loro e uguali alla media marginale del reddito Notare che nella procedura che abbiamo adottato per il calcolo del reddito medio a livello di ripartizione geografica, le frequenze relative sono state ottenute rapportando le frequenze assolute congiunte ai rispettivi totali riga: in sostanza, abbiamo calcolato le medie utilizzando le frequenze relative condizionate, per cui il reddito medio a livello di ripartizione è a tutti gli effetti una media condizionata
Generalità La dipendenza in media Formalizziamo le operazioni di calcolo appena svolte. Consideriamo la generica tabella di contingenza: 𝑿\𝒀 𝑦 1 … 𝑦 𝑗 𝑦 ℎ 𝑇𝑜𝑡𝑎𝑙𝑒 𝑥 1 𝑁 11 𝑁 1𝑗 𝑁 1ℎ 𝑁 1. 𝑥 𝑖 𝑁 𝑖1 𝑁 𝑖𝑗 𝑁 𝑖ℎ 𝑁 𝑖. 𝑥 𝑘 𝑁 𝑘1 𝑁 𝑘𝑗 𝑁 𝑘ℎ 𝑁 𝑘. 𝑁 .1 𝑁 .𝑗 𝑁 .ℎ 𝑛
Generalità La dipendenza in media Richiamando le convenzioni adottate nella precedente sezione, nella tabella di contingenza le 𝑘 modalità della variabile 𝑿 sono riportate in fiancata, mentre le ℎ modalità della 𝒀 sono riportate in testata Se restringiamo la nostra attenzione alle singole righe della tabella di contingenza (è il caso considerato nell’esempio), ciò equivale ad introdurre la nozione di variabile statistica condizionata; se consideriamo la 𝑖−esima modalità del carattere 𝑿 come «evento condizionante» e ci concentriamo sulla distribuzione di 𝒀 in tale partizione, indichiamo con 𝑌|𝑋= 𝑥 𝑖 la variabile 𝒀 condizionata alla modalità 𝑥 𝑖 di 𝑿
Generalità La dipendenza in media Indicando con la notazione 𝑓 𝑌|𝑋= 𝑥 𝑖 le frequenze relative condizionate associate alla variabile 𝑌|𝑋= 𝑥 𝑖 , queste possono essere calcolate rapportando le frequenze (assolute o relative) congiunte collocate sull’ 𝑖−esima riga della tabella di contingenza ai rispettivi totali riga. Con riferimento alla 𝑗−esima modalità della 𝒀, la relativa frequenza condizionata, in simboli, sarà data da 𝑓 𝑗|𝑖 = 𝑓 𝑖𝑗 𝑓 𝑖. Notare che la variabile condizionata 𝑌|𝑋= 𝑥 𝑖 è a tutti gli effetti una variabile statistica univariata, quindi possiamo determinarne l’intero set di parametri di posizione, di variabilità e di forma
Generalità La dipendenza in media In generale, la media condizionata è definita dalla relazione 𝜇 𝑌|𝑋= 𝑥 𝑖 = 𝑗=1 ℎ 𝑦 𝑗 𝑓 𝑗|𝑖 mentre la media marginale (che nell’esempio è rappresentata dal reddito medio sull’intero territorio nazionale) è definita come 𝜇 𝑌 = 𝑗=1 ℎ 𝑦 𝑗 𝑓 .𝑗
Generalità La dipendenza in media Se si verificasse un caso di indipendenza in media di 𝒀 da 𝑿, allora al variare di 𝑥 𝑖 le medie condizionate 𝜇 𝑌|𝑋= 𝑥 𝑖 risulterebbero tutte uguali fra loro e pari al valore della media marginale. In simboli: 𝜇 𝑌|𝑋= 𝑥 1 = 𝜇 𝑌|𝑋= 𝑥 2 = …= 𝜇 𝑌|𝑋= 𝑥 𝑘 ≡ 𝜇 𝑌 Dimostriamo tale equivalenza. Abbiamo già visto che in caso di assenza di connessione le distribuzioni condizionate sono tutte uguali tra loro e uguali alla distribuzione marginale. Nel problema in esame, questo equivale a dire che 𝑓 𝑗|𝑖 = 𝑓 .𝑗
Generalità La dipendenza in media Con riferimento alla generica media condizionata 𝜇 𝑌|𝑋= 𝑥 𝑖 avremo quindi che 𝜇 𝑌|𝑋= 𝑥 𝑖 = 𝑗=1 ℎ 𝑦 𝑗 𝑓 𝑗|𝑖 = 𝑗=1 ℎ 𝑦 𝑗 𝑓 .𝑗 = 𝜇 𝑌 Da un punto di vista grafico, nel caso di indipendenza in media la spezzata di regressione risulterebbe parallela all’asse delle ascisse e coinciderebbe con la media marginale Viceversa, quanto più vi è dipendenza in media, tanto più le medie condizionate differiranno fra loro e differiranno dalla media marginale. Da un punto di vista grafico, la spezzata di regressione assumerà valori ben distinti, maggiori o minori della media marginale
Generalità La dipendenza in media Un’interessante proprietà delle medie condizionate è che la loro media aritmetica è pari alla media marginale. Dimostriamolo con riferimento all’esempio precedente, calcolando la media aritmetica delle medie condizionate tramite il seguente prospetto di calcolo:
Generalità La dipendenza in media Formalmente, scriveremo che 𝑖=1 𝑘 𝜇 𝑌|𝑋= 𝑥 𝑖 ∙ 𝑓 𝑖. = 𝜇 𝑌 Questo risultato è importante, in quanto in precedenza abbiamo osservato che all’aumentare del legame di dipendenza in media, le medie condizionate tenderanno a differenziarsi sempre più fra loro e rispetto alla media marginale Ma se la media aritmetica delle medie condizionate è la media marginale, ciò equivale a dire che all’aumentare del legame di dipendenza in media, la dispersione delle medie condizionate attorno alla loro media tende ad aumentare, dispersione che è possibile misurare calcolando la varianza delle medie condizionate
Generalità La dipendenza in media Con riferimento al nostro esempio, possiamo calcolare la varianza delle medie condizionate organizzando il seguente prospetto di calcolo: La varianza delle medie condizionate sarà data da 𝜎 𝜇 𝑌|𝑋 2 = 𝑖=1 𝑘 𝜇 𝑌|𝑋= 𝑥 𝑖 2 𝑓 𝑖. − 𝜇 𝑌 2 =715,97− 26,4 2 =19,01
Generalità La dipendenza in media Sviluppiamo ulteriormente il ragionamento, introducendo il concetto di varianza condizionata Calcoliamo le varianze condizionate in quanto, come si è sottolineato in precedenza, essendo la variabile condizionata 𝑌|𝑋= 𝑥 𝑖 a tutti gli effetti una variabile statistica univariata, possiamo determinarne tutti i parametri di posizione, di variabilità e di forma Abbiamo già determinato le medie delle 3 distribuzioni condizionate. Procediamo adesso a calcolarne le varianze, allo scopo di evidenziare le differenze con cui, nelle tre ripartizioni geografiche considerate, i redditi si disperdono attorno alle rispettive medie condizionate
Generalità La dipendenza in media Con riferimento alla distribuzione del reddito in Italia settentrionale, impostiamo il prospetto per il calcolo della varianza condizionate: La varianza della prima distribuzione condizionata sarà data da 𝜎 𝑌|𝑋= 𝑥 1 2 = 𝑗=1 ℎ 𝑦|𝑋= 𝑥 1 𝑗 𝑓 .𝑗 − 𝜇 𝑌|𝑋= 𝑥 1 2 =986,6− 29,84 2 =96,174
Generalità La dipendenza in media Procediamo a determinare la varianza condizionata della distribuzione del reddito in Italia centrale, seguendo la stessa procedura: La varianza della seconda distribuzione condizionata sarà data da 𝜎 𝑌|𝑋= 𝑥 2 2 = 𝑗=1 ℎ 𝑦|𝑋= 𝑥 2 𝑗 𝑓 .𝑗 − 𝜇 𝑌|𝑋= 𝑥 2 2 =871,0− 27,6 2 =109,240
Generalità La dipendenza in media Analogamente, calcoliamo la varianza condizionata della distribuzione del reddito in Italia meridionale e insulare: La varianza della terza distribuzione condizionata sarà data da 𝜎 𝑌|𝑋= 𝑥 3 2 = 𝑗=1 ℎ 𝑦|𝑋= 𝑥 3 𝑗 𝑓 .𝑗 − 𝜇 𝑌|𝑋= 𝑥 3 2 =511,67− 19,867 2 =116,982
Generalità La dipendenza in media Poiché le varianze condizionate, nel passaggio dall’una all’altra modalità della 𝑿, hanno valori differenti, sintetizziamone la distribuzione attraverso il calcolo della loro media aritmetica: La media aritmetica delle varianze condizionate è ottenuta come 𝜇 𝜎 𝑌|𝑋 2 = 𝑖=1 𝑘 𝜎 𝑌|𝑋= 𝑥 𝑖 2 ∙ 𝑓 𝑖. =105,03
Generalità La dipendenza in media Infine, per ragioni che saranno immediatamente evidenti, ci interessa anche la varianza della variabile statistica 𝒀, di cui riportiamo il prospetto di calcolo: La varianza di 𝒀 è data dalla seguente relazione: 𝜎 𝑌 2 = 𝑗=1 ℎ 𝑦 𝑗 2 𝑓 .𝑗 − 𝜇 𝑌 2 =821− 26,4 2 =124,04
Generalità Variabilità «between» e variabilità «within» Perché ci siamo complicati la vita calcolando i parametri distributivi delle medie e delle varianze condizionate? Per un motivo molto semplice: abbiamo appena calcolato la varianza marginale della variabile 𝒀, verificando che è pari a 𝜎 𝑌 2 =124,04 Tale valore misura la dispersione del reddito a livello nazionale, a prescindere dalla conoscenza di come il reddito si distribuisce nelle ripartizioni geografiche in cui si articola il territorio italiano
Generalità Variabilità «between» e variabilità «within» Adesso, sommiamo la varianza delle medie condizionate 𝜎 𝜇 𝑌|𝑋 2 e la media delle varianze condizionate 𝜇 𝜎 𝑌|𝑋 2 ottenute in precedenza: 𝜎 𝜇 𝑌|𝑋 2 + 𝜇 𝜎 𝑌|𝑋 2 =19,01+105,03=124,04≡ 𝜎 𝑌 2 Quindi la varianza della variabile 𝒀, note le sue relazioni con una seconda variabile 𝑿 (che può essere qualitativa o quantitativa), può essere decomposta in due componenti, di cui una misura la variabilità «fra» distribuzioni condizionate (between groups), mentre l’altra misura la variabilità media «entro» le distribuzioni condizionate (within groups)
Generalità Variabilità «between» e variabilità «within» Questa informazione è di estremo interesse. Infatti, se osservassimo la distribuzione del reddito nazionale nel complesso, quindi senza considerare le differenze tra ripartizioni territoriali, il calcolo della misura di dispersione ci fornirebbe una informazione «descrittiva» senza ulteriori connotazioni Nota la distribuzione del reddito tra ripartizioni territoriali, viceversa, siamo in grado di risalire alle «cause» della dispersione osservata a livello nazionale: un reddito medio che differisce tra ripartizioni territoriali (misurato dalla dispersione delle medie condizionate attorno al valore medio del reddito rilevato a livello nazionale: varianza between) e una diversa distribuzione del reddito all’interno delle singole ripartizioni territoriali (di cui consideriamo un valore medio: varianza within)
Generalità Proprietà della media condizionata Generalizziamo i risultati ottenuti enunciando le due proprietà della media condizionata, che abbiamo già dimostrato con un procedimento induttivo Proprietà della media iterata. Data una variabile statistica doppia 𝑿, 𝒀 , il valore medio delle medie condizionate 𝜇 𝑌|𝑋 è uguale al valore medio della variabile 𝒀. In simboli: 𝜇 𝑌 = 𝑖=1 𝑘 𝜇 𝑌|𝑋= 𝑥 𝑖 ∙ 𝑓 𝑖. Proprietà di decomposizione della varianza. La varianza della variabile 𝑌 è pari alla somma della varianza delle medie condizionate (varianza between) e della media delle varianze condizionate (o varianza within). In simboli: 𝜎 𝑌 2 = 𝜎 𝜇 𝑌|𝑋 2 + 𝜇 𝜎 𝑌|𝑋 2
Generalità La misura di dipendenza in media 𝜼 𝟐 La seconda proprietà della media condizionata ci fornisce anche un’indicazione per costruire una misura di dipendenza in media. Infatti, poiché all’aumentare della dipendenza in media aumenta la variabilità «fra» distribuzioni condizionate, una misura di dipendenza in media è data dal rapporto 𝜂 𝑌|𝑋 2 = 𝜎 𝜇 𝑌|𝑋 2 𝜎 𝑌 2 in cui al numeratore figura la varianza delle medie condizionate (o varianza between), mentre al denominatore figura la varianza totale della 𝒀. La misura 𝜂 𝑌|𝑋 2 è indicata come rapporto di correlazione di Pearson Come di consueto, analizziamo i casi limite, cioè gli estremi dell’intervallo di definizione di 𝜂 𝑌|𝑋 2
Generalità La misura di dipendenza in media 𝜼 𝟐 𝜂 𝑌|𝑋 2 =0 se e solo se è nullo il numeratore del rapporto, cioè se 𝜎 𝜇 𝑌|𝑋 2 =0, circostanza che si verifica, come sappiamo, in caso di indipendenza in media, cioè di assenza di legame tra 𝑿 e 𝒀 𝜂 𝑌|𝑋 2 =1 se e solo se 𝜎 𝜇 𝑌|𝑋 2 = 𝜎 𝑌 2 , cioè quando il numeratore e il denominatore del rapporto sono uguali, circostanza che si verifica se la seconda componente in cui può essere decomposta la varianza è nulla e quindi 𝜇 𝜎 𝑌|𝑋 2 =0. In questo caso l’unica «causa» di dispersione è la variabilità «fra» distribuzioni condizionate, mentre in media non vi è dispersione «entro» le distribuzioni. Un esempio si ha quando ad ogni modalità della 𝑿 corrisponde un solo valore di 𝒀, per cui le varianza condizionate sono tutte nulle e quindi è nulla anche la loro media In tutti i casi intermedi si avrà che 0<𝜂 𝑌|𝑋 2 <1. Si tratta di un’intera gamma di situazioni in cui il legame tra 𝑿 e 𝒀 contribuirà in maniera crescente a spiegare la variabilità del carattere 𝒀
Generalità La misura di dipendenza in media 𝜼 𝟐 Con riferimento al precedente esempio, essendo 𝜎 𝑌 2 =124,04 e 𝜎 𝜇 𝑌|𝑋 2 =19,01 la misura di dipendenza in media sarà data da 𝜂 𝑌|𝑋 2 = 19,01 124,04 ≅0,153 Ne deduciamo che il legame di dipendenza in media di 𝒀 da 𝑿 è alquanto debole, in quanto la principale causa di variabilità della 𝒀 deriva dalla distribuzione del reddito all’interno delle singole ripartizioni territoriali ( 𝜇 𝜎 𝑌|𝑋 2 =105,03), mentre l’influsso esercitato sulla reddito dalla diversa appartenenza territoriale spiega appena il 15,3% della variabilità complessiva