DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.

Slides:



Advertisements
Presentazioni simili
La probabilità nei giochi
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
LA VARIABILITA’ IV lezione di Statistica Medica.
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Rappresentazione tabellare dei dati
Le rappresentazioni grafiche
Capitolo 8 Sistemi lineari.
Vettori e matrici algebrici
Il chi quadro indica la misura in cui le
PROPRIETÀ DEI DETERMINANTI
Variabili casuali a più dimensioni
Bruno Mario Cesana Stefano Calza
STATISTICA DESCRITTIVA BIVARIATA
Algebra delle Matrici.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Esercizio 1 In una indagine statistica si vuole rilevare il numero di cellulari posseduti dagli studenti iscritti alla facoltà di economia. Si dica: -
VARIABILI DOPPIE: UN ESEMPIO
VARIABILI ALEATORIE Sono presentate di seguito le nozioni di:
Elementi di Matematica
RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE
L’analisi Bivariata Studia la relazione fra coppie di variabili.
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Sistemi di equazioni lineari
Corso di biomatematica Lezione 2: Probabilità e distribuzioni di probabilità Davide Grandi.
STATISTICA a.a LA STATISTICA INFERENZIALE
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Analisi delle corrispondenze
Un buon latinista è anche un bravo matematico? I.S. Artemisia Gentileschi - NAPOLI Convegno finale Progetto Lauree Scientifiche – Matematica Università
Teorie e Tecniche di Psicometria
Grandezze e funzioni Marco Bortoluzzi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Distribuzioni di frequenza
Corso di biomatematica lezione 7-3: Test di significatività
Corso di Matematica (6 CFU) (4 CFU Lezioni +2 CFU Esercitazioni)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
La statistica.
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Accenni di analisi monovariata e bivariata
Martina Serafini Martina Prandi
Come analizzare una tabella di contingenza quando il valore del chi quadrato è significativo Analisi dei residui con un esempio reale: Studenti universitari.
Liceo Scientifico Evangelista Torricelli - Somma Vesuviana PUBBLICITA’ OCCULTA Antefatto.
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
ANALISI E INTERPRETAZIONE DATI
Forma normale delle equazioni di 2° grado Definizione. Un'equazione di secondo grado è in forma normale se si presenta nella forma Dove sono numeri.
analisi bidimensionale #2
Analisi matematica Introduzione ai limiti
32 = 9 x2 = 9 x = 3 32 = 9 √9 = 3 L’estrazione di radice
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
La probabilità matematica
La dipendenza e indipendenza statistica Prof. Daniela Bertozzi Itis Fauser - Novara Gli appunti sono stati tratti dal testo L. Sasso – Matematica a colori.
1111 Università di Napoli Federico II, Dipartimento di Scienze Economiche e Statistiche S. BalbiI test non parametrici.
L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.
ARGOMENTI DELLA LEZIONE  Le distribuzioni di frequenza in classi  Le distribuzioni di frequenza in classi  Le tabelle di frequenza  La rappresentazione.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
1 ELEMENTI DI CALCOLO COMBINATORIO. 2 Elementi di calcolo combinatorio Si tratta di una serie di tecniche per determinare il numero di elementi di un.
Transcript della presentazione:

DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni unità statistica. Quando si considerano due soli caratteri si parla di distribuzione statistica congiunta. Questo tipo di distribuzione è rappresentabile con una tabella a doppia entrata in cui si raccolgono i dati relativi a due mutabili statistiche o una mutabile ed una variabile. La tabella della successiva slide riporta la distribuzione congiunta relativa alla lingua studiata e alla classe di iscrizione in un liceo :

Lingua (Y) Classe (X) inglesefrancesetedescospagnolo Prima Seconda Terza Quarta quinta In ciascuna casella compare una frequenza assoluta e cioè il numero di unità statistiche che presentano la modalità x del carattere X e la modalità y del carattere Y.

Leggiamo ora la tabella in un altro modo….Calcoliamo i totali di riga e otteniamo la distribuzione di X ; quelli di colonna ci danno la distribuzione di Y e il totale di entrambe le distribuzioni ci permette di conoscere il numero di unità statistiche. Lingua (Y) Classe (X) inglesefrancesetedescospagnolo Prima Seconda Terza Quarta quinta X Y

Definiamo : si dice distribuzione marginale la distribuzione dei totali di riga o di colonna. Ogni tabella a doppia entrata ha pertanto due distribuzioni marginali. Ora leggiamo la tabella in un altro modo : Lingua (Y) Classe (X) inglesefrancesetedescospagnolo Prima Seconda Terza Quarta quinta Stiamo leggendo in relazione ad una particolare colonna: abbiamo fissato una delle particolari modalità del carattere Y.

Lingua (Y) Classe (X) inglesefrancesetedescospagnolo Prima Seconda Terza Quarta quinta Stiamo leggendo in relazione ad una particolare riga: abbiamo fissato una delle particolari modalità del carattere X. Si chiama distribuzione condizionata la distribuzione che si ottiene fissando una particolare modalità di uno dei due caratteri e considerando le frequenze associate a tutte le modalità dell’altro carattere.

Da una tabella di frequenze assolute si possono derivare diverse tabelle di frequenze relative. FREQUENZE RELATIVE GLOBALI : si ottengono dividendo ogni frequenza assoluta per il numero di unità statistiche Lingua (Y) Classe (X) inglesefrancesetedescospagnolo Prima11,5%5,1%4,2%1,7% Seconda12,9%6,0%2,1%1,1% Terza11,1%4,6%2,0%1,5% Quarta9,6%5,0%2,9%1,0% quinta9,9%4,2%2,4%1,2%

Lingua (Y) Classe (X) inglesefrancesetedescospagnolo freq marg X Prima11,5%5,1%4,2%1,7%22,5% Seconda12,9%6,0%2,1%1,1%19,2% Terza11,1%4,6%2,0%1,5%19,2% Quarta9,6%5,0%2,9%1,0%18,5% quinta9,9%4,2%2,4%1,2%17,7% Freq marg Y55,0%24,9%13,6%6,5%100% Sommando le frequenze relative per riga e per colonna si ottengono le frequenze relative marginali

Se invece dividiamo ogni dato per il totale della propria riga otteniamo la TABELLA DELLE FREQUENZE PER RIGA. Lingua (Y) Classe (X) inglesefrancesetedescospagnolo TOTALI Prima51,3%22,6%18,6%7,5%100% Seconda58,2%27,0%9,7%5,1%100% Terza57,6%24,1%10,6%7,6%99,9% Quarta51,8%26,8%15,9%5,5%100% quinta56,1%23,6%13,4%7,0%100,1% Freq marg Y55,0%24,9%13,6%6,5%100% Ciascuna riga rappresenta una distribuzione relativa condizionata; l’ultima riga è la distribuzione marginale relativa del carattere Y.

Si possono quindi creare tre diverse tabelle di frequenze relative. Indicando con F(i;j) la frequenza assoluta corrispondente alla i-esima modalità del carattere X e alla j-esima modalità di Y, con r(i) la somma delle frequenze assolute della i-esima riga, c(j) la somma delle frequenze assolute della j-esima colonna e n il numero totale delle unità statistiche, si hanno tre possibilità di calcolo : 1) frequenze relative per riga : F(i,j) / r(i) ; 2) frequenze relative per colonna : F(i,j) / c(j) ; 3) frequenze relative assolute : F(i,j) / n.

INDIPENDENZA ASSOLUTA DI DUE MUTABILI STATISTICHE Una tabella a doppia entrata rappresenta una distribuzione doppia di due caratteri X e Y che possono essere tra loro indipendenti o avere tra loro qualche relazione. Si dice che un carattere X è assolutamente indipendente da un carattere Y se per ogni modalità x i le frequenze relative di tutte le modalità di Y sono uguali ( cioè le frequenze relative per colonna sono tutte identiche tra loro e identiche anche alla frequenza relativa marginale del carattere Y ). Facciamo un esempio : lanciamo contemporaneamente una moneta e un dado e registriamo l’esito T C

Calcoliamo le frequenze relative per colonna e quella marginale : T 0,50,40,70,60,50,3 C 0,50,60,30,40,50,7 x 0,5 E’ evidente che X e Y non sono indipendenti in modo assoluto, forse perché è piuttosto basso il numero dei lanci ( 60 ). L’indipendenza assoluta teorica richiederebbe una tabella così: T 0,5 C

La dipendenza assoluta è praticamente quasi impossibile da registrare : quasi sempre si individua una qualche forma di connessione tra i caratteri. La dipendenza tra caratteri, però, può essere più o meno accentuata e per “misurarla” si deve costruire un indice in grado di indicare se due caratteri sono “poco” o “molto” connessi. Vediamo come costruire tale indice sul caso di prima. Abbiamo la tabella delle frequenze osservate che indicheremo con o ij tot T C tot 10 60

Costruiamo ora una tabella delle frequenze teoriche attese che indichiamo con a ij. Questi valori rappresentano le frequenze assolute che si sarebbero dovute registrare nel caso ( teorico ) di indipendenza assoluta dei due caratteri. Vediamo come le costruiamo : consideriamo il valore atteso della i- esima riga e j-esima colonna a ij e calcoliamo la frequenza relativa per colonna ( a ij / somma della j-esima colonna ). Sappiamo che questo valore deve essere uguale alla frequenza marginale del primo carattere ( somma della i-esima riga / numero totale di unità statistiche ). In simboli : da cui si ottiene Il valore atteso è quindi uguale al prodotto del totale della sua riga per il totale della sua colonna fratto il totale delle unità statistiche.

Otteniamo quindi la seguente tabella dei valori teorici attesi tot T C tot Costruiamo ora le differenze tra le frequenze osservate e quelle attese. Queste differenze sono dette contingenze e si indicano con c ij = o ij - a ij T C

La somma delle contingenze, come avrai notato, è nulla. E questo non è un caso!! E’ sempre così. Per eliminare l’effetto di compensazione tra i segni + e – delle varie contingenze si calcolano i seguenti valori : c ij 2 / a ij = ( o ij – a ij ) 2 / a ij T 00,20,80,200,8 C 00,20,80,200,8 La somma di tutti questi valori misura la “distanza” tra la distribuzione congiunta che stiamo esaminando e quella teorica nel caso di assoluta indipendenza. Tale somma si definisce chi quadrato ( dal momento che è indicato con la lettera greca Χ chi elevata al quadrato ). Nel caso di indipendenza assoluta questo indice vale zero. Nel nostro caso vale 4.

Ci chiediamo : ma 4 “dice “che sono poco o molto dipendenti i nostri due caratteri? Il valore 4 non ci dice molto, confessiamolo….. Se il nostro chi quadrato è molto vicino allo zero, possiamo rispondere che i caratteri sono quasi indipendenti, ma, dal momento che l’indice chi quadrato non è limitato superiormente, non sappiamo valutare se 4 è un valore “alto” o no. Allora è meglio passare ad un altro indice che si dimostra essere sempre compreso tra 0 e 1 che ci dà indicazioni più precise. Questo indice si chiama indice di contingenza di Cramèr e si definisce così : dove n è il numero totale di unità statistiche e h rappresenta il minimo tra il numero delle righe e quello delle colonne della tabella.

Se l’indice di Cramèr è vicino allo zero, allora i caratteri sono “quasi” indipendenti, mentre se C è vicino all’uno allora i caratteri sono molto dipendenti l’uno dall’altro. Vediamo nel nostro caso : Χ 2 = 4 da cui otteniamo C = 4 / 60*(2-1) quindi C = 1/15. Allora i nostri caratteri sono molto vicino all’indipendenza, come si poteva immaginare!!!!