Verifica delle ipotesi sulla forma della distribuzione: caso di un campione
Verifica delle ipotesi sulla FORMA DELLA DISTRIBUZIONE VARIABILE NOMINALE POLITOMICA Si effettua quando il ricercatore è interessato a verificare ipotesi sulla forma della distribuzione della popolazione basandosi sulla forma della distribuzione nel campione. Ci si basa sul confronto fra FREQUENZE OSSERVATE NEL CAMPIONE e FREQUENZE ATTESE sulla base dell’Ipotesi Nulla. Essendo elevata al quadrato è definita solo sull’asse positivo che va da 0 a + infinito. I gdl li possiamo definire come gli elementi che in una distribuzione sono liberi di variare. Gdl= k-1
Condizioni di applicabilità Le osservazioni devono essere indipendenti Nessuna frequenza osservata è uguale a 0 Se la variabile è dicotomica nessuna frequenza teorica deve essere minore di 5 Se la variabile è politomica nessuna frequenza teorica deve essere inferiore a 1 Dire che le osservazioni sono indipendenti significa che il dato relativo a un soggetto è contato solo una volta.
Passi nell’applicazione del chi quadrato Stabilire l’ipotesi nulla e quella alternativa Specificare il livello di significatività α, l’ampiezza del campione ed i gradi di libertà Stabilire la zona di rifiuto Calcolare il valore statistico critico Calcolare il valore del test statistico Si riportano le frequenze osservate nelle celle della tabella di contingenza Si calcolano le frequenze attese Sulla base delle regole decisionali trarre le conclusioni
Calcolo delle frequenze teoriche Si deve tener conto: Di quanti soggetti è costituito il campione Della percentuale di soggetti che nella popolazione presenta la caratteristica in esame Negli anni passati presso l’Università di Chieti si sono avute le seguenti iscrizioni nei diversi indirizzi del corso di laurea in Psicologia: Psicologia clinica 40% Psicologia del lavoro 25% Psicologia dello sviluppo 20% Psicologia sperimentale 15%. Di 200 studenti di quest’anno, 60 hanno scelto l’indirizzo clinico, 45 quello di lavoro, 47 quello di sviluppo e 66 quello di sperimentale. La distribuzione delle scelte di questo anno è coerente con quelle effettuate nell’anno passato?
Calcolo delle frequenze teoriche Si deve tener conto: Di quanti soggetti è costituito il campione Della percentuale di soggetti che nella popolazione presenta la caratteristica in esame n=200 Negli anni passati presso l’Università di Chieti si sono avute le seguenti iscrizioni nei diversi indirizzi del corso di laurea in Psicologia: Psicologia clinica 40% Psicologia del lavoro 25% Psicologia dello sviluppo 20% Psicologia sperimentale 15%. Di 200 studenti di quest’anno, 60 hanno scelto l’indirizzo clinico, 45 quello di lavoro, 47 quello di sviluppo e 66 quello di sperimentale. La distribuzione delle scelte di questo anno è coerente con quelle effettuate nell’anno passato?
Esempio In un istituto per la riabilitazione dei pazienti con danni cerebrali, il 28% dei pazienti presenta un danno al lobo frontale, il 22% al lobo parietale, il 13% al lobo temporale; il 16% al lobo occipitale, il 14% al lobo limbico ed il resto al lobo dell’insula. In un campione di 46 pazienti che hanno riportato un danno cerebrale in seguito ad un incidente automobilistico, 15 pazienti hanno subito un danno al lobo frontale, 14 al lobo parietale, 7 al lobo temporale, 5 al lobo occipitale, 3 al lobo limbico ed i rimanenti al lobo dell’insula. Si può affermare che i danni cerebrali successivi ad un incidente automobilistico si distribuiscono diversamente rispetto alla popolazione dei pazienti dell’istituto (α=0,05)?
1° Passo: Formulazione delle Ipotesi HO: la frequenza con cui si distribuiscono i danni cerebrali nel campione è la stessa di quella della popolazione H1: la frequenza dei danni cerebrali nel campione è diversa da quella della popolazione
2° Passo: Individuazione della statistica Poiché la variabile è nominale usiamo il test del Chi-quadrato
NEL CAMPIONE DI PAZIENTI NELLA CLINICA Lobo frontale Lobo parietale Lobo temporale Lobo occipitale Lobo limbico Lobo dell’insula 28% 22% 13% 16% 14% 7% NEL CAMPIONE DI PAZIENTI NELLA CLINICA Lobo frontale Lobo parietale Lobo temporale Lobo occipitale Lobo limbico Lobo dell’insula 15 14 7 5 3 2
3° Passo: calcolo della statistica Se non esiste differenza con la popolazione generale dovremmo attenderci i pazienti della clinica ottengano la stessa percentuale di quella riscontrata nella popolazione Lobo frontale Lobo parietale Lobo temporale Lobo occipitale Lobo limbico Lobo dell’insula 28% 22% 13% 16% 14% 7% 46*0,28= 12,88 46*0,22= 10,12 46*0,13 = 5,98 46*0,16= 7,36 46*0,14= 6,44 46*0,07= 3,22
3° passo: calcolo della statistica Lobo frontale Lobo parietale Lobo temporale Lobo occipitale Lobo limbico Lobo dell’insula fe 15 14 7 5 3 2 fa 12,88 10,12 5,98 7,36 6,44 3,22
4° Passo: Individuazione del valore critico Livello di significatività =0,05 Gradi di libertà: k – 1 = 6 – 1 = 5
ACCETTIAMO L’IPOTESI NULLA 5° Passo: Decisione 5,07 ACCETTIAMO L’IPOTESI NULLA
Verifica delle ipotesi due campioni di osservazioni Il ricercatore vuole stabilire se due campioni con particolari caratteristiche differiscono per la caratteristica che è oggetto di studio
In questi casi abbiamo sempre a che fare con due variabili: La variabile che differenzia i campioni di osservazioni (sesso, età,…) La variabile che viene misurata sui campioni Ci interessa sapere se la variabilità della variabile misurata nei campioni possa essere spiegata dall’appartenenza all’uno o all’altro gruppo di osservazioni.
Quando confrontiamo due campioni di osservazioni presumiamo che le nostre unità di analisi siano OMOGENEE (=identiche) per tutte le caratteristiche rilevanti e che differiscono solo per la presenza della VI di interesse che andiamo a manipolare Il ricercatore ipotizza che la nostra variabile in esame vari soltanto a causa dell’appartenenza ad una certa condizione che rappresenta uno dei livelli della nostra variabile indipendente.
ASSUNTO DI BASE I confronti fra due campioni di osservazioni fanno riferimento a due popolazioni che differiscono rispetto alla VD (tipo di psicoterapia; sesso, …) Lo scopo non è determinare se un certo trattamento è più efficace in un gruppo o nell’altro (nei campioni esaminati nella ricerca) ma sapere se il risultato ottenuto può essere esteso alle popolazioni che verranno trattate con il medesimo metodo esaminato
Ipotesi sulla differenza tra due distribuzioni Test del Chi quadrato Ad esempio se volessimo verificare se le donne che lavorano hanno un atteggiamento più favorevole al divorzio rispetto alle casalinghe, dobbiamo andare a creare una tabella di contingenza. La nostra ipotesi nulla è che non c’è differenza nelle frequenze tra i due campioni di casalinghe e lavoratrici Numerosità dei due campioni Favorevoli al divorzio Campioni Si No Lavoratrici f1 f2 n1 Casalinghe f3 f4 n2 a1 a2 N Frequenze di ogni campione nelle singole categorie Numero di soggetti che non sono favorevoli indipendentemente dall’appartenenza all’uno o all’altro campione
Quando si confrontano le frequenze di risposte in due campioni indipendenti è necessario costruire una tabella doppia entrata chiamata TABELLA DI CONTINGENZA EFFETTO A EFFETTO B TOTALE V1 f a b n1 V2 c d n2 n3 n4 N Frequenze attese Frequenze osservate
Calcolo delle frequenze teoriche Si deve tener conto di: quanti soggetti sono favorevoli/contrari (a1 o a2) quanti soggetti è composto il “sotto-campione” (n1 o n2) quanti soggetti è composto il campione totale (N) Favorevoli al divorzio Campioni Si No Lavoratrici f1 A f2 B n1 Casalinghe f3 C f4 D n2 a1 a2 N
Ad un campione di 80 donne lavoratrici e ad un altro di 100 casalinghe è stato chiesto di esprimere il proprio parere rispetto al tema del divorzio. Tra le lavoratrici 50 si sono dichiarate favorevoli, mentre 30 contrarie. Nel campione delle casalinghe 20 si sono dimostrate favorevoli mentre 80 contrarie. Verificare se le donne che lavorano hanno un atteggiamento più favorevole al divorzio rispetto alle casalinghe.
1° passo: Formulazione delle Ipotesi
2° passo: individuazione della statistica La distribuzione campionaria che useremo è quella del χ2 con (k-1)(r-1) gradi di libertà Numero di righe meno 1 Numero di colonne meno 1
Creiamo la tabella di contingenza 3° passo: calcolo della statistica Creiamo la tabella di contingenza Favorevoli al divorzio Campioni Si No Lavoratrici f1 =50 f2 = 30 n1 =80 Casalinghe f3 = 20 f4 = 80 n2 = 100 a1 =70 a2 =110 N = 180 Calcoliamo le frequente teoriche Favorevoli al divorzio Campioni Si No Lavoratrici f1 =50 f1t = 31,11 f2 = 30 f2t = 48,89 n1 =80 Casalinghe f3 = 20 f3t = 38,89 f4 = 80 f4t = 61,11 n2 = 100 a1 =70 a2 =110 N = 180
3° passo: calcolo della statistica
4° passo: calcolo del valore critico α= ,05 Gdl = (2-1)(2-1) = 1 χ2= 3,84 5° passo: regola decisionale χ2 calcolato= 33,78 χ2 critico= 3,84 χ2 calcolato > χ2 critico RIFIUTIAMO L’IPOTESI NULLA
Formula abbreviata per il calcolo del χ2 Livelli VI Campioni L1 L2 1 A B n1 2 C D n2 a1 a2 N
Esempio Supponiamo di voler verificare l’ipotesi che giovani ed adulti giudichino in modo diverso 5 tipi di comportamento per quanto riguarda il carattere deviante. Abbiamo il giudizio di 100 adulti e 100 giovani per ognuno dei 5 comportamenti per un totale di 1000 giudizi (500 per gli adulti e 500 per i giovani). La distribuzione delle frequenze è così ripartita: COMPORTAMENTI A B C D E Adulti SI 50 90 70 10 30 250 Giovani 40 180 NO 60 320
Calcoliamo le frequenze teoriche/attese Se vogliamo studiare la distribuzione delle risposte SI ci focalizziamo solo sulla prima parte della tabella COMPORTAMENTI A B C D E Adulti SI 50 90 70 10 30 250 Giovani 40 180 100 140 80 60 430 Calcoliamo le frequenze teoriche/attese COMPORTAMENTI A B C D E Adulti SI 50 ft= 58 90 ft= 81 70 ft=47 10 ft= 29 30 ft= 35 250 Giovani ft= 42 ft= 59 ft= 33 40 ft= 21 ft= 25 180 100 140 80 60 430
Calcoliamo la statistica Calcoliamo il valore critico α =.01 Gdl = (k-1)(r-1) = (5-1)(2-1)= 4
RIFIUTIAMO L’IPOTESI NULLA Regola decisionale > RIFIUTIAMO L’IPOTESI NULLA Giovani e Adulti si regolano in modo diverso nell’attribuire devianza ai 5 comportamenti considerati
Attribuzione di devianza Supponiamo di voler invece verificare se i giovani attribuiscono devianza meno frequentemente degli adulti complessivamente per i 5 comportamenti. Confrontiamo le risposte SI globali COMPORTAMENTI A B C D E Adulti SI 50 90 70 10 30 250 Giovani 40 180 NO 60 320 Attribuzione di devianza Totale SI NO Adulti 250 500 Giovani 180 320 430 570
Calcoliamo le frequenze teoriche/attese Attribuzione di devianza Totale SI NO Adulti 250 ft= 215 ft= 285 500 Giovani 180 320 430 570 Calcoliamo la statistica
RIFIUTIAMO L’IPOTESI NULLA Calcoliamo il valore critico α =.01 Gdl = (k-1)(r-1) = (2-1)(2-1)= 1 Regola decisionale > RIFIUTIAMO L’IPOTESI NULLA
Ipotesi sulla differenza tra percentuali/proporzioni Variabili dicotomiche su scala nominale Condizioni di applicabilità: Avere a che fare con proporzioni/probabilità; n1P1(1- P1) > 5 e n2P2(1-P2) > 5 Percentuale di soggetti con la caratteristica in esame nei due gruppi Numerosità dei campioni Proporzione di individui con la caratteristica in esame indipendentemente dal gruppo di appartenenza
Supponiamo di aver intervistato 88 persone per sapere se si ritengono timidi oppure no. In seguito a tale intervista abbiamo ottenuto due campioni: 36 soggetti si definiscono timidi 52 soggetti si definiscono non timidi. In seguito a tutti i soggetti è stato chiesto se avevano paura dei serpenti. Le risposte ottenute sono state le seguenti: - nel campione dei timidi 30 hanno risposto di SI (83%) - nel campione dei non timidi 28 hanno risposto di SI (54%). vogliamo verificare se le persone timide hanno più paura dei serpenti.
verificare se le persone timide hanno più paura dei serpenti. OBIETTIVO verificare se le persone timide hanno più paura dei serpenti. VARIABILI Variabile Indipendente: TIMIDEZZA Variabile Dipendente: PAURA DEI SERPENTI n1P1(1- P1) > 5 e n2P2(1-P2) > 5 - 36*.83(1-.83)=5.08 5.08 > 5 52*.54(1-.54)= 12,92 12,92 > 5
1°: formulazione delle Ipotesi HO: nei due campioni la percentuale di chi ha paura dei serpenti è uguale => P1 = P2 H1: le persone classificate come timide hanno più paura dei serpenti => la percentuale di chi ha paura è maggiore nel campione dei timidi => P1 > P2 2°: Individuazione della statistica
3°: calcolo della statistica 4°: calcolo del valore critico α = .05 Ipotesi alternativa monodirezionale
RIFIUTIAMO L’IPOTESI NULLA 5°: regola decisionale > RIFIUTIAMO L’IPOTESI NULLA Le persone classificate come timide hanno più paura dei serpenti => la percentuale di chi ha paura è maggiore nel campione dei timidi
Ipotesi sulla differenza tra varianze Il confronto viene effettuato tramite il rapporto fra le varianze stimate delle popolazioni da cui i campioni sono estratti Segue la distribuzione teorica di probabilità F di Fisher - Snedecor Quando si hanno dei campioni piccoli (n<30) è importante eseguire prima il test di verifica dell’omogeneità della varianza prima di applicare la formula della t di student Essendo un rapporto tra varianze i valori sono sempre positivi I valori variano da 0 a +∞ È asimmetrica e asintotica I gradi di libertà dipendono dalla numerosità dei campioni
Ipotesi sulla differenza tra varianze Poiché abbiamo le varianze dei campioni dobbiamo stimare quella della popolazione secondo la formula: Questo calcolo lo effettuiamo per entrambi i nostri campioni in modo da poter calcolare il valore della F Gdl= v1(n1-1); v2(n2-1)
Gdl derivanti dalla varianza al numeratore Gdl derivanti dalla varianza al denominatore
Test statistici per due campioni dipendenti
Due o più campioni si dicono DIPENDENTI quando i punteggi presenti in un campione casuale di osservazioni sono in relazione con i punteggi presenti nell’altro campione casuale di osservazioni (Glenberg e Andrzejewski, 2007). Un esempio è costituito dagli stessi soggetti che vengono sottoposti a livelli diversi di trattamento (DISEGNI DI RICERCA A MISURE RIPETUTE)
Caratteristica principale Il confronto tra le medie delle due serie di osservazioni avviene su una nuova serie di dati che è rappresentata dalle DIFFERENZE TRA GLI ELEMENTI DI CIASCUNA COPPIA. t di Student per campioni appaiati con gdl(n-1) Sono la media e la devStandard delle differenze osservate nel campione
t di Student per campioni appaiati con gdl(n-1) Varianza della popolazione ignota Numerosità del campione < 30 t di Student per campioni appaiati con gdl(n-1) Numerosità del campione > 30 Punti z
È fondamentale comprendere che: Per due campioni dipendenti i calcoli vengono effettuati sulla sola colonna delle DIFFERENZE Nel caso di due campioni indipendenti i calcoli vengono effettuati sulle due serie di osservazioni
SCALA A INTERVALLI Supponiamo di voler verificare se un protocollo di stimolazione cognitiva produca un miglioramento nella funzione della memoria in un gruppo di soggetti anziani. A tal fine ad un gruppo di soggetti anziani viene somministrato un test di memoria prima e dopo l’applicazione del protocollo di stimolazione cognitiva. VARIABILE INDIPENDENTE: misurazione prima e dopo il protocollo VARIABILE DIPENDENTE: punteggio al test di memoria
Formulazione delle Ipotesi Nella popolazione generale di pazienti la media delle differenze D (prima e dopo) nei punteggi è uguale a 0 => il trattamento applicato non è efficace Nella popolazione generale di pazienti la media delle differenze D (prima e dopo) nei punteggi è maggiore di 0 => il trattamento applicato è efficace
Passi per calcolare la t di Student per campioni dipendenti Calcolare le differenze tra i punteggi dei soggetti sottraendo i punteggi della condizione 2 a quelli della condizione 1 Sommare le differenze e calcolare la media Elevare al quadrato le differenze Sommare le differenze al quadrato Sostituire ad n il numero totale dei soggetti Calcolare i gradi di libertà
Prima Dopo Differenza dopo - prima 30 43 13 52 56 4 51 79 28 64 12 33 19 50 42 -8 76 77 1 57 65 8 7 59 49 -10
Passi per calcolare la t di Student per campioni dipendenti Calcolare le differenze tra i punteggi dei soggetti sottraendo i punteggi della condizione 2 a quelli della condizione 1 Sommare le differenze e calcolare la media Elevare al quadrato le differenze Sommare le differenze al quadrato Sostituire ad n il numero totale dei soggetti Calcolare i gradi di libertà
Differenza dopo – prima (D) 30 43 13 132 52 56 4 42 51 79 28 282 64 12 122 33 19 192 50 -8 -82 76 77 1 57 65 8 82 7 72 59 49 -10 -102
Calcoliamo la t di Student
Calcolo del valore critico α=0,05 Gdl = n-1 = 10-1= 9 Ipotesi alternativa monodirezionale destra tcritico =1,833
RIFIUTO L’IPOTESI NULLA e accetto quella alternativa. Regola decisionale tcalcolato =2,022 > tcritico =1,833 RIFIUTO L’IPOTESI NULLA e accetto quella alternativa. Il trattamento a cui sono stati sottoposti i soggetti del campione rappresentativo della popolazione generale di pazienti è efficace.
t di Student per campioni correlati INDIPENDENTI DIPENDENTI Scala a intervalli Scala a intervalli Scala nominale Scala ordinale Media n<30 Distribuzione di frequenze Distribuzione di frequenze e percentuali Media n>30 n<30 t di Student per campioni correlati χ2 t di Student χ2 Test z