Verifica delle ipotesi sulla FORMA DELLA DISTRIBUZIONE

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Passo 1: trasformare tutte le percentuali in frequenze (senza sapere la numerosità sulla quale sono state calcolate, non si può fare il confronto tra %)
Il chi quadro indica la misura in cui le
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Analisi dei dati per i disegni ad un fattore
ANALISI DELLA COVARIANZA
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Varianza campionaria Errore standard della varianza campionaria
Campionamento casuale semplice
DIFFERENZA TRA LE MEDIE
Analisi della varianza (a una via)
Le analisi per singolo item
1 Perugia, 16 giugno 2005 ~ X Consumo nei due mesi ~ Spesa in euro: Avvertenza: i testi qui proposti sono, talvolta, modificati rispetto alla formulazione.
Canale A. Prof.Ciapetti AA2003/04
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
Esercizi x1=m-ts x2=m+ts
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Cos’è un problema?.
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 7 i Test statistici
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Da studi svolti negli anni ‘50 è emerso che il numero ideale di figli per famiglia è di 3. Nel 1980, ipotizzando una modifica nei costumi e nei modelli.
In un’indagine sul gradimento dei programmi televisivi si vuole verificare se i programmi sportivi sono ugualmente graditi da maschi e femmine. La distribuzione.
Analisi della varianza
Verifica delle ipotesi su due campioni di osservazioni
Esercitazioni sul calcolo dei valori critici
L’Analisi della Varianza (o ANOVA)
Le distribuzioni campionarie
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Un trucchetto di Moltiplicazione per il calcolo mentale
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Corso di biomatematica lezione 7-3: Test di significatività
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Il test del Chi-quadrato
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Corso di Laurea in Scienze e tecniche psicologiche
La statistica F Permette di confrontare due varianze, per stabilire se sono o no uguali. Simile al valore t di Student o al chi quadrato, l’F di Fisher.
Test basati su due campioni Test Chi - quadro
“Teoria e metodi della ricerca sociale e organizzativa”
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
Dalmine, 26 Maggio 2004 Esercitazioni di Statistica con Matlab Dott. Orietta Nicolis fttp:\ingegneria.unibg.it.
ANALISI E INTERPRETAZIONE DATI
ANALISI DELLA VARIANZA (ANOVA)
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

Verifica delle ipotesi sulla forma della distribuzione: caso di un campione

Verifica delle ipotesi sulla FORMA DELLA DISTRIBUZIONE VARIABILE NOMINALE POLITOMICA Si effettua quando il ricercatore è interessato a verificare ipotesi sulla forma della distribuzione della popolazione basandosi sulla forma della distribuzione nel campione. Ci si basa sul confronto fra FREQUENZE OSSERVATE NEL CAMPIONE e FREQUENZE ATTESE sulla base dell’Ipotesi Nulla. Essendo elevata al quadrato è definita solo sull’asse positivo che va da 0 a + infinito. I gdl li possiamo definire come gli elementi che in una distribuzione sono liberi di variare. Gdl= k-1

Condizioni di applicabilità Le osservazioni devono essere indipendenti Nessuna frequenza osservata è uguale a 0 Se la variabile è dicotomica nessuna frequenza teorica deve essere minore di 5 Se la variabile è politomica nessuna frequenza teorica deve essere inferiore a 1 Dire che le osservazioni sono indipendenti significa che il dato relativo a un soggetto è contato solo una volta.

Passi nell’applicazione del chi quadrato Stabilire l’ipotesi nulla e quella alternativa Specificare il livello di significatività α, l’ampiezza del campione ed i gradi di libertà Stabilire la zona di rifiuto Calcolare il valore statistico critico Calcolare il valore del test statistico Si riportano le frequenze osservate nelle celle della tabella di contingenza Si calcolano le frequenze attese Sulla base delle regole decisionali trarre le conclusioni

Calcolo delle frequenze teoriche Si deve tener conto: Di quanti soggetti è costituito il campione Della percentuale di soggetti che nella popolazione presenta la caratteristica in esame Negli anni passati presso l’Università di Chieti si sono avute le seguenti iscrizioni nei diversi indirizzi del corso di laurea in Psicologia: Psicologia clinica 40% Psicologia del lavoro 25% Psicologia dello sviluppo 20% Psicologia sperimentale 15%. Di 200 studenti di quest’anno, 60 hanno scelto l’indirizzo clinico, 45 quello di lavoro, 47 quello di sviluppo e 66 quello di sperimentale. La distribuzione delle scelte di questo anno è coerente con quelle effettuate nell’anno passato?

Calcolo delle frequenze teoriche Si deve tener conto: Di quanti soggetti è costituito il campione Della percentuale di soggetti che nella popolazione presenta la caratteristica in esame n=200 Negli anni passati presso l’Università di Chieti si sono avute le seguenti iscrizioni nei diversi indirizzi del corso di laurea in Psicologia: Psicologia clinica 40% Psicologia del lavoro 25% Psicologia dello sviluppo 20% Psicologia sperimentale 15%. Di 200 studenti di quest’anno, 60 hanno scelto l’indirizzo clinico, 45 quello di lavoro, 47 quello di sviluppo e 66 quello di sperimentale. La distribuzione delle scelte di questo anno è coerente con quelle effettuate nell’anno passato?

Esempio In un istituto per la riabilitazione dei pazienti con danni cerebrali, il 28% dei pazienti presenta un danno al lobo frontale, il 22% al lobo parietale, il 13% al lobo temporale; il 16% al lobo occipitale, il 14% al lobo limbico ed il resto al lobo dell’insula. In un campione di 46 pazienti che hanno riportato un danno cerebrale in seguito ad un incidente automobilistico, 15 pazienti hanno subito un danno al lobo frontale, 14 al lobo parietale, 7 al lobo temporale, 5 al lobo occipitale, 3 al lobo limbico ed i rimanenti al lobo dell’insula. Si può affermare che i danni cerebrali successivi ad un incidente automobilistico si distribuiscono diversamente rispetto alla popolazione dei pazienti dell’istituto (α=0,05)?

1° Passo: Formulazione delle Ipotesi HO: la frequenza con cui si distribuiscono i danni cerebrali nel campione è la stessa di quella della popolazione H1: la frequenza dei danni cerebrali nel campione è diversa da quella della popolazione

2° Passo: Individuazione della statistica Poiché la variabile è nominale usiamo il test del Chi-quadrato

NEL CAMPIONE DI PAZIENTI NELLA CLINICA Lobo frontale Lobo parietale Lobo temporale Lobo occipitale Lobo limbico Lobo dell’insula 28% 22% 13% 16% 14% 7% NEL CAMPIONE DI PAZIENTI NELLA CLINICA Lobo frontale Lobo parietale Lobo temporale Lobo occipitale Lobo limbico Lobo dell’insula 15 14 7 5 3 2

3° Passo: calcolo della statistica Se non esiste differenza con la popolazione generale dovremmo attenderci i pazienti della clinica ottengano la stessa percentuale di quella riscontrata nella popolazione Lobo frontale Lobo parietale Lobo temporale Lobo occipitale Lobo limbico Lobo dell’insula 28% 22% 13% 16% 14% 7% 46*0,28= 12,88 46*0,22= 10,12 46*0,13 = 5,98 46*0,16= 7,36 46*0,14= 6,44 46*0,07= 3,22

3° passo: calcolo della statistica Lobo frontale Lobo parietale Lobo temporale Lobo occipitale Lobo limbico Lobo dell’insula fe 15 14 7 5 3 2 fa 12,88 10,12 5,98 7,36 6,44 3,22

4° Passo: Individuazione del valore critico Livello di significatività =0,05 Gradi di libertà: k – 1 = 6 – 1 = 5

ACCETTIAMO L’IPOTESI NULLA 5° Passo: Decisione 5,07 ACCETTIAMO L’IPOTESI NULLA

Verifica delle ipotesi due campioni di osservazioni Il ricercatore vuole stabilire se due campioni con particolari caratteristiche differiscono per la caratteristica che è oggetto di studio

In questi casi abbiamo sempre a che fare con due variabili: La variabile che differenzia i campioni di osservazioni (sesso, età,…) La variabile che viene misurata sui campioni Ci interessa sapere se la variabilità della variabile misurata nei campioni possa essere spiegata dall’appartenenza all’uno o all’altro gruppo di osservazioni.

Quando confrontiamo due campioni di osservazioni presumiamo che le nostre unità di analisi siano OMOGENEE (=identiche) per tutte le caratteristiche rilevanti e che differiscono solo per la presenza della VI di interesse che andiamo a manipolare Il ricercatore ipotizza che la nostra variabile in esame vari soltanto a causa dell’appartenenza ad una certa condizione che rappresenta uno dei livelli della nostra variabile indipendente.

ASSUNTO DI BASE I confronti fra due campioni di osservazioni fanno riferimento a due popolazioni che differiscono rispetto alla VD (tipo di psicoterapia; sesso, …) Lo scopo non è determinare se un certo trattamento è più efficace in un gruppo o nell’altro (nei campioni esaminati nella ricerca) ma sapere se il risultato ottenuto può essere esteso alle popolazioni che verranno trattate con il medesimo metodo esaminato

Ipotesi sulla differenza tra due distribuzioni Test del Chi quadrato Ad esempio se volessimo verificare se le donne che lavorano hanno un atteggiamento più favorevole al divorzio rispetto alle casalinghe, dobbiamo andare a creare una tabella di contingenza. La nostra ipotesi nulla è che non c’è differenza nelle frequenze tra i due campioni di casalinghe e lavoratrici Numerosità dei due campioni Favorevoli al divorzio Campioni Si No Lavoratrici f1 f2 n1 Casalinghe f3 f4 n2 a1 a2 N Frequenze di ogni campione nelle singole categorie Numero di soggetti che non sono favorevoli indipendentemente dall’appartenenza all’uno o all’altro campione

Quando si confrontano le frequenze di risposte in due campioni indipendenti è necessario costruire una tabella doppia entrata chiamata TABELLA DI CONTINGENZA EFFETTO A EFFETTO B TOTALE V1 f a b n1 V2 c d n2 n3 n4 N Frequenze attese Frequenze osservate

Calcolo delle frequenze teoriche Si deve tener conto di: quanti soggetti sono favorevoli/contrari (a1 o a2) quanti soggetti è composto il “sotto-campione” (n1 o n2) quanti soggetti è composto il campione totale (N) Favorevoli al divorzio Campioni Si No Lavoratrici f1 A f2 B n1 Casalinghe f3 C f4 D n2 a1 a2 N

Ad un campione di 80 donne lavoratrici e ad un altro di 100 casalinghe è stato chiesto di esprimere il proprio parere rispetto al tema del divorzio. Tra le lavoratrici 50 si sono dichiarate favorevoli, mentre 30 contrarie. Nel campione delle casalinghe 20 si sono dimostrate favorevoli mentre 80 contrarie. Verificare se le donne che lavorano hanno un atteggiamento più favorevole al divorzio rispetto alle casalinghe.

1° passo: Formulazione delle Ipotesi

2° passo: individuazione della statistica La distribuzione campionaria che useremo è quella del χ2 con (k-1)(r-1) gradi di libertà Numero di righe meno 1 Numero di colonne meno 1

Creiamo la tabella di contingenza 3° passo: calcolo della statistica Creiamo la tabella di contingenza Favorevoli al divorzio Campioni Si No Lavoratrici f1 =50 f2 = 30 n1 =80 Casalinghe f3 = 20 f4 = 80 n2 = 100 a1 =70 a2 =110 N = 180 Calcoliamo le frequente teoriche Favorevoli al divorzio Campioni Si No Lavoratrici f1 =50 f1t = 31,11 f2 = 30 f2t = 48,89 n1 =80 Casalinghe f3 = 20 f3t = 38,89 f4 = 80 f4t = 61,11 n2 = 100 a1 =70 a2 =110 N = 180

3° passo: calcolo della statistica

4° passo: calcolo del valore critico α= ,05 Gdl = (2-1)(2-1) = 1 χ2= 3,84 5° passo: regola decisionale χ2 calcolato= 33,78 χ2 critico= 3,84 χ2 calcolato > χ2 critico RIFIUTIAMO L’IPOTESI NULLA

Formula abbreviata per il calcolo del χ2 Livelli VI Campioni L1 L2 1 A B n1 2 C D n2 a1 a2 N

Esempio Supponiamo di voler verificare l’ipotesi che giovani ed adulti giudichino in modo diverso 5 tipi di comportamento per quanto riguarda il carattere deviante. Abbiamo il giudizio di 100 adulti e 100 giovani per ognuno dei 5 comportamenti per un totale di 1000 giudizi (500 per gli adulti e 500 per i giovani). La distribuzione delle frequenze è così ripartita: COMPORTAMENTI A B C D E Adulti SI 50 90 70 10 30 250 Giovani 40 180 NO 60 320

Calcoliamo le frequenze teoriche/attese Se vogliamo studiare la distribuzione delle risposte SI ci focalizziamo solo sulla prima parte della tabella COMPORTAMENTI A B C D E Adulti SI 50 90 70 10 30 250 Giovani 40 180 100 140 80 60 430 Calcoliamo le frequenze teoriche/attese COMPORTAMENTI A B C D E Adulti SI 50 ft= 58 90 ft= 81 70 ft=47 10 ft= 29 30 ft= 35 250 Giovani ft= 42 ft= 59 ft= 33 40 ft= 21 ft= 25 180 100 140 80 60 430

Calcoliamo la statistica Calcoliamo il valore critico α =.01 Gdl = (k-1)(r-1) = (5-1)(2-1)= 4

RIFIUTIAMO L’IPOTESI NULLA Regola decisionale > RIFIUTIAMO L’IPOTESI NULLA Giovani e Adulti si regolano in modo diverso nell’attribuire devianza ai 5 comportamenti considerati

Attribuzione di devianza Supponiamo di voler invece verificare se i giovani attribuiscono devianza meno frequentemente degli adulti complessivamente per i 5 comportamenti. Confrontiamo le risposte SI globali COMPORTAMENTI A B C D E Adulti SI 50 90 70 10 30 250 Giovani 40 180 NO 60 320 Attribuzione di devianza Totale SI NO Adulti 250 500 Giovani 180 320 430 570

Calcoliamo le frequenze teoriche/attese Attribuzione di devianza Totale SI NO Adulti 250 ft= 215 ft= 285 500 Giovani 180 320 430 570 Calcoliamo la statistica

RIFIUTIAMO L’IPOTESI NULLA Calcoliamo il valore critico α =.01 Gdl = (k-1)(r-1) = (2-1)(2-1)= 1 Regola decisionale > RIFIUTIAMO L’IPOTESI NULLA

Ipotesi sulla differenza tra percentuali/proporzioni Variabili dicotomiche su scala nominale Condizioni di applicabilità: Avere a che fare con proporzioni/probabilità; n1P1(1- P1) > 5 e n2P2(1-P2) > 5 Percentuale di soggetti con la caratteristica in esame nei due gruppi Numerosità dei campioni Proporzione di individui con la caratteristica in esame indipendentemente dal gruppo di appartenenza

Supponiamo di aver intervistato 88 persone per sapere se si ritengono timidi oppure no. In seguito a tale intervista abbiamo ottenuto due campioni: 36 soggetti si definiscono timidi 52 soggetti si definiscono non timidi. In seguito a tutti i soggetti è stato chiesto se avevano paura dei serpenti. Le risposte ottenute sono state le seguenti: - nel campione dei timidi 30 hanno risposto di SI (83%) - nel campione dei non timidi 28 hanno risposto di SI (54%). vogliamo verificare se le persone timide hanno più paura dei serpenti.

verificare se le persone timide hanno più paura dei serpenti. OBIETTIVO verificare se le persone timide hanno più paura dei serpenti. VARIABILI Variabile Indipendente: TIMIDEZZA Variabile Dipendente: PAURA DEI SERPENTI n1P1(1- P1) > 5 e n2P2(1-P2) > 5 - 36*.83(1-.83)=5.08 5.08 > 5 52*.54(1-.54)= 12,92 12,92 > 5

1°: formulazione delle Ipotesi HO: nei due campioni la percentuale di chi ha paura dei serpenti è uguale => P1 = P2 H1: le persone classificate come timide hanno più paura dei serpenti => la percentuale di chi ha paura è maggiore nel campione dei timidi => P1 > P2 2°: Individuazione della statistica

3°: calcolo della statistica 4°: calcolo del valore critico α = .05 Ipotesi alternativa monodirezionale

RIFIUTIAMO L’IPOTESI NULLA 5°: regola decisionale > RIFIUTIAMO L’IPOTESI NULLA Le persone classificate come timide hanno più paura dei serpenti => la percentuale di chi ha paura è maggiore nel campione dei timidi

Ipotesi sulla differenza tra varianze Il confronto viene effettuato tramite il rapporto fra le varianze stimate delle popolazioni da cui i campioni sono estratti Segue la distribuzione teorica di probabilità F di Fisher - Snedecor Quando si hanno dei campioni piccoli (n<30) è importante eseguire prima il test di verifica dell’omogeneità della varianza prima di applicare la formula della t di student Essendo un rapporto tra varianze i valori sono sempre positivi I valori variano da 0 a +∞ È asimmetrica e asintotica I gradi di libertà dipendono dalla numerosità dei campioni

Ipotesi sulla differenza tra varianze Poiché abbiamo le varianze dei campioni dobbiamo stimare quella della popolazione secondo la formula: Questo calcolo lo effettuiamo per entrambi i nostri campioni in modo da poter calcolare il valore della F Gdl= v1(n1-1); v2(n2-1)

Gdl derivanti dalla varianza al numeratore Gdl derivanti dalla varianza al denominatore

Test statistici per due campioni dipendenti

Due o più campioni si dicono DIPENDENTI quando i punteggi presenti in un campione casuale di osservazioni sono in relazione con i punteggi presenti nell’altro campione casuale di osservazioni (Glenberg e Andrzejewski, 2007). Un esempio è costituito dagli stessi soggetti che vengono sottoposti a livelli diversi di trattamento (DISEGNI DI RICERCA A MISURE RIPETUTE)

Caratteristica principale Il confronto tra le medie delle due serie di osservazioni avviene su una nuova serie di dati che è rappresentata dalle DIFFERENZE TRA GLI ELEMENTI DI CIASCUNA COPPIA. t di Student per campioni appaiati con gdl(n-1) Sono la media e la devStandard delle differenze osservate nel campione

t di Student per campioni appaiati con gdl(n-1) Varianza della popolazione ignota Numerosità del campione < 30 t di Student per campioni appaiati con gdl(n-1) Numerosità del campione > 30 Punti z

È fondamentale comprendere che: Per due campioni dipendenti i calcoli vengono effettuati sulla sola colonna delle DIFFERENZE Nel caso di due campioni indipendenti i calcoli vengono effettuati sulle due serie di osservazioni

SCALA A INTERVALLI Supponiamo di voler verificare se un protocollo di stimolazione cognitiva produca un miglioramento nella funzione della memoria in un gruppo di soggetti anziani. A tal fine ad un gruppo di soggetti anziani viene somministrato un test di memoria prima e dopo l’applicazione del protocollo di stimolazione cognitiva. VARIABILE INDIPENDENTE: misurazione prima e dopo il protocollo VARIABILE DIPENDENTE: punteggio al test di memoria

Formulazione delle Ipotesi Nella popolazione generale di pazienti la media delle differenze D (prima e dopo) nei punteggi è uguale a 0 => il trattamento applicato non è efficace Nella popolazione generale di pazienti la media delle differenze D (prima e dopo) nei punteggi è maggiore di 0 => il trattamento applicato è efficace

Passi per calcolare la t di Student per campioni dipendenti Calcolare le differenze tra i punteggi dei soggetti sottraendo i punteggi della condizione 2 a quelli della condizione 1 Sommare le differenze e calcolare la media Elevare al quadrato le differenze Sommare le differenze al quadrato Sostituire ad n il numero totale dei soggetti Calcolare i gradi di libertà

Prima Dopo Differenza dopo - prima 30 43 13 52 56 4 51 79 28 64 12 33 19 50 42 -8 76 77 1 57 65 8 7 59 49 -10

Passi per calcolare la t di Student per campioni dipendenti Calcolare le differenze tra i punteggi dei soggetti sottraendo i punteggi della condizione 2 a quelli della condizione 1 Sommare le differenze e calcolare la media Elevare al quadrato le differenze Sommare le differenze al quadrato Sostituire ad n il numero totale dei soggetti Calcolare i gradi di libertà

Differenza dopo – prima (D) 30 43 13 132 52 56 4 42 51 79 28 282 64 12 122 33 19 192 50 -8 -82 76 77 1 57 65 8 82 7 72 59 49 -10 -102

Calcoliamo la t di Student

Calcolo del valore critico α=0,05 Gdl = n-1 = 10-1= 9 Ipotesi alternativa monodirezionale destra tcritico =1,833

RIFIUTO L’IPOTESI NULLA e accetto quella alternativa. Regola decisionale tcalcolato =2,022 > tcritico =1,833 RIFIUTO L’IPOTESI NULLA e accetto quella alternativa. Il trattamento a cui sono stati sottoposti i soggetti del campione rappresentativo della popolazione generale di pazienti è efficace.

t di Student per campioni correlati INDIPENDENTI DIPENDENTI Scala a intervalli Scala a intervalli Scala nominale Scala ordinale Media n<30 Distribuzione di frequenze Distribuzione di frequenze e percentuali Media n>30 n<30 t di Student per campioni correlati χ2 t di Student χ2 Test z