Le distribuzioni campionarie E-mail: r.romanelli@unich.it Ricevimento: Lunedì 11:00 – 12:00 Materiale didattico su: http://www.psicometria.unich.it
Le distribuzioni di probabilità teoriche permettono di associare ad un singolo evento/caso la sua probabilità di verificarsi vs Per determinare con quale probabilità è possibile estrarre casualmente da una popolazione un campione con media superiore o inferiore ad un certo punteggio usiamo le DISTRIBUZIONI CAMPIONARIE Se vogliamo quindi sapere qual è la probabilità di estrarre da una popolazione un campione di numerosità n con una certa media dobbiamo calcolare la distribuzione di probabilità della media di quei campioni estraibili da quella popolazione => calcoliamo la DISTRIBUZIONE CAMPIONARIA DELLA MEDIA.
DISTRIBUZIONE CAMPIONARIA NELLA POPOLAZIONE PARLIAMO INVECE DI PARAMETRO È una distribuzione di probabilità relativa ad una statistica specifica che viene calcolata su tutti i possibili campioni di ampiezza n estraibili dalla popolazione di interesse. Per costruire una distribuzione campionaria è necessario: Individuare tutti i possibili campioni di ampiezza n estraibili dalla popolazione Calcolare per ogni campione la statistica di cui ci interessa determinare la distribuzione Determinare la frequenza per ogni valore osservabile della statistica
DISTRIBUZIONE CAMPIONARIA NELLA POPOLAZIONE PARLIAMO INVECE DI PARAMETRO È una distribuzione di probabilità relativa ad una statistica specifica che viene calcolata su tutti i possibili campioni di ampiezza n estraibili dalla popolazione di interesse. Per costruire una distribuzione campionaria è necessario: Individuare tutti i possibili campioni di ampiezza n estraibili dalla popolazione Calcolare per ogni campione la statistica di cui ci interessa determinare la distribuzione Determinare la frequenza per ogni valore osservabile della statistica IL PUNTO 3 è ciò che differenzia le distr di probabilità da quelle campionarie: nel primo caso si determina la frequenza di un valore riguardante i singoli casi mentre nel secondo la frequenza di una statistica relativa a campioni
Nel caso di probabilità… Variabile: superamento di un esame Distribuzione teorica: distribuzione binomiale del numero di successi/persone che hanno superato l’esame Distribuzione campionaria: distribuzione del numero medio di successi/di persone che hanno superato l’esame in ogni campione estratto
Media del numero di successi nella popolazione Probabilità di successo nella popolazione Ampiezza della popolazione PER OTTENERE LA DISTRIBUZIONE CAMPIONARIA DIVIDIAMO LA MEDIA E LA DEVIAZIONE STANDARD DELLA POPOLAZIONE PER N Deviazione standard nella popolazione
FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà La media delle medie dei campioni coincide con la media della popolazione dalla quale i campioni sono stati estratti Media delle medie dei campioni Media della popolazione Man mano che l’ampiezza dei campioni aumenta, la media di ciascuno di essi diviene una stima sempre più precisa della media della popolazione che coincidono quando n=N (cioè i campioni estratti coincidono con la popolazione) Anche se la media della distribuzione campionaria è uguale alla media della popolazione, le due distribuzioni non coincidono perché la loro forma dipende dall’ampiezza n dei campioni
FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà La VARIANZA della funzione campionaria delle medie per campioni di ampiezza n è uguale alla varianza della popolazione diviso l’ampiezza del campione Varianza della popolazione Varianza della funzione campionaria Ampiezza del campione Più l’ampiezza del campione è grande, tanto più la varianza della funzione campionaria della media diminuisce. Di conseguenza all’aumentare di n la variabilità della distribuzione diminuisce fino a tendere a 0 (LEGGE DEI GRANDI NUMERI)
FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà Quando la deviazione standard della popolazione NON E’ NOTA per calcolare l’errore standard è necessario stimarlo a partire da quello campionario
FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà Quando la deviazione standard della popolazione NON E’ NOTA per calcolare l’errore standard è necessario stimarlo a partire da quello campionario La varianza di una popolazione è La varianza di un campione è
Se il campione è numeroso…. Se n>30, anche se la variabile è su scala nominale/dicotomica, la distribuzione si approssima alla normale ed usiamo i PUNTI Z La classica procedura di standardizzazione implica Quando i campioni sono indipendenti e le varianze sono uguali Quando i campioni sono indipendenti e le varianze sono diverse
ESEMPIO Qual è la probabilità che in un campione di 600 studenti, un gruppo fra i 330 e i 370 studenti superino l’esame alla prima prova, sapendo che la proporzione nella popolazione è del 53%?
ESEMPIO Poiché vogliamo conoscere la probabilità che un campione di studenti dai 330 ai 370 superi l’esame dobbiamo calcolare due valori dei punti z.
ESEMPIO Poiché vogliamo conoscere la probabilità che un campione di studenti dai 330 ai 370 superi l’esame dobbiamo calcolare due valori dei punti z. Area compresa per z=1 è 0,3413 Area compresa per z=4,5 è 0,500
Per conoscere la probabilità è necessario fare la differenza tra i due valori ottenuti
Nel caso di variabili su scala a intervalli In questo caso usiamo la media e la deviazione standard della distribuzione campionaria Attraverso le distribuzioni campionarie, partendo dai dati rilevati su un campione,è possibile determinare un intervallo di valori all’interno del quale ricade con una certa probabilità la media della popolazione INTERVALLO DI FIDUCIA O INTERVALLO DI CONFIDENZA
Intervallo di fiducia Stabilire la probabilità che il nostro intervallo contenga la media della popolazione (90%, 95%, 99%) Stabilire l’ampiezza del campione Costruire un intervallo di confidenza al 95% intorno alle statistiche di un campione SIGNIFICA individuare i due punteggi che racchiudono il 95% delle medie della distribuzione delle medie campionarie.
Si individuano i punti z che lasciano al di là di sè il 5% della distribuzione
Se non conosciamo la deviazione standard
… in sintesi
La verifica delle ipotesi E-mail: r.romanelli@unich.it Ricevimento: Lunedì 11:00 – 12:00 Materiale didattico su: http://www.psicometria.unich.it
INFERENZA STATISTICA Teoria della verifica dell’ipotesi : si verifica , in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari Teoria della stima dei parametri: si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai dati campionari
Può essere FINITA se l’ampiezza della popolazione è determinabile. … alcune definizioni POPOLAZIONE: insieme di individui/item/osservazioni o più genericamente di elementi a cui il ricercatore fa riferimento nel generalizzare ed interpretare i risultati di un’indagine o di un esperimento. Può essere FINITA se l’ampiezza della popolazione è determinabile. Es: punteggi in un test di intelligenza ottenuti da un gruppo di aspiranti ad un posto di lavoro. Può essere INFINITA se l’ampiezza della popolazione non è determinabile.
… alcune definizioni PARAMETRO della popolazione: è una caratteristica della popolazione espressa con un simbolo o con un numero. Un esempio è rappresentato dalla media e/o dalla varianza. CAMPIONE: un sottoinsieme di n elementi della popolazione/universo di interesse. Definisce l’ampiezza, cioè il numero di elementi di cui è costituito STATISTICA: è un’espressione formale o un valore che descrive una caratteristica di un campione di ampiezza n.
PRESUPPOSTI DELLA VERIFICA DELLE IPOTESI Formulazione Ipotesi Statistiche Individuazione del Campione Raccolta dati sul Campione verifica delle Ipotesi e Decisione (in base alla Teoria della Probabilità) sempre soggetta ad errore si assume a priori il rischio di errore che accettiamo di assumere nel prenderla
Campionamento È una fase molto delicata in quanto il campione DEVE avere la caratteristica della rappresentatività rispetto alla popolazione Un campione rappresentativo è un campione che presenta tutte le più importanti caratteristiche della popolazione da cui proviene
Differenti tipi di campionamento Campionamento arbitrario uso di metodi arbitrari per il reclutamento delle persone Campionamento finalizzato ad uno scopo campione scelto per qualche ragione particolare (es: opinioni dei rettori di differenti università sui cambiamenti desiderabili) notevole influenza della soggettività del ricercatore Campionamento di convenienza si seleziona un gruppo desiderabile in quanto non è possibile effettuare il campionamento dell’intera popolazione (es: ricerche condotte su studenti universitari)
Campionamento probabilistico e selezione casuale ogni membro della popolazione ha la stessa probabilità di essere scelto. La selezione di ogni membro è indipendente da quello di ogni altro membro. E’ necessario stabilire la popolazione di riferimento in base a quali sono gli scopi della nostra ricerca (Quadro di riferimento del campione). Ogni soggetto che cade nel quadro di riferimento entrerà a far parte del campione Campionamento sistematico è un campionamento probabilistico ma NON casuale. si stabilisce un criterio (es: selezionare il primo di un gruppo di 4 nomi) ed i soggetti vengono selezionati in base a tale criterio. Campionamento casuale semplice si usa quando si ritiene che la popolazione sia relativamente omogenea rispetto allo scopo della nostra ricerca. Come metodo si usa la tavola dei numeri random
Campionamento casuale stratificato Tratta la popolazione come due o più sottopopolazioni separate in modo da effettuare un campionamento casuale separato in ogni sottopopolazione. Viene usato quando si effettua una ricerca su una popolazione con sottogruppi identificabili che potrebbero dare delle risposte significativamente diverse. Campionamento a gruppi In ogni tipo di campionamento è comunque fondamentale stabilire il QUADRO DI RIFERIMENTO DEL CAMPIONE!!!!!!!!!!!!
2 campioni si dicono DIPENDENTI se ogni dato presente in una serie può essere abbinato ad un dato nell’altra serie. È il caso delle rilevazioni che vengono effettuate sugli stessi soggetti Prima e Dopo un certo trattamento 2 campioni si dicono INDIPENDENTI se un dato presente in una serie NON può essere abbinato ad un dato nell’altra serie. È il caso di gruppo sperimentale vs gruppo di controllo
La verifica delle ipotesi:principi generali Il ricercatore deve verificare se l’ipotesi formulata può essere considerata vera. IL VALORE OTTENUTO SUL CAMPIONE E’ SUFFICIENTEMENTE VICINO AL VALORE ATTESO IN FUNZIONE DELL’IPOTESI? Necessità di formulare delle IPOTESI STATISTICHE, cioè delle ipotesi che possono essere verificate con il metodo statistico
L’Ipotesi Nulla È l’ipotesi che si vorrebbe rifiutare Afferma che gli effetti osservati nei campioni sono dovuti a fluttuazioni casuali Deve essere rifiutata solo se l’evidenza la contraddice Non è mai provata o verificata ma è SOLO POSSIBILE NEGARLA o DISAPPROVARLA sulla base dei dati sperimentali ipotesi in cui un certo parametro della popolazione è posto essere uguale ad un certo valore
L’Ipotesi Alternativa si indica con H1 È detta anche sostantiva o sperimentale È l’ipotesi in cui si assume che il valore del parametro sia diverso dal valore indicato nella ipotesi nulla. H1 può essere: bidirezionale (≠) monodirezionale destra/sinistra (>/<)
Verificare se esiste una differenza nell’esecuzione di una prova tra soggetti maschi e soggetti femmine H0 (ipotesi nulla): non esiste una differenza tra Maschi e Femmine H1 (ipotesi alternativa): esiste una differenza tra Maschi e Femmine
Verificare se una moneta è truccata H0 (ipotesi nulla): la probabilità di Testa è uguale alla probabilità di Croce H1 (ipotesi alternativa): la probabilità di Testa è diversa dalla probabilità di Croce
IL LIVELLO DI SIGNIFICATIVITA’ Si indica con α è un valore di probabilità che funge da linea di demarcazione tra l’Ipotesi Nulla e quella Alternativa Rappresenta la REGOLA DECISIONALE Definisce una REGIONE DI ACCETTAZIONE ed una REGIONE DI RIFIUTO della Ipotesi Nulla Il valore di α dipende dal tipo di Ipotesi Alternativa H1: Se è monodirezionale destra, il valore di α verrà preso tutto nella coda di destra della distribuzione Se è monodirezionale sinistra il valore di α verrà preso tutto nella coda di sinistra della distribuzione
Ipotesi Alternativa monodirezionale destra H0 Regione di accettazione Regione di rifiuto (1- )
Ipotesi Alternativa monodirezionale sinistra H0 Regione di accettazione Regione di rifiuto (1- )
Ipotesi Alternativa Bidirezionale H0 Regione di accettazione Regione di rifiuto Regione di rifiuto (1- ) /2 /2
Stabilire il livello di Stabilire il rischio che siamo disposti a correre di commettere l’errore di respingere H0 quando è vera (Errore di I° tipo) Si tende a stabilire un valore di basso (α=.05; α=.01; α=.001) perché è preferibile non affermare l’esistenza di un fenomeno se non se ne è più che certi
Cosa significano i valori di α = .05 rischio di sbagliare rifiutando H0 quando è vera = 5 volte su 100 = .01 rischio di sbagliare rifiutando H0 quando è vera = 1 volte su 100 = .001 rischio di sbagliare rifiutando H0 quando è vera = 1 volte su 1000
Regole di decisione su base probabilistica La decisione non è mai certa La decisione è sempre soggetta ad errore
SI ACCETTA L’IPOTESI NULLA H0 SI RIFIUTA L’IPOTESI NULLA H0 Ho E’ VERA SI ACCETTA L’IPOTESI NULLA H0 SI RIFIUTA L’IPOTESI NULLA H0 DECISIONE SCORRETTA Nell’errore di primo tipo rifiuto l’ipotesi nulla quando è vera ed accetto quella alternativa. Considero vero un fenomeno falso; affermo l’esistenza di un fenomeno che in realtà non esiste. Si indica con alfa DECISIONE CORRETTA ERRORE DI I° TIPO
SI ACCETTA L’IPOTESI NULLA H0 SI RIFIUTA L’IPOTESI NULLA H0 Ho E’ FALSA SI ACCETTA L’IPOTESI NULLA H0 SI RIFIUTA L’IPOTESI NULLA H0 DECISIONE SCORRETTA Nell’errore di secondo tipo accetto l’ipotesi nulla quando è falsa e respingo quella alternativa. Si considera falso un fenomeno vero ed affermo la non esistenza di un fenomeno che in realtà esiste. Si indica con beta DECISIONE CORRETTA ERRORE DI II° TIPO
REGOLE DI DECISIONE
Rifiuto HO quando è falsa Accetto HO quando è vera Decisione corretta Decisione corretta 1-α 1-β Rifiuto HO quando è falsa Accetto HO quando è vera β α
1-α 1-β Zona di rifiuto di H1 non in comune con HO Zona di rifiuto di H0 in cui è vera anche H1 Zona di rifiuto di H1 in comune con H0
POTENZA DEL TEST STATISTICO Probabilità di prendere la decisione corretta, cioè ACCETTARE L’IPOTESI ALTERNATIVA QUANDO E’ CORRETTA 1 - β POTENZA DEL TEST STATISTICO È una misura dell’importanza dell’effetto individuato statisticamente indipendente dal numero di soggetti utilizzati.
Diminuendo alfa diminuisce il potere statistico del test Relazione tra α e β α β 1 - β .10 .37 .63 .05 .52 .48 .01 .78 .22 Man mano che riduciamo la probabilità di commettere l’errore di primo tipo aumenta quella di commettere l’errore di secondo tipo Diminuendo alfa diminuisce il potere statistico del test
Fattori che incidono sulla potenza del test Livello di α (rischio di commettere un errore di I° Tipo) scelto dal ricercatore Numerosità del campione n (per gruppo) 1 - β (potenza) 10 .18 20 .33 50 .70 100 .94 Rispetto alla numerosità del campione la probabilità di verificare la differenza fra le due medie è solo del 18% se non riusciamo a raccogliere più di 10 soggetti per gruppo. La potenza inizia ad essere sufficiente sono con 50 soggetti per gruppo. VEDI PAG.79 Gli ultimi due punti permettono di ridurre la variabilità delle stime dei parametri. Grandezza dell’effetto che si vuole evidenziare Attendibilità delle misure
Il p-value nella procedura decisionale In alternativa al considerare le due regioni di accettazione e rifiuto, è possibile prendere la decisione in base al p-value Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l’ipotesi H0 è vera. È anche chiamato livello di significatività osservato, in quanto coincide con il più piccolo livello di significatività in corrispondenza del quale H0 è rifiutata.
La regola decisionale per Rifiutare HO è: Se p ≥ Accetto H0 e Rifiuto H1 se p ≤ Rifiuto H0 e Accetto H1 p