Le distribuzioni campionarie

Slides:

Advertisements

Presentazioni simili

ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.

Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.

8) GLI INTERVALLI DI CONFIDENZA

Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.

ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica

STATISTICA DESCRITTIVA

Intervalli di confidenza

Proprietà degli stimatori

Confronto tra 2 campioni Nella pratica è utilissimo confrontare se 2 campioni provengono da popolazioni con la stessa media: Confronti tra produzioni di.

Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.

Campione e campionamento

Gli errori nell’analisi statistica

CAMPIONE E CAMPIONAMENTO

Progetto Pilota 2 Lettura e interpretazione dei risultati

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6

Inferenza statistica per un singolo campione

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)

CAMPIONAMENTO Estratto dal Cap. 5 di:

Distribuzioni di probabilità

Appunti di inferenza per farmacisti

Corso di biomatematica lezione 9: test di Student

Corso di biomatematica lezione 10: test di Student e test F

Corso di biomatematica lezione 7-2: Test di significatività

STATISTICA a.a PARAMETRO t DI STUDENT

Valutazione della stima: gli intervalli di confidenza

Lezione 8 Numerosità del campione

Num / 36 Lezione 9 Numerosità del campione.

Analisi della varianza

Il test di ipotesi Cuore della statistica inferenziale!

Verifica delle ipotesi su due campioni di osservazioni

Esercitazioni sul calcolo dei valori critici

Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.

Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,

Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,

La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.

STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA

Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.

Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.

Intervalli di Confidenza Corso di Teoria dell’Inferenza Statistica 2 a.a. 2003/2004 Quarto Periodo Prof. Filippo DOMMA Corso di Laurea in Statistica –

La verifica d’ipotesi Docente Dott. Nappo Daniela

Domande riepilogative per l’esame

Lezione B.10 Regressione e inferenza: il modello lineare

Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.

Corso di Analisi Statistica per le Imprese

Il residuo nella predizione

Martina Serafini Martina Prandi

“Teoria e metodi della ricerca sociale e organizzativa”

La statistica F Permette di confrontare due varianze, per stabilire se sono o no uguali. Simile al valore t di Student o al chi quadrato, l’F di Fisher.

Le distribuzioni campionarie

Test basati su due campioni Test Chi - quadro

Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:

“Teoria e metodi della ricerca sociale e organizzativa”

Intervalli di confidenza

La distribuzione campionaria della media

UNIVERSITA’ DEGLI STUDI DI PERUGIA

Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale

Dalmine, 26 Maggio 2004 Esercitazioni di Statistica con Matlab Dott. Orietta Nicolis fttp:\ingegneria.unibg.it.

TRATTAMENTO STATISTICO DEI DATI ANALITICI

Accademia europea dei pazienti sull'innovazione terapeutica Lo scopo e i fondamenti della statistica negli studi clinici.

Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)

Campionamento procedimento attraverso il quale si estrae, da un insieme di unità (popolazione) costituenti l’oggetto delle studio, un numero ridotto di.

INTRODUZIONE ALL’ANALISI DELLA VARIANZA

6 Inchiesta Giulio Vidotto Raffaele Cioffi. Indice: 6.1 Come si prepara un questionario 6.2 Come somministrare un questionario 6.3 Campionamento.

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Scienze tecniche e psicologiche

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.

1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.

Transcript della presentazione:

Le distribuzioni campionarie E-mail: r.romanelli@unich.it Ricevimento: Lunedì 11:00 – 12:00 Materiale didattico su: http://www.psicometria.unich.it

Le distribuzioni di probabilità teoriche permettono di associare ad un singolo evento/caso la sua probabilità di verificarsi vs Per determinare con quale probabilità è possibile estrarre casualmente da una popolazione un campione con media superiore o inferiore ad un certo punteggio usiamo le DISTRIBUZIONI CAMPIONARIE Se vogliamo quindi sapere qual è la probabilità di estrarre da una popolazione un campione di numerosità n con una certa media dobbiamo calcolare la distribuzione di probabilità della media di quei campioni estraibili da quella popolazione => calcoliamo la DISTRIBUZIONE CAMPIONARIA DELLA MEDIA.

DISTRIBUZIONE CAMPIONARIA NELLA POPOLAZIONE PARLIAMO INVECE DI PARAMETRO È una distribuzione di probabilità relativa ad una statistica specifica che viene calcolata su tutti i possibili campioni di ampiezza n estraibili dalla popolazione di interesse. Per costruire una distribuzione campionaria è necessario: Individuare tutti i possibili campioni di ampiezza n estraibili dalla popolazione Calcolare per ogni campione la statistica di cui ci interessa determinare la distribuzione Determinare la frequenza per ogni valore osservabile della statistica

DISTRIBUZIONE CAMPIONARIA NELLA POPOLAZIONE PARLIAMO INVECE DI PARAMETRO È una distribuzione di probabilità relativa ad una statistica specifica che viene calcolata su tutti i possibili campioni di ampiezza n estraibili dalla popolazione di interesse. Per costruire una distribuzione campionaria è necessario: Individuare tutti i possibili campioni di ampiezza n estraibili dalla popolazione Calcolare per ogni campione la statistica di cui ci interessa determinare la distribuzione Determinare la frequenza per ogni valore osservabile della statistica IL PUNTO 3 è ciò che differenzia le distr di probabilità da quelle campionarie: nel primo caso si determina la frequenza di un valore riguardante i singoli casi mentre nel secondo la frequenza di una statistica relativa a campioni

Nel caso di probabilità… Variabile: superamento di un esame Distribuzione teorica: distribuzione binomiale del numero di successi/persone che hanno superato l’esame Distribuzione campionaria: distribuzione del numero medio di successi/di persone che hanno superato l’esame in ogni campione estratto

Media del numero di successi nella popolazione Probabilità di successo nella popolazione Ampiezza della popolazione PER OTTENERE LA DISTRIBUZIONE CAMPIONARIA DIVIDIAMO LA MEDIA E LA DEVIAZIONE STANDARD DELLA POPOLAZIONE PER N Deviazione standard nella popolazione

FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà La media delle medie dei campioni coincide con la media della popolazione dalla quale i campioni sono stati estratti Media delle medie dei campioni Media della popolazione Man mano che l’ampiezza dei campioni aumenta, la media di ciascuno di essi diviene una stima sempre più precisa della media della popolazione che coincidono quando n=N (cioè i campioni estratti coincidono con la popolazione) Anche se la media della distribuzione campionaria è uguale alla media della popolazione, le due distribuzioni non coincidono perché la loro forma dipende dall’ampiezza n dei campioni

FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà La VARIANZA della funzione campionaria delle medie per campioni di ampiezza n è uguale alla varianza della popolazione diviso l’ampiezza del campione Varianza della popolazione Varianza della funzione campionaria Ampiezza del campione Più l’ampiezza del campione è grande, tanto più la varianza della funzione campionaria della media diminuisce. Di conseguenza all’aumentare di n la variabilità della distribuzione diminuisce fino a tendere a 0 (LEGGE DEI GRANDI NUMERI)

FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà Quando la deviazione standard della popolazione NON E’ NOTA per calcolare l’errore standard è necessario stimarlo a partire da quello campionario

FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà Quando la deviazione standard della popolazione NON E’ NOTA per calcolare l’errore standard è necessario stimarlo a partire da quello campionario La varianza di una popolazione è La varianza di un campione è

Se il campione è numeroso…. Se n>30, anche se la variabile è su scala nominale/dicotomica, la distribuzione si approssima alla normale ed usiamo i PUNTI Z La classica procedura di standardizzazione implica Quando i campioni sono indipendenti e le varianze sono uguali Quando i campioni sono indipendenti e le varianze sono diverse

ESEMPIO Qual è la probabilità che in un campione di 600 studenti, un gruppo fra i 330 e i 370 studenti superino l’esame alla prima prova, sapendo che la proporzione nella popolazione è del 53%?

ESEMPIO Poiché vogliamo conoscere la probabilità che un campione di studenti dai 330 ai 370 superi l’esame dobbiamo calcolare due valori dei punti z.

ESEMPIO Poiché vogliamo conoscere la probabilità che un campione di studenti dai 330 ai 370 superi l’esame dobbiamo calcolare due valori dei punti z. Area compresa per z=1 è 0,3413 Area compresa per z=4,5 è 0,500

Per conoscere la probabilità è necessario fare la differenza tra i due valori ottenuti

Nel caso di variabili su scala a intervalli In questo caso usiamo la media e la deviazione standard della distribuzione campionaria Attraverso le distribuzioni campionarie, partendo dai dati rilevati su un campione,è possibile determinare un intervallo di valori all’interno del quale ricade con una certa probabilità la media della popolazione INTERVALLO DI FIDUCIA O INTERVALLO DI CONFIDENZA

Intervallo di fiducia Stabilire la probabilità che il nostro intervallo contenga la media della popolazione (90%, 95%, 99%) Stabilire l’ampiezza del campione Costruire un intervallo di confidenza al 95% intorno alle statistiche di un campione SIGNIFICA individuare i due punteggi che racchiudono il 95% delle medie della distribuzione delle medie campionarie.

Si individuano i punti z che lasciano al di là di sè il 5% della distribuzione

Se non conosciamo la deviazione standard

… in sintesi

La verifica delle ipotesi E-mail: r.romanelli@unich.it Ricevimento: Lunedì 11:00 – 12:00 Materiale didattico su: http://www.psicometria.unich.it

INFERENZA STATISTICA Teoria della verifica dell’ipotesi : si verifica , in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari Teoria della stima dei parametri: si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai dati campionari

Può essere FINITA se l’ampiezza della popolazione è determinabile. … alcune definizioni POPOLAZIONE: insieme di individui/item/osservazioni o più genericamente di elementi a cui il ricercatore fa riferimento nel generalizzare ed interpretare i risultati di un’indagine o di un esperimento. Può essere FINITA se l’ampiezza della popolazione è determinabile. Es: punteggi in un test di intelligenza ottenuti da un gruppo di aspiranti ad un posto di lavoro. Può essere INFINITA se l’ampiezza della popolazione non è determinabile.

… alcune definizioni PARAMETRO della popolazione: è una caratteristica della popolazione espressa con un simbolo o con un numero. Un esempio è rappresentato dalla media e/o dalla varianza. CAMPIONE: un sottoinsieme di n elementi della popolazione/universo di interesse. Definisce l’ampiezza, cioè il numero di elementi di cui è costituito STATISTICA: è un’espressione formale o un valore che descrive una caratteristica di un campione di ampiezza n.

PRESUPPOSTI DELLA VERIFICA DELLE IPOTESI Formulazione Ipotesi Statistiche Individuazione del Campione Raccolta dati sul Campione verifica delle Ipotesi e Decisione (in base alla Teoria della Probabilità) sempre soggetta ad errore si assume a priori il rischio di errore che accettiamo di assumere nel prenderla

Campionamento È una fase molto delicata in quanto il campione DEVE avere la caratteristica della rappresentatività rispetto alla popolazione Un campione rappresentativo è un campione che presenta tutte le più importanti caratteristiche della popolazione da cui proviene

Differenti tipi di campionamento Campionamento arbitrario uso di metodi arbitrari per il reclutamento delle persone Campionamento finalizzato ad uno scopo campione scelto per qualche ragione particolare (es: opinioni dei rettori di differenti università sui cambiamenti desiderabili) notevole influenza della soggettività del ricercatore Campionamento di convenienza si seleziona un gruppo desiderabile in quanto non è possibile effettuare il campionamento dell’intera popolazione (es: ricerche condotte su studenti universitari)

Campionamento probabilistico e selezione casuale ogni membro della popolazione ha la stessa probabilità di essere scelto. La selezione di ogni membro è indipendente da quello di ogni altro membro. E’ necessario stabilire la popolazione di riferimento in base a quali sono gli scopi della nostra ricerca (Quadro di riferimento del campione). Ogni soggetto che cade nel quadro di riferimento entrerà a far parte del campione Campionamento sistematico è un campionamento probabilistico ma NON casuale. si stabilisce un criterio (es: selezionare il primo di un gruppo di 4 nomi) ed i soggetti vengono selezionati in base a tale criterio. Campionamento casuale semplice si usa quando si ritiene che la popolazione sia relativamente omogenea rispetto allo scopo della nostra ricerca. Come metodo si usa la tavola dei numeri random

Campionamento casuale stratificato Tratta la popolazione come due o più sottopopolazioni separate in modo da effettuare un campionamento casuale separato in ogni sottopopolazione. Viene usato quando si effettua una ricerca su una popolazione con sottogruppi identificabili che potrebbero dare delle risposte significativamente diverse. Campionamento a gruppi In ogni tipo di campionamento è comunque fondamentale stabilire il QUADRO DI RIFERIMENTO DEL CAMPIONE!!!!!!!!!!!!

2 campioni si dicono DIPENDENTI se ogni dato presente in una serie può essere abbinato ad un dato nell’altra serie. È il caso delle rilevazioni che vengono effettuate sugli stessi soggetti Prima e Dopo un certo trattamento 2 campioni si dicono INDIPENDENTI se un dato presente in una serie NON può essere abbinato ad un dato nell’altra serie. È il caso di gruppo sperimentale vs gruppo di controllo

La verifica delle ipotesi:principi generali Il ricercatore deve verificare se l’ipotesi formulata può essere considerata vera. IL VALORE OTTENUTO SUL CAMPIONE E’ SUFFICIENTEMENTE VICINO AL VALORE ATTESO IN FUNZIONE DELL’IPOTESI? Necessità di formulare delle IPOTESI STATISTICHE, cioè delle ipotesi che possono essere verificate con il metodo statistico

L’Ipotesi Nulla È l’ipotesi che si vorrebbe rifiutare Afferma che gli effetti osservati nei campioni sono dovuti a fluttuazioni casuali Deve essere rifiutata solo se l’evidenza la contraddice Non è mai provata o verificata ma è SOLO POSSIBILE NEGARLA o DISAPPROVARLA sulla base dei dati sperimentali ipotesi in cui un certo parametro della popolazione è posto essere uguale ad un certo valore

L’Ipotesi Alternativa si indica con H1 È detta anche sostantiva o sperimentale È l’ipotesi in cui si assume che il valore del parametro sia diverso dal valore indicato nella ipotesi nulla. H1 può essere: bidirezionale (≠) monodirezionale destra/sinistra (>/<)

Verificare se esiste una differenza nell’esecuzione di una prova tra soggetti maschi e soggetti femmine H0 (ipotesi nulla): non esiste una differenza tra Maschi e Femmine H1 (ipotesi alternativa): esiste una differenza tra Maschi e Femmine

Verificare se una moneta è truccata H0 (ipotesi nulla): la probabilità di Testa è uguale alla probabilità di Croce H1 (ipotesi alternativa): la probabilità di Testa è diversa dalla probabilità di Croce

IL LIVELLO DI SIGNIFICATIVITA’ Si indica con α è un valore di probabilità che funge da linea di demarcazione tra l’Ipotesi Nulla e quella Alternativa Rappresenta la REGOLA DECISIONALE Definisce una REGIONE DI ACCETTAZIONE ed una REGIONE DI RIFIUTO della Ipotesi Nulla Il valore di α dipende dal tipo di Ipotesi Alternativa H1: Se è monodirezionale destra, il valore di α verrà preso tutto nella coda di destra della distribuzione Se è monodirezionale sinistra il valore di α verrà preso tutto nella coda di sinistra della distribuzione

Ipotesi Alternativa monodirezionale destra H0 Regione di accettazione Regione di rifiuto (1- ) 

Ipotesi Alternativa monodirezionale sinistra H0 Regione di accettazione Regione di rifiuto (1- ) 

Ipotesi Alternativa Bidirezionale H0 Regione di accettazione Regione di rifiuto Regione di rifiuto (1- ) /2 /2

Stabilire il livello di  Stabilire il rischio che siamo disposti a correre di commettere l’errore di respingere H0 quando è vera (Errore di I° tipo) Si tende a stabilire un valore di  basso (α=.05; α=.01; α=.001) perché è preferibile non affermare l’esistenza di un fenomeno se non se ne è più che certi

Cosa significano i valori di α  = .05  rischio di sbagliare rifiutando H0 quando è vera = 5 volte su 100  = .01 rischio di sbagliare rifiutando H0 quando è vera = 1 volte su 100  = .001 rischio di sbagliare rifiutando H0 quando è vera = 1 volte su 1000

Regole di decisione su base probabilistica La decisione non è mai certa La decisione è sempre soggetta ad errore

SI ACCETTA L’IPOTESI NULLA H0 SI RIFIUTA L’IPOTESI NULLA H0 Ho E’ VERA SI ACCETTA L’IPOTESI NULLA H0 SI RIFIUTA L’IPOTESI NULLA H0 DECISIONE SCORRETTA Nell’errore di primo tipo rifiuto l’ipotesi nulla quando è vera ed accetto quella alternativa. Considero vero un fenomeno falso; affermo l’esistenza di un fenomeno che in realtà non esiste. Si indica con alfa DECISIONE CORRETTA ERRORE DI I° TIPO

SI ACCETTA L’IPOTESI NULLA H0 SI RIFIUTA L’IPOTESI NULLA H0 Ho E’ FALSA SI ACCETTA L’IPOTESI NULLA H0 SI RIFIUTA L’IPOTESI NULLA H0 DECISIONE SCORRETTA Nell’errore di secondo tipo accetto l’ipotesi nulla quando è falsa e respingo quella alternativa. Si considera falso un fenomeno vero ed affermo la non esistenza di un fenomeno che in realtà esiste. Si indica con beta DECISIONE CORRETTA ERRORE DI II° TIPO

REGOLE DI DECISIONE

Rifiuto HO quando è falsa Accetto HO quando è vera Decisione corretta Decisione corretta 1-α 1-β Rifiuto HO quando è falsa Accetto HO quando è vera β α

1-α 1-β Zona di rifiuto di H1 non in comune con HO Zona di rifiuto di H0 in cui è vera anche H1 Zona di rifiuto di H1 in comune con H0

POTENZA DEL TEST STATISTICO Probabilità di prendere la decisione corretta, cioè ACCETTARE L’IPOTESI ALTERNATIVA QUANDO E’ CORRETTA 1 - β POTENZA DEL TEST STATISTICO È una misura dell’importanza dell’effetto individuato statisticamente indipendente dal numero di soggetti utilizzati.

Diminuendo alfa diminuisce il potere statistico del test Relazione tra α e β α β 1 - β .10 .37 .63 .05 .52 .48 .01 .78 .22 Man mano che riduciamo la probabilità di commettere l’errore di primo tipo aumenta quella di commettere l’errore di secondo tipo Diminuendo alfa diminuisce il potere statistico del test

Fattori che incidono sulla potenza del test Livello di α (rischio di commettere un errore di I° Tipo) scelto dal ricercatore Numerosità del campione n (per gruppo) 1 - β (potenza) 10 .18 20 .33 50 .70 100 .94 Rispetto alla numerosità del campione la probabilità di verificare la differenza fra le due medie è solo del 18% se non riusciamo a raccogliere più di 10 soggetti per gruppo. La potenza inizia ad essere sufficiente sono con 50 soggetti per gruppo. VEDI PAG.79 Gli ultimi due punti permettono di ridurre la variabilità delle stime dei parametri. Grandezza dell’effetto che si vuole evidenziare Attendibilità delle misure

Il p-value nella procedura decisionale In alternativa al considerare le due regioni di accettazione e rifiuto, è possibile prendere la decisione in base al p-value Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l’ipotesi H0 è vera. È anche chiamato livello di significatività osservato, in quanto coincide con il più piccolo livello di significatività in corrispondenza del quale H0 è rifiutata.

La regola decisionale per Rifiutare HO è: Se p ≥  Accetto H0 e Rifiuto H1 se p ≤  Rifiuto H0 e Accetto H1  p