Scienze tecniche e psicologiche

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
Variabili aleatorie discrete e continue
Intervalli di confidenza
Proprietà degli stimatori
Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.
La teoria di portafoglio: cap.7-9
2.VARIABILI CONTINUE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Variabili casuali a più dimensioni
Fondamenti della Misurazione
Analisi dei dati per i disegni ad un fattore
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Inferenza statistica per un singolo campione
Valutazione delle ipotesi
CAMPIONAMENTO Estratto dal Cap. 5 di:
Introduzione alla statistica per la ricerca Lezione I
Distribuzioni di probabilità
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 4: La funzione di Gauss
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Le distribuzioni campionarie
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
STATISTICA INFERENZIALE
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
IL CAMPIONE.
“Teoria e metodi della ricerca sociale e organizzativa”
Le distribuzioni campionarie
Test basati su due campioni Test Chi - quadro
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
“Teoria e metodi della ricerca sociale e organizzativa”
Intervalli di confidenza
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
La distribuzione campionaria della media
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Elaborazione statistica di dati
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
TRATTAMENTO STATISTICO DEI DATI ANALITICI
1 Statistica Scienza dell’incertezza PROBABILITÀ ALLA BASE DELL’INFERENZA Ipotesi VERA o FALSA? Campionamento Analisi statistica Scelta di una delle due.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Rosoluzione.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Campionamento.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
1111 Università di Napoli Federico II, Dipartimento di Scienze Economiche e Statistiche S. BalbiI test non parametrici.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Inferenza.
Distribuzioni limite La distribuzione normale Si consideri una variabile casuale rappresentata mediante una combinazione lineare di altre variabili casuali.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Analisi descrittiva.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Campionamento.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Postulati.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.
Introduzione all’inferenza
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
L’INFERENZA STATISTICA
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Transcript della presentazione:

Scienze tecniche e psicologiche P-valore e convenzioni Inferenza statistica con la binomiale Approssimazione normale alla binomiale Correzione di continuità: quando e come Teoria elementare dei campioni e distribuzioni di campionamento Distribuzione della media campionaria (esempio e passi di estrazione) Proprietà della distribuzione della media campionaria Effetto della grandezza del campione sulla distribuzione campionaria della media Teorema del limite centrale Implementazione del TLC in Excel con una variabile aleatoria uniforme Psicometria modulo 1 Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Scienze tecniche e psicologiche 2014-2015

il p-valore probabilità che il test statistico sia pari al valore osservato o a uno più grande nella direzione prevista da H1; è determinato presumendo che H0 sia vera; quanto più piccolo tanto più sarà probabile che H0 sia falsa; Norma APA: va riportato accanto alla statistica (i.e., z= , p= )

convenzione Convenzionalmente, i livelli di soglia delle probabilità ai quali di norma si ricorre sono tre: p-valore < a = 0.05 (5%) p-valore < a = 0.01(1%) p-valore < a = 0.001(0.1%)

La serie di Bond Casi Risolto Non risolto 1 2 3 4 5 6 7 8 9 10 ci sono 45 modi diversi di risolvere 8 casi in 10 prove che devono essere moltiplicati per la probabilità di ottenere 8 successi (1/2)8 e 2 insuccessi (1-1/2)2 P(8)= 0.043 non basta! vogliamo la probabilità di ottenere un numero di successi uguale o superiore P(≥8)= P(8) + P(9) + P(10)

probabilità e test di ipotesi Binomiale.xls 0.3 0.25 0.2 Probabilità associata all'evento 0.15 0.1 0.05 2 4 6 8 10 Numero di teste

probabilità e test di ipotesi Binomiale.xls 0.3 0.25 0.2 Probabilità associata all'evento 0.15 0.1 0.05 2 4 6 8 10 Numero di teste

probabilità e test di ipotesi Binomiale.xls 0.3 0.25 0.2 Probabilità associata all'evento 0.15 0.1 0.05 2 4 6 8 10 Numero di teste

probabilità e test di ipotesi Binomiale.xls P(≥8)= P(8) + P(9) + P(10) = 0.0439 + 0.009 + 0.0009 = 0.0542 P > a, quindi, accettiamo H0 ossia concludiamo che Bond non è più bravo del normale oltre ogni ragionevole dubbio

verifichiamo la regola in Excel si dimostra che quando n è grande e p → 0.5 allora la binomiale si approssima alla normale con variabile aleatoria standardizzata della binomiale della binomiale La distribuzione binomiale della variabile aleatoria X può esserer approssimata da una normale con variabile aleatoria Z= Regola pratica usare la normale quando np 5 e n(1-p)  5 verifichiamo la regola in Excel

ricettario di funzioni BINOMDIST(num_successi; prove; probabilità;cumulativo) num_successi: numero di successi nelle prove effettuate prove: numero di prove indipendenti effettuate probabilità: probabilità di successo in ciascuna prova cumulativo valore logico che determina il tipo di funzione calcolata

BINOMDIST(E6;$B$6;$B$7;FALSE) approssimiamo appross_normale_binomiale.xls Parametri della distribuzione BINOMDIST(E6;$B$6;$B$7;FALSE)

approssimiamo appross_normale_binomiale.xls distribuzione normale con media e deviazione standard della binomiale: NORMDIST( E6; $C$9; $C$12 ;FALSE)

approssimiamo appross_normale_binomiale.xls media p e n(1-p) sono = 6 quindi maggiori del valore critico 5 e la normale approssima bene la binomiale

approssimiamo appross_normale_binomiale.xls se p(s) < 0.5 l’approssimazione p diventa minore di 5 e l’approssimazione non è più buona

approssimiamo appross_normale_binomiale.xls se p(s) = 0.5 ma n < 10 entrambi i valori diventano minori di 5 e l’approssimazione non è buona

approssimiamo appross_normale_binomiale.xls se p(s) = 0.5 ma n < 10 entrambi i valori diventano minori di 5 e l’approssimazione non è buona

correzione di continuità appross_normale_binomiale.xls Ogni valore intero x assunto dalla variabile aleatoria discreta è rappresentato con intervallo [x-1/2; x+1/2] Nel caso di Mr Bond Il risultato è 0435 vs. 0439

correzione di continuità appross_normale_binomiale.xls il foglio correzione_continuità calcola la correzione di continuità per ciascun livello della variabile aleatoria Si calcola la media dei successi in maniera da avere ciascun centro. La probabilità normale associata a ciascun valore medio è la probabilità normale associata a ciascun intervallo fra centri successivi.

Esercizio Un grande magazzino gestisce prodotti di informatica (Esempio 6.9, Borazzo p. 189). Ogni mattina vengono effettuati 5 ordini. La probabilità che un ordine venga giudicato non valido è 0.1. Calcola la probabilità che in una mattina ci siano due ordini errati Confronta tale probabilità con la stima ottenuta mediante correzione di continuità normale Usa il foglio di lavoro excel per rispondere e risolvere il problema posto nell’ Esempio 6.9 Borazzo pag 189.

Teoria elementare dei campioni: distribuzioni di campionamento distribuzione di probabilità che associa un valore di probabilità a ciascun valore possibile che la statistica (media, varianza, dev.st.) può assumere l’inferenza statistica si basa sulla conoscenza di come variano le statistiche dei campioni (campioni casuali aventi la stessa grandezza n ripetutamente estratti dalla popolazione), dato che le distribuzioni di probabilità non sono note a priori (media, proporzione o varianza della popolazione ignoti) Tale operazione avviene attraverso la stima dei parametri di interesse basata sulle informazioni proveniente da un unico campione La decisione se una statistica sia più o meno rappresentativa di un parametro avviene mediante test di ipotesi basato sul calcolo della probabilità (a e p-valore) Si osservi che le distribuzioni di probabilità non sono note a priori, nel senso che non conosciamo a priori come si distribuiscono i valori della variabile osservata. Utilizzando i dati campionari possiamo inferire sulla popolazione. Tale operazione avviene attraverso la stima dei parametri di interesse (media, varianza etc…). L'operazione di stima si basa sulle informazioni proveniente dall'unico campione disponibile. Se potessimo disporre di tutti i possibili campioni di pari ampiezza n, otterremmo un certo numero di stime, cioè la distribuzione campionaria delle stime. Ciascuna stima ha una propria probabilità e l'insieme delle stime e delle corrispondenti probabilità costituisce la distribuzione campionaria di una statistica. Ad esempio per ciascun campione si può calcolare una statistica che potrà variare da campione a campione. In tal modo in maniera del tutto analoga a come abbiamo fatto per le variabili aleatorie discrete possiamo definire una variabile aleatoria che associa a ciascun valore della statistica un certo valore di probabilità. Tale distribuzione è la distribuzione campionaria. Vedremo adesso come tali distribuzioni permettono di risolvere problemi statistici di natura probabilistica su statistiche campionarie ma soprattutto forniscono gli strumenti teorici per la trattazione dell’inferenza statistica.

procedura di estrazione: Estrai tutti i possibili campioni casuali di ampiezza n dalla popolazione finita di osservazioni N Calcola la statistica di interesse per ogni campione Costruisci una tabella che associa ad ogni valore assunto dalla statistica le corrispondenti frequenze

in pratica: s2 sx2 s 2 n mx== m Tutti i possibili campioni di n= 2 estraibili dalla popolazione di N= 4 (42) la popolazione ha i seguenti parametri sx2 s2 n = s 2 mx== m m

implicazioni generali (1) per tutte le distribuzioni ottenute con un campionamento da popolazioni infinite (o finite con reimmissione) è sempre vero che: 1. 2. 3. è la deviazione standard della media campionaria (errore standard della media) Altrimenti la Varianza va corretta per N-n/N-1 (4-2/4-1) che tende ad uno per N grande L’errore standard della media decresce in proporzione alla radice quadrata dell’ampiezza del campione n. L'ampiezza della distribuzione campionaria è circa 1/10 quella della distribuzione della popolazione. (Le medie variano molto meno delle osservazioni provenienti dalla popolazione.)

errore campionario dovuto a n due distribuzione campionaria per una proporzione nel caso di campioni di ampiezza n = 2705 con quella per campioni di ampiezza n = 100 (fig. 4.13, p.95) Poichè l'ampiezza campionaria n sta al denominatore della formula dell'errore standard, appare chiaro come al crescere di n diminuisca l'errore standard. Per dimezzare SEM bisogna quadruplicare n sono molto diverse; qualunque inferenza dipende dalla scelta di n utilizzando un campione si commette un errore (errore campionario).

dimostratore 1: grandezza del campione http://demonstrations.wolfram.com/# Sampling Distribution of the Sample Mean

dimostratore 1: grandezza del campione http://demonstrations.wolfram.com/#

implicazioni generali (2): teorema del limite centrale data una popolazione con media m e varianza s2, da cui vengono etrsratti campioni casuali di ampiezza n; indicando con la media campionaria e l’errore standard della media, la variabile è una variabile aleatoria la cui distribuzione tende alla normale per n → 

+ semplicemente per grandi campioni la distribuzione campionaria della media campionaria è approssimativamente una distribuzione normale questo permette di inferire la probabilità associata alla media di un campione di dati indipendentemente dalle proprietà e forma della popolazione

dimostratore 2: TLC http://demonstrations.wolfram.com/# Sampling Distribution of the Mean and Standard Deviation in VariousPopulations

popolazione normale  media campionaria normale dimostratore 2: TLC popolazione normale  media campionaria normale

popolazione uniforme  media campionaria normale dimostratore 2: TLC popolazione uniforme  media campionaria normale

popolazione laplaciana  media campionaria normale dimostratore 2: TLC popolazione laplaciana  media campionaria normale

cap 9 Paganoni, Pontiggia Implementazione in Excel Teorema_del_Limite_Centrale.xls cap 9 Paganoni, Pontiggia

3 casi: 1. TLC con variabile aleatoria uniforme la varianza si riduce con il quadrato dell’ampiezza del campione ?

Simulazione dell’esempio 4.7 del Testo, pag. 91 3 casi: 2. TLC con proporzioni (variabile aleatoria bernoulliana) Simulazione dell’esempio 4.7 del Testo, pag. 91 Sondaggi di opinione (% voti democratici vs. % repubblicani) Compiti di scelta forzata Si/NO) Diffusione di malattie (% presenza; %assenza) In questo caso si simula la distribuzione campionaria della proporzione campionaria più che della media, dove le proporzioni sono rappresentabili come % di risposte ad una variabile aleatoria X che può assumere solo due valori (si/no; presente assente etc…). Una variabile di questo tipo (dicotomica) è detta bernulliana e rappresenta molti casi concreti che avvengono nella vita reale, e si riscontra dai sondaggi di opinione etc…. d’altra parte la distribuzione binomiale come abbiamo già visto non è altro che la somma di esiti bernulliani quale è l’errore standard della proporzione ?

3 casi: 3. TLC con variabili aleatorie di qualunque forma disegno una funzione qualsiasi genero un campione di dati random estratti da quella funzione genero la distribuzione delle medie campionarie In questo caso si simula Quanto è robusto il teorema ?

1. TLC con variabile aleatoria uniforme generiamo 20 campioni (n) ciascuno di 500 osservazioni simulate come numeri casuali nel range definito da media ed errore :RANDBETWEEN($B$1-$B$2;$B$1+$B$2)

1. TLC con variabile aleatoria uniforme Calcoliamo la media campionaria per tre casi diversi: 1. quando n= 1: AVERAGE(Bi=1→500)

1. TLC con variabile aleatoria uniforme Calcoliamo la media campionaria per tre casi diversi: 2. quando n= 5: AVERAGE(Bi=1→500: Fi=1→500) 1. quando n= 1: AVERAGE(Bi=1→500)

1. TLC con variabile aleatoria uniforme Calcoliamo la media campionaria per tre casi diversi: 3. quando n= 20: AVERAGE(Bi=1→500: Ui=1→500) 2. quando n= 5: AVERAGE(Bi=1→500: Fi=1→500) 1. quando n= 1: AVERAGE(Bi=1→500)

1. TLC con variabile aleatoria uniforme Dati per la costruzione dell’ istogramma sull’ intero set di dati: Seriazione della variabile aleatoria in 13 classi: xi=1→13=Di=1→13+(MAX($B$20:$F$519)-MIN($B$20:$F$519))/13 Frequenze relative associate a ciascun valore di x, applicando COUNTIF a tutto il set di dati [$B$20:$F$519]

1. TLC con variabile aleatoria uniforme Dati per la variabile aleatoria ottenuta come media di 1 campione : Stessa seriazione usata in precedenza Frequenze relative associate a ciascun valore di X, applicando COUNTIF alla sola colonna V [$V$20:$V$519]

1. TLC con variabile aleatoria uniforme Si generano altre due tabelle uguali in cui si estraggono i dati per la variabile aleatoria ottenuta come media di 5 campioni, e 20 campioni

1. TLC con variabile aleatoria uniforme Calcoliamo le statistiche per la popolazione e per la distribuzione delle medie campionarie con n= 1, n= 5 e n= 20

1. TLC con variabile aleatoria uniforme La media della popolazione (m= 99.99) è sempre uguale alla media campionaria

1. TLC con variabile aleatoria uniforme La varianza della popolazione (s2= 869.2) divisa per n è sempre uguale alla varianza campionaria

1. TLC con variabile aleatoria uniforme La relazione è soddisfatta La varianza campionaria decresce all’aumentare di n Testiamo la normalità per i 3 all’aumentare di n e visualizziamo

NPP usando il comando SMALL Costruiamo i normal probability plot usando la stessa tecnica usata nel documento Normal_Probability_Plot_Paganoni.xls Utilizzeremo la funzione SMALL per ordinare in maniera ascendente il set dinamico di dati di X

NPP usando il comando SMALL In ogni cella di AF scriviamo: SMALL( $W$20:$W$519 ;$A20) ritorna l’A20-esimo valore più piccolo specificato nell’array $W$20:$W$519.

output dinamico Pessimo adattamento alla normale Ottimo adattamento alla normale ancora meglio

parametri del fit L’intercetta corrisponde a X La slope o pendenza all’ errore standard