La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Scienze tecniche e psicologiche

Presentazioni simili


Presentazione sul tema: "Scienze tecniche e psicologiche"— Transcript della presentazione:

1 Scienze tecniche e psicologiche
P-valore e convenzioni Inferenza statistica con la binomiale Approssimazione normale alla binomiale Correzione di continuità: quando e come Teoria elementare dei campioni e distribuzioni di campionamento Distribuzione della media campionaria (esempio e passi di estrazione) Proprietà della distribuzione della media campionaria Effetto della grandezza del campione sulla distribuzione campionaria della media Teorema del limite centrale Implementazione del TLC in Excel con una variabile aleatoria uniforme Psicometria modulo 1 Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Scienze tecniche e psicologiche

2 il p-valore probabilità che il test statistico sia pari al valore osservato o a uno più grande nella direzione prevista da H1; è determinato presumendo che H0 sia vera; quanto più piccolo tanto più sarà probabile che H0 sia falsa; Norma APA: va riportato accanto alla statistica (i.e., z= , p= )

3 convenzione Convenzionalmente, i livelli di soglia delle probabilità ai quali di norma si ricorre sono tre: p-valore < a = 0.05 (5%) p-valore < a = 0.01(1%) p-valore < a = 0.001(0.1%)

4 La serie di Bond Casi Risolto Non risolto 1 2 3 4 5 6 7 8 9 10 ci sono 45 modi diversi di risolvere 8 casi in 10 prove che devono essere moltiplicati per la probabilità di ottenere 8 successi (1/2)8 e 2 insuccessi (1-1/2)2 P(8)= 0.043 non basta! vogliamo la probabilità di ottenere un numero di successi uguale o superiore P(≥8)= P(8) + P(9) + P(10)

5 probabilità e test di ipotesi
Binomiale.xls 0.3 0.25 0.2 Probabilità associata all'evento 0.15 0.1 0.05 2 4 6 8 10 Numero di teste

6 probabilità e test di ipotesi
Binomiale.xls 0.3 0.25 0.2 Probabilità associata all'evento 0.15 0.1 0.05 2 4 6 8 10 Numero di teste

7 probabilità e test di ipotesi
Binomiale.xls 0.3 0.25 0.2 Probabilità associata all'evento 0.15 0.1 0.05 2 4 6 8 10 Numero di teste

8 probabilità e test di ipotesi
Binomiale.xls P(≥8)= P(8) + P(9) + P(10) = = P > a, quindi, accettiamo H0 ossia concludiamo che Bond non è più bravo del normale oltre ogni ragionevole dubbio

9 verifichiamo la regola in Excel
si dimostra che quando n è grande e p → 0.5 allora la binomiale si approssima alla normale con variabile aleatoria standardizzata della binomiale della binomiale La distribuzione binomiale della variabile aleatoria X può esserer approssimata da una normale con variabile aleatoria Z= Regola pratica usare la normale quando np 5 e n(1-p)  5 verifichiamo la regola in Excel

10 ricettario di funzioni
BINOMDIST(num_successi; prove; probabilità;cumulativo) num_successi: numero di successi nelle prove effettuate prove: numero di prove indipendenti effettuate probabilità: probabilità di successo in ciascuna prova cumulativo valore logico che determina il tipo di funzione calcolata

11 BINOMDIST(E6;$B$6;$B$7;FALSE)
approssimiamo appross_normale_binomiale.xls Parametri della distribuzione BINOMDIST(E6;$B$6;$B$7;FALSE)

12 approssimiamo appross_normale_binomiale.xls
distribuzione normale con media e deviazione standard della binomiale: NORMDIST( E6; $C$9; $C$12 ;FALSE)

13 approssimiamo appross_normale_binomiale.xls media p e n(1-p) sono = 6 quindi maggiori del valore critico 5 e la normale approssima bene la binomiale

14 approssimiamo appross_normale_binomiale.xls se p(s) < 0.5 l’approssimazione p diventa minore di 5 e l’approssimazione non è più buona

15 approssimiamo appross_normale_binomiale.xls se p(s) = 0.5 ma n < 10 entrambi i valori diventano minori di 5 e l’approssimazione non è buona

16 approssimiamo appross_normale_binomiale.xls se p(s) = 0.5 ma n < 10 entrambi i valori diventano minori di 5 e l’approssimazione non è buona

17 correzione di continuità
appross_normale_binomiale.xls Ogni valore intero x assunto dalla variabile aleatoria discreta è rappresentato con intervallo [x-1/2; x+1/2] Nel caso di Mr Bond Il risultato è 0435 vs. 0439

18 correzione di continuità
appross_normale_binomiale.xls il foglio correzione_continuità calcola la correzione di continuità per ciascun livello della variabile aleatoria Si calcola la media dei successi in maniera da avere ciascun centro. La probabilità normale associata a ciascun valore medio è la probabilità normale associata a ciascun intervallo fra centri successivi.

19 Esercizio Un grande magazzino gestisce prodotti di informatica (Esempio 6.9, Borazzo p. 189). Ogni mattina vengono effettuati 5 ordini. La probabilità che un ordine venga giudicato non valido è 0.1. Calcola la probabilità che in una mattina ci siano due ordini errati Confronta tale probabilità con la stima ottenuta mediante correzione di continuità normale Usa il foglio di lavoro excel per rispondere e risolvere il problema posto nell’ Esempio 6.9 Borazzo pag 189.

20 Teoria elementare dei campioni: distribuzioni di campionamento
distribuzione di probabilità che associa un valore di probabilità a ciascun valore possibile che la statistica (media, varianza, dev.st.) può assumere l’inferenza statistica si basa sulla conoscenza di come variano le statistiche dei campioni (campioni casuali aventi la stessa grandezza n ripetutamente estratti dalla popolazione), dato che le distribuzioni di probabilità non sono note a priori (media, proporzione o varianza della popolazione ignoti) Tale operazione avviene attraverso la stima dei parametri di interesse basata sulle informazioni proveniente da un unico campione La decisione se una statistica sia più o meno rappresentativa di un parametro avviene mediante test di ipotesi basato sul calcolo della probabilità (a e p-valore) Si osservi che le distribuzioni di probabilità non sono note a priori, nel senso che non conosciamo a priori come si distribuiscono i valori della variabile osservata. Utilizzando i dati campionari possiamo inferire sulla popolazione. Tale operazione avviene attraverso la stima dei parametri di interesse (media, varianza etc…). L'operazione di stima si basa sulle informazioni proveniente dall'unico campione disponibile. Se potessimo disporre di tutti i possibili campioni di pari ampiezza n, otterremmo un certo numero di stime, cioè la distribuzione campionaria delle stime. Ciascuna stima ha una propria probabilità e l'insieme delle stime e delle corrispondenti probabilità costituisce la distribuzione campionaria di una statistica. Ad esempio per ciascun campione si può calcolare una statistica che potrà variare da campione a campione. In tal modo in maniera del tutto analoga a come abbiamo fatto per le variabili aleatorie discrete possiamo definire una variabile aleatoria che associa a ciascun valore della statistica un certo valore di probabilità. Tale distribuzione è la distribuzione campionaria. Vedremo adesso come tali distribuzioni permettono di risolvere problemi statistici di natura probabilistica su statistiche campionarie ma soprattutto forniscono gli strumenti teorici per la trattazione dell’inferenza statistica.

21 procedura di estrazione:
Estrai tutti i possibili campioni casuali di ampiezza n dalla popolazione finita di osservazioni N Calcola la statistica di interesse per ogni campione Costruisci una tabella che associa ad ogni valore assunto dalla statistica le corrispondenti frequenze

22 in pratica: s2 sx2 s 2 n mx== m
Tutti i possibili campioni di n= 2 estraibili dalla popolazione di N= 4 (42) la popolazione ha i seguenti parametri sx2 s2 n = s 2 mx== m m

23 implicazioni generali (1)
per tutte le distribuzioni ottenute con un campionamento da popolazioni infinite (o finite con reimmissione) è sempre vero che: 1. 2. 3. è la deviazione standard della media campionaria (errore standard della media) Altrimenti la Varianza va corretta per N-n/N-1 (4-2/4-1) che tende ad uno per N grande L’errore standard della media decresce in proporzione alla radice quadrata dell’ampiezza del campione n. L'ampiezza della distribuzione campionaria è circa 1/10 quella della distribuzione della popolazione. (Le medie variano molto meno delle osservazioni provenienti dalla popolazione.)

24 errore campionario dovuto a n
due distribuzione campionaria per una proporzione nel caso di campioni di ampiezza n = 2705 con quella per campioni di ampiezza n = 100 (fig. 4.13, p.95) Poichè l'ampiezza campionaria n sta al denominatore della formula dell'errore standard, appare chiaro come al crescere di n diminuisca l'errore standard. Per dimezzare SEM bisogna quadruplicare n sono molto diverse; qualunque inferenza dipende dalla scelta di n utilizzando un campione si commette un errore (errore campionario).

25 dimostratore 1: grandezza del campione
Sampling Distribution of the Sample Mean

26 dimostratore 1: grandezza del campione

27 implicazioni generali (2): teorema del limite centrale
data una popolazione con media m e varianza s2, da cui vengono etrsratti campioni casuali di ampiezza n; indicando con la media campionaria e l’errore standard della media, la variabile è una variabile aleatoria la cui distribuzione tende alla normale per n → 

28 + semplicemente per grandi campioni la distribuzione campionaria della media campionaria è approssimativamente una distribuzione normale questo permette di inferire la probabilità associata alla media di un campione di dati indipendentemente dalle proprietà e forma della popolazione

29 dimostratore 2: TLC http://demonstrations.wolfram.com/#
Sampling Distribution of the Mean and Standard Deviation in VariousPopulations

30 popolazione normale  media campionaria normale
dimostratore 2: TLC popolazione normale  media campionaria normale

31 popolazione uniforme  media campionaria normale
dimostratore 2: TLC popolazione uniforme  media campionaria normale

32 popolazione laplaciana  media campionaria normale
dimostratore 2: TLC popolazione laplaciana  media campionaria normale

33 cap 9 Paganoni, Pontiggia
Implementazione in Excel Teorema_del_Limite_Centrale.xls cap 9 Paganoni, Pontiggia

34

35 3 casi: 1. TLC con variabile aleatoria uniforme
la varianza si riduce con il quadrato dell’ampiezza del campione ?

36 Simulazione dell’esempio 4.7 del Testo, pag. 91
3 casi: 2. TLC con proporzioni (variabile aleatoria bernoulliana) Simulazione dell’esempio 4.7 del Testo, pag. 91 Sondaggi di opinione (% voti democratici vs. % repubblicani) Compiti di scelta forzata Si/NO) Diffusione di malattie (% presenza; %assenza) In questo caso si simula la distribuzione campionaria della proporzione campionaria più che della media, dove le proporzioni sono rappresentabili come % di risposte ad una variabile aleatoria X che può assumere solo due valori (si/no; presente assente etc…). Una variabile di questo tipo (dicotomica) è detta bernulliana e rappresenta molti casi concreti che avvengono nella vita reale, e si riscontra dai sondaggi di opinione etc…. d’altra parte la distribuzione binomiale come abbiamo già visto non è altro che la somma di esiti bernulliani quale è l’errore standard della proporzione ?

37 3 casi: 3. TLC con variabili aleatorie di qualunque forma
disegno una funzione qualsiasi genero un campione di dati random estratti da quella funzione genero la distribuzione delle medie campionarie In questo caso si simula Quanto è robusto il teorema ?

38 1. TLC con variabile aleatoria uniforme
generiamo 20 campioni (n) ciascuno di 500 osservazioni simulate come numeri casuali nel range definito da media ed errore :RANDBETWEEN($B$1-$B$2;$B$1+$B$2)

39 1. TLC con variabile aleatoria uniforme
Calcoliamo la media campionaria per tre casi diversi: 1. quando n= 1: AVERAGE(Bi=1→500)

40 1. TLC con variabile aleatoria uniforme
Calcoliamo la media campionaria per tre casi diversi: 2. quando n= 5: AVERAGE(Bi=1→500: Fi=1→500) 1. quando n= 1: AVERAGE(Bi=1→500)

41 1. TLC con variabile aleatoria uniforme
Calcoliamo la media campionaria per tre casi diversi: 3. quando n= 20: AVERAGE(Bi=1→500: Ui=1→500) 2. quando n= 5: AVERAGE(Bi=1→500: Fi=1→500) 1. quando n= 1: AVERAGE(Bi=1→500)

42 1. TLC con variabile aleatoria uniforme
Dati per la costruzione dell’ istogramma sull’ intero set di dati: Seriazione della variabile aleatoria in 13 classi: xi=1→13=Di=1→13+(MAX($B$20:$F$519)-MIN($B$20:$F$519))/13 Frequenze relative associate a ciascun valore di x, applicando COUNTIF a tutto il set di dati [$B$20:$F$519]

43 1. TLC con variabile aleatoria uniforme
Dati per la variabile aleatoria ottenuta come media di 1 campione : Stessa seriazione usata in precedenza Frequenze relative associate a ciascun valore di X, applicando COUNTIF alla sola colonna V [$V$20:$V$519]

44 1. TLC con variabile aleatoria uniforme
Si generano altre due tabelle uguali in cui si estraggono i dati per la variabile aleatoria ottenuta come media di 5 campioni, e 20 campioni

45 1. TLC con variabile aleatoria uniforme
Calcoliamo le statistiche per la popolazione e per la distribuzione delle medie campionarie con n= 1, n= 5 e n= 20

46 1. TLC con variabile aleatoria uniforme
La media della popolazione (m= 99.99) è sempre uguale alla media campionaria

47 1. TLC con variabile aleatoria uniforme
La varianza della popolazione (s2= 869.2) divisa per n è sempre uguale alla varianza campionaria

48 1. TLC con variabile aleatoria uniforme
La relazione è soddisfatta La varianza campionaria decresce all’aumentare di n Testiamo la normalità per i 3 all’aumentare di n e visualizziamo

49 NPP usando il comando SMALL
Costruiamo i normal probability plot usando la stessa tecnica usata nel documento Normal_Probability_Plot_Paganoni.xls Utilizzeremo la funzione SMALL per ordinare in maniera ascendente il set dinamico di dati di X

50 NPP usando il comando SMALL
In ogni cella di AF scriviamo: SMALL( $W$20:$W$519 ;$A20) ritorna l’A20-esimo valore più piccolo specificato nell’array $W$20:$W$519.

51 output dinamico Pessimo adattamento alla normale
Ottimo adattamento alla normale ancora meglio

52 parametri del fit L’intercetta corrisponde a X
La slope o pendenza all’ errore standard


Scaricare ppt "Scienze tecniche e psicologiche"

Presentazioni simili


Annunci Google