Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei parametri la teoria della verifica delle ipotesi
Probabilità Il concetto di probabilità è espresso di frequente nella pratica quotidiana: un cliente ha la probabilità di stare bene in un albergo a 5 stelle 95 volte su 100, una compagnia aerea 9 volte su 10 è puntuale… etc.
Incertezza e Probabilità Devono rientrare delle navi, come sarà il tempo? esperienza relativa alle condizioni del tempo dei giorni precedenti tempo previsto nella stagione considerata previsioni meteo saranno fatte valutazioni probabilistiche per minimizzare possibili errori di previsione Probabilità: l’accadere di un certo evento è più o meno verosimile in relazione ad altri eventi
Incertezza e Probabilità Prova: esperimento in cui si riscontra incertezza nel risultato Evento aleatorio: uno dei possibili risultati di una prova la realizzazione delle prove darà poi luogo ad uno e ad un solo risultato tra i possibili previsti (modalità disgiunte) es. lancio di una moneta, dado, etc... al momento in cui l’esperimento è compiuto, il risultato possa essere noto, oppure no al ricercatore Evento certo: si verifica sicuramente Evento impossibile: non può mai realizzarsi
Impostazione Assiomatica (Kolmogorov) 1) POSITIVITA’ : P(E)≥0 2) CERTEZZA: P(E)=1 se E vento certo 3) UNIONE: se A e B sono due eventi incompatibili (mutuamente esclusivi) P(AUB)= P(A)+ P(B)
In conclusione: 0 ≤ P(A) ≤ 1 la probabilità del verificarsi di due o più eventi incompatibili è pari alla somma delle singole probabilità
APPROCCIO FREQUENTISTA Si consideri il lancio di un dado di caratteristiche ignote e si calcoli la probabilità che si verifichi l’evento (un qualsiasi possibile risultato del lancio): “uscita di una faccia contraddistinta da un numero pari” dall’osservazione del fenomeno risulta che: al ripetersi dei lanci, le facce contraddistinte da numeri pari escono circa la metà delle volte rispetto alle facce dispari e che sempre più, al progressivo ripetersi del numero dei lanci, nell’uscire, tendono a stabilizzarsi sulla metà delle volte allora si può affermare che: al ripetersi dei lanci “sempre sotto le medesime condizioni”, la probabilità (compresa tra 0 e 1) che esca una faccia contraddistinta da un numero pari sarà 0,50
Scuola frequentista n = numero di prove effettuate L’evento E è un possibile risultato di un esperimento ripetibile n = numero di prove effettuate m = numero di eventi che si sono verificati F= frequenza assoluta Al tendere del tempo all’infinito, m/n si stabilizza, esprimendo la probabilità di verificarsi dell’evento
Variabile casuale VARIABILE CASUALE X: qualsiasi caratteristica si presenti con modalità diverse x1, x2, x3,…, da soggetto a soggetto o, nello stesso soggetto, da un momento all’altro Modalità: tutti i valori che la variabile può assumere Variabile casuale: quantitativa (continua, discreta) qualitativa (nominale, ordinale) prima di una data prova, può assumere in ciascuna osservazione un valore qualsiasi, dopo la prova, essa assumerà, in ciascuna osservazione, uno ed un solo valore, detto “determinazione della variabile casuale” VARIABILE DETERMINISTICA: variabile casuale dopo una determinata prova.
Distribuzione di probabilità I valori possibili (modalità) di una variabile casuale sono riassunti in una distribuzione, definita “distribuzione di probabilità” Nella distribuzione di probabilità sono mostrati tutti i possibili valori di una variabile casuale con le rispettive probabilità di verificarsi
Distribuzioni di frequenza e distribuzioni di probabilità Una distribuzione di frequenza mostra il risultato di ogni evento e la sua relativa frequenza Una distribuzione di probabilità elenca ogni valore possibile con la relativa probabilità
Alcune distribuzioni di probabilità Binomiale Poisson Variabili discrete Variabili continue Normale Normale Standardizzata t di Student
Distribuzione Binomiale Variabile casuale discreta dicotomica assume 1= successo con probabilità p 0= insuccesso con probabilità q=1-p uno ed un solo risultato tra i due possibili; la probabilità è la stessa per ogni prova tutte le prove sono indipendenti Funzione di probabilità:
Distribuzioni di Poisson p = probabilità che l’evento si verifichi n = numero delle prove p < 0,05 n > 100 Funzione di probabilità Dove λ è il numero medio di eventi per intervallo di tempo
Distribuzione Normale Variabile casuale continua Molti dei dati rilevati tendono a distribuirsi secondo le caratteristiche della normalità Più numerose saranno le osservazioni sulla variabile, più numerosi saranno i rettangoli componenti l’istogramma più il grafico si approssimerà ad una curva a campana
Distribuzione Normale e Normale standardizzata Funzione di densità
Come si calcola la probabilità? Probelma: Distribuzioni Probabilità del verificarsi di un evento L’evento segue una distribuzione di probabilità Come si calcola la probabilità? La velocità di consegna da parte di un’azienda con sede a Barcellona, segue una distribuzione normale ed ha una media di 185,7 giorni ed una deviazione standard di 14,6 giorni. Qual’è la probabilità che se faccio un ordine questo sia in sede dopo 200 giorni?
Esempio - Punteggi Standardizzati La velocità di consegna ha una media di 185,7 giorni ed una deviazione standard di 14,6 giorni Valori critici Distribuzione Normale Standardizzata densità
Esempio - Punteggi Standardizzati Ad un test, la media della durata di una batteria è 72 ore e la deviazione standard è 15 ore. Qual è la probabilità che acquistando una batteria, questa si scarichi dopo 60 ore ma prima di 90? Valori critici
Distribuzione t la distribuzione t di Student è una distribuzione simmetrica, con media 0 e con deviazione standard, caratterizzata dai gradi di libertà. Al variare della numerosità campionaria, varia il numero dei gradi di libertà e, conseguentemente, varia la forma della distribuzione
Gradi di libertà 1920: Fisher introduce i gradi di libertà Esprimono il numero minimo di dati sufficienti a valutare la quantità d'informazione contenuta. Quando un dato non è indipendente, l'informazione che esso fornisce è già contenuta implicitamente negli altri. È possibile quindi calcolare le statistiche utilizzando soltanto il numero di osservazioni indipendenti, consentendo in questo modo di ottenere una maggiore precisione nei risultati.
100 gradi di libertà 9 gradi di libertà 95 % 95 %
Confronto tra la distribuzione t di Student e la curva Normale Standardizzata