“Teoria e metodi della ricerca sociale e organizzativa”

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
variabili aleatorie discrete e continue
STATISTICA DESCRITTIVA
STATISTICA DESCRITTIVA
Intervalli di confidenza
Proprietà degli stimatori
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
Matematica I: Calcolo differenziale, Algebra lineare, Probabilità e statistica Giovanni Naldi, Lorenzo Pareschi, Giacomo Aletti Copyright © The.
2.VARIABILI CONTINUE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Fondamenti della Misurazione
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Analisi dei dati per i disegni ad un fattore
Definizioni Chiamiamo esperimento aleatorio ogni fenomeno del mondo reale alle cui manifestazioni può essere associata una situazione di incertezza. Esempi:
Progetto Pilota 2 Lettura e interpretazione dei risultati
Inferenza statistica per un singolo campione
Valutazione delle ipotesi
DIFFERENZA TRA LE MEDIE
1 Introduzione alla statistica per la ricerca Lezione III Dr. Stefano Guidi Siena, 18 Ottobre 2012.
Introduzione alla statistica per la ricerca Lezione I
Distribuzioni di probabilità
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 4: La funzione di Gauss
Corso di biomatematica Lezione 2: Probabilità e distribuzioni di probabilità Davide Grandi.
STATISTICA a.a PARAMETRO t DI STUDENT
Valutazione della stima: gli intervalli di confidenza
Concetti legati all’incertezza statistica
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
PROBABILITÀ La probabilità è un giudizio che si assegna ad un evento e che si esprime mediante un numero compreso tra 0 e 1 1 Evento con molta probabilità.
Le distribuzioni campionarie
Teorie e Tecniche di Psicometria
PROBABILITA : se un EVENTO si verifica in h modi diversi su n possibili (POPOLAZIONE) p = h/n Questa definizione è talvolta applicabile a priori (es. lancio.
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
STATISTICA INFERENZIALE
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Lezione B.10 Regressione e inferenza: il modello lineare
Corso di Analisi Statistica per le Imprese
IL CAMPIONE.
Le distribuzioni campionarie
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
“Teoria e metodi della ricerca sociale e organizzativa”
Intervalli di confidenza
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
La curva di Gauss Prof. Marco Lombardi.
Eventi aleatori Un evento è aleatorio (casuale) quando non si può prevedere con certezza se avverrà o meno I fenomeni (eventi) aleatori sono studiati.
La distribuzione campionaria della media
Elaborazione statistica di dati
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
TRATTAMENTO STATISTICO DEI DATI ANALITICI
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Distribuzioni limite La distribuzione normale Si consideri una variabile casuale rappresentata mediante una combinazione lineare di altre variabili casuali.
1 VARIABILI CASUALI. 2 definizione Una variabile casuale è una variabile che assume determinati valori in modo casuale (non deterministico). Esempi l’esito.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Introduzione alle distribuzioni di probabilità di Gauss o normale di Bernoulli o binomiale di Poisson o dei casi rari.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.
Introduzione all’inferenza
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

“Teoria e metodi della ricerca sociale e organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti

Elementi introduttivi di statistica

Definizione classica (o frequentista): LA PROBABILITA’ Definizione classica (o frequentista): la probabilità di evento è il rapporto tra la frequenza con cui un evento accade e l’insieme degli eventi possibili. La probabilità che dal lancio di una moneta otteniamo testa è 0,5. La probabilità che dal lancio di un dado otteniamo 1 è 0,16.

La probabilità che dal lancio di due dadi otteniamo 5 è 0,11. LA PROBABILITA’ La probabilità che dal lancio di due dadi otteniamo 5 è 0,11. D1 D2 Tot 1 2 3 4 5 6 7 8 9 10 11 12

DISTRIBUZIONE DI PROBABILITA’ La distribuzione di probabilità rappresenta come le probabilità sono associate ai diversi eventi (discreti). La somma delle probabilità da sempre 1. Risultato del lancio di una moneta

DISTRIBUZIONE DI PROBABILITA’ Somma ricavata dal lancio di due dadi Evento più probabile

LA FUNZIONE DI PROBABILITA’ è una funzione algebrica che descrive la forma della distribuzione di probabilità px(2) =0.03 px(3) =0.06 px(4) =0.08 px(5) =0.11 px(6) =0.14 px(7) =0.17 px(8) px(9) px(10) px(11) px(12) La funzione di probabilità assegna una probabilità ad ogni realizzazione x della variabile casuale discreta X.

In tal caso l’area sottesa alla curva darebbe valore 1. Se invece di avere un numero discreto di eventi, ne avessimo uno continuo le funzioni di probabilità sono funzioni di densità di probabilità ed avrebbero la forma di una linea. In tal caso l’area sottesa alla curva darebbe valore 1. p L’area è uguale a 1. Reddito 1300 4000

Molti fenomeni hanno una distribuzione che approssima una distribuzione nota detta curva normale o gaussiana. p(Z) L’area è uguale a 1. Z

Somma ricavata dal lancio di due dadi p 0,17 0,08 x

Statura in cm, maschi 20-64 anni

«E non è ingiusto, questo «E non è ingiusto, questo? Non è forse vero che chi si comporta così, evidentemente vive tra gli uomini senza averne nessuna esperienza? Se, infatti, li conoscesse appena, saprebbe che son pochi quelli veramente buoni o completamente malvagi e che per la maggior parte, invece, sono dei mediocri.» «In che senso?» feci. «È lo stesso delle cose molto piccole e molto grandi. Credi forse che sia tanto facile trovare un uomo o un cane o un altro essere qualunque molto grande o molto piccolo o, che so io, uno molto veloce o molto lento o molto brutto o molto bello o tutto bianco o tutto nero? Non ti sei mai accorto che in tutte le cose gli estremi sono rari mentre gli aspetti intermedi sono frequenti, anzi numerosi?» Platone, Fedone, XXXIX

La curva normale ha delle proprietà statistiche, per cui ad un valore sull’asse delle ascisse corrisponde un preciso valore dell’area della curva. p(x) X Za

Quando la curva normale è standardizzata (media=0, varianza=1) i valori in ascissa sono detti punteggi ZETA (Z) e ai punti zeta è possibile associare direttamente l’area sottesa alla curva in base ad alcune tavole statistiche. p(z) Quando za>1 L’area vale 0,159 Z za

ALTRI VALORI DI CORRISPONDENZA TRA Z E LA DENSITA’ DI PROBABILITA’ 0,500 = P{ z < 0 } 0,500 = P{ z > 0 } 0,900 = P{- 1,65 < z < +1,65 } 0,950 = P{- 1,96 < z < +1,96 } 0,955 = P{- 2 < z < + 2 } 0,990 = P{- 2,58 < z < + 2,58 } 0,997 = P{ - 3 < z < + 3 }

QUALSIASI DISTRIBUZIONE CONTINUA PUO’ ESSERE STANDARDIZZATA Una distribuzione standardizzata ha media uguale a 0 e deviazione standard (o varianza) uguale a 1.

Elementi introduttivi di statistica inferenziale

Elementi introduttivi di statistica inferenziale Si usano le lettere latine per il campione, quelle greche per la popolazione (o universo)

Statistica descrittiva e statistica inferenziale La statistica descrittiva si propone di riassumere le proprietà di un campione di osservazione (distribuzioni di frequenze, valori tipici). Queste statistiche non offrono alcuna informazione diretta sulla popolazione dalla quale è stato tratto il campione analizzato. Per ottenere tali informazioni è necessario ricorrere alla statistica inferenziale che, applicando la teoria matematica della probabilità, desume le caratteristiche dell’intera popolazione sulla base dell’evidenza campionaria disponibile. Un’inferenza è una generalizzazione o conclusione riguardante una data popolazione formulata sulla base di dati campionari. Se un campione è altamente “rappresentativo” della popolazione di riferimento, allora le inferenze relative a quest’ultima possono essere formulate con un elevato livello di accuratezza (sebbene mai con certezza).

Il fatto che ci rivolgiamo ad un campione, che è solo una parte della popolazione, comporta che le “misure” che effettuiamo sul campione sono in qualche modo sbagliate. Più correttamente, le STIME che effettuiamo sul campione hanno un certo grado di INCERTEZZA.  

Quando parliamo di valori tipici della popolazione, parliamo di PARAMETRI Quando parliamo di valori tipici di un campione, parliamo di STATISTICHE. Quando facciamo inferenza, attribuiamo conclusioni fatte sul campione alla popolazione, parliamo allora di STIME DI PARAMETRI, e relativi INTERVALLI DI CONFIDENZA (o di intervalli di credibilità nella statistica bayesiana) Si usano le lettere latine per il campione (S, X, Y..) quelle greche per la popolazione (μ, σ , …)  

Teorema del limite centrale Se tutti i possibili campioni casuali di numerosità n vengono estratti da una data popolazione avente media mu e varianza sigma-quadro, all’aumentare di n le medie di questi campioni approssimeranno una distribuzione normale, con media mu e varianza sigma-quadro/N. Indipendentemente dalla forma della distribuzione ! Media delle medie campionarie Media della popolazione Varianza delle medie campionarie Varianza della popolazione

campioni universo Media, varianza ……………… Media, varianza Distribuzione delle medie campionarie

Teorema del limite centrale La varianza delle medie campionarie diminuisce all’aumentare della grandezza del campione (n). Si parla di ERRORE STANDARD. Più grandi sono i campioni, minore è l’errore standard e più precisa è la media campionaria nello stimare la media della popolazione.

Teorema del limite centrale Distribuendosi le medie campionarie secondo una curva normale, possiamo conoscere la probabilità che le medie campionarie siano comprese in un dato intervallo.

Teorema del limite centrale Le medie campionarie (sotto) approssimano la media della popolazione (174) a meno di un certo margine di incertezza (che dipende dall’errore standard). Media= 174 Dev.std.=15 UNIVERSO 100000 CASI . . . 100 100 100 100 . . . 100 Campione 1 Campione 2 Campione 3 Campione 4 Campione t Media=173 Media=174 Media=176 Media=172 Media=175

Teorema del limite centrale n campionario uguale a 100 Media= 174 Dev.std.=15 UNIVERSO 100000 CASI . . . 100 100 100 100 . . . 100 Campione 1 Campione 2 Campione 3 Campione 4 Campione t Media=173 Media=174 Media=176 Media=172 Media=175

Il 95% di tutte le medie campionarie sono comprese nell’intervallo: p(Z) 0,95 0,025 0,025 Z

Sappiamo che Z ritaglia un’area di 0,95 con valori corrispondenti a più/meno 1,96. Se consideriamo il primo campione estratto abbiamo che l’incertezza della stima del valore medio di questo campione riguarda l’intervallo:

Se stiamo lavorando sul primo campione estratto abbiamo che l’incertezza della stima del valore medio dell’altezza nella popolazione riguarda l’intervallo: Estratti un numero molto elevato di campioni di numerosità 100, l’altezza è nel 95% dei casi compresa tra 170,1 e 176,9

0,95 0,025 0,025 170,1 173 176,9

Prendendo un campione più ampio… n=1000 0,95 0,025 0,025 173,1 174 174,9

Prendendo un campione più piccolo … n=30 0,95 0,025 0,025 164,6 170 175,4

Incertezza e numerosità campionaria L’e.s. è funzione di n n=50

Esempio tratto da M.Pisati, “Analisi dei dati”

Se n è molto grande T e Z convergono. Quando la deviazione standard della popolazione non è nota, e la numerosità del campione è elevata, è possibile stimare l’errore standard usando la deviazione standard del campione. IN TAL CASO PERO’ SI USA LA DISTRIBUZIONE t di Student, una distribuzione che approssima la curva normale, ma che ha errori standard più ampi (le code sono più lunghe) ed è funzione anche della dimensione del campione. Se n è molto grande T e Z convergono.

VALORI DI CORRISPONDENZA TRA T E LA DENSITA’ DI PROBABILITA’: PER n=100 PER n molto grande (convergono con Z) 0,500 = P{ t < 0 } 0,500 = P{ t > 0 } 0,900 = P{- 1,66 < t < +1,66 } 0,950 = P{- 1,98 < t < +1,98 } 0,990 = P{- 2,62 < t < + 2,62 } 0,500 = P{ t < 0 } 0,500 = P{ t > 0 } 0,900 = P{- 1,65 < t < +1,65 } 0,950 = P{- 1,96 < t < +1,96 } 0,990 = P{- 2,57 < t < + 2,57 }

Test di significatività Se testiamo un’ipotesi su un campione, quanto la risposta che diamo a questa ipotesi è “vera” anche nella popolazione?