“Teoria e metodi della ricerca sociale e organizzativa”

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

INTERPOLAZIONE MOD.10 CAP.1
Le distribuzioni di probabilità continue
Titolo Insiemi di livello e vettori. titolo Insiemi di livello e vettori.
Come organizzare i dati per un'analisi statistica al computer?
____________________
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
Intervalli di confidenza
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.
COORDINATE POLARI Sia P ha coordinate cartesiane
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
“Teoria e metodi della ricerca sociale e organizzativa”
Lez. 3 - Gli Indici di VARIABILITA’
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
(se a = 0 l’equazione bx + c = 0 è di primo grado)
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
ANALISI DELLA COVARIANZA
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Varianza campionaria Errore standard della varianza campionaria
Obiettivi del corso di Statistica Medica.
DIFFERENZA TRA LE MEDIE
Analisi della varianza (a una via)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 6 Inferenza statistica
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
Verifica delle ipotesi su due campioni di osservazioni
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
Principali analisi statistiche
La ricerca delle relazioni tra fenomeni
Un trucchetto di Moltiplicazione per il calcolo mentale
LA CIRCONFERENZA.
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Strumenti statistici in Excell
Il residuo nella predizione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
1 “Metodi per la Ricerca Sociale e Organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università degli Studi di Milano-Bicocca.
“Teoria e metodi della ricerca sociale e organizzativa”
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
Test dell’ ANOVA L EZIONI III PARTE F ONDAMENTI E METODI PER L ’ ANALISI EMPIRICA NELLE SCIENZE SOCIALI A. A
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

“Teoria e metodi della ricerca sociale e organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti

Applicazioni di analisi bivariata su variabili cardinali

Diagramma di dispersione tra voto maturità e reddito Per rappresentare graficamente la relazione tra due variabili cardinali si utilizza solitamente il piano cartesiano dove i valori assunti sulle due variabili costituiscono le coordinate dei punti. Soggetto con reddito=1000 e voto=52.

Ci dice se al variare di una variabile anche l’altra varia. COVARIANZA La covarianza è una misura della covariazione di due variabili cardinali. Ci dice se al variare di una variabile anche l’altra varia. Varianza di Y Varianza di X

La covarianza è una misura simmetrica. La covarianza appartiene all’insieme dei numeri reali (-infinito, +infinito). Se due variabili sono tra loro indipendenti la covarianza è nulla ! .

Covarianza tra voto di maturità e voto laurea X Y prodotti 48 98 -6 36 53 105 -1 1 54 100 -4 55 107 3 60 110 6 74 La covarianza è uguale a 74/5 = +14,8

Covarianza tra voto di maturità e voto laurea

Covarianza tra voto di maturità e voto laurea

La covarianza è uguale a -109,8/5 = - 22 Covarianza tra età e n. amici incontrati settimanalmente X Y prodotti 16 10 -12,8 5,8 -74,2 25 3 -3,8 -1,2 4,6 27 4 -1,8 -0,2 0,4 35 2 6,2 -2,2 -13,6 41 12,2 -26,8 -109,8 La covarianza è uguale a -109,8/5 = - 22

La covarianza è uguale a -1,6/5 = -0,3 Covarianza tra Q.I. e giorno di nascita X Y prodotti 80 15 -17,2 -1,6 27,5 85 11 -12,2 -5,6 68,3 93 30 -4,2 13,4 -56,3 107 9 9,8 -7,6 -74,5 121 18 23,8 1,4 33,3 La covarianza è uguale a -1,6/5 = -0,3

Covarianza tra Q.I. e giorno di nascita

Covarianza tra Q.I. e giorno di nascita circa zero

La regressione lineare bivariata e la correlazione

Y X Y 1 4 2 3,5 5 4.5 3,4 4,5 6 6,2 7 6,5 X Lo scopo della regressione è tradurre la relazione tra X e Y in forma di un’equazione lineare del tipo: Dove, ad ogni incremento di una unità di X, corrisponde un aumento di Y equivalente a b

Y e1 X La stima di a e b si ottiene attraverso il metodo dei minimi quadrati (OLS – Ordinary Least Squares), in cui viene minimizzato l’errore tra la Y osservata e l’Y predetta. MIN

I parametri a e b dell’equazione che minimizzano l’errore vengono calcolati attraverso la soluzione delle derivate prime parziali (due incognite per due equazioni). MIN

Attraverso il metodo dei minimi quadrati troviamo l’equazione di regressione tra Y e X, stimando a e b della retta: Equazione predittiva Equazione di regressione

B (o beta) è detto COEFFICIENTE DI REGRESSIONE, e indica, per ogni incremento di una unità di X, quanto aumenta Y

e1 Y X Valore osservato i-esimo Valore medio della distribuzione Valore predetto i-esimo Errore i-esimo

Y e1 X e1 10 – 12 = (10 – 5) + (5 – 12)

Scomposizione della somma dei quadrati Elevando al quadrato e sommando tutti gli scarti si arriva alla: Scomposizione della somma dei quadrati In una regressione è possibile scomporre la variazione in una parte “spiegata” dalla variabile indipendente (o dalla regressione) ed un parte residua (o errore)

Coefficiente di determinazione R2 varia tra 0 ed 1 ed è massimo quando l’errore di predizione è nullo, ed è 0 quando Y ed X sono completamente indipendenti tra loro. Esprime la forza di predizione di X su Y.

Coefficiente di determinazione R2 non è altro che il rapporto tra la covarianza tra X e Y, ed il prodotto delle varianze delle due variabili. Vedi

Coefficiente di correlazione lineare di Pearson r varia tra -1 ed 1 , e quindi informa sul segno della relazione tra X e Y. Esso è simmetrico, nel senso che invertendo X con Y troviamo lo stesso r.

Relazione tra correlazione e regressione

ESEMPIO DI REGRESSIONE X Y 1 4 2 3,5 5 4.5 3,4 4,5 6 6,2 7 6,5

Variabili standardizzate: quando le variabili vengono standardizzate (sottratte della media e divise della dev.std.), annulliamo l’effetto di scala e possiamo confrontare i coefficienti in termini “standard”. Equazione predittiva

Variabili standardizzate: In tal caso e solo in tal caso, in una regressione bivariata, il coefficiente di regressione è uguale al coefficiente di correlazione. Equazione predittiva Covarianza tra Zx e ZY

STIMA DEI PARAMETRI DI REGRESSIONE Affinché si possano inferire le stime di regressione alla popolazione di riferimento di un campione devono essere rispettati due assunti: La popolazione Y è distribuita normalmente per ogni valore di X. Le varianze degli errori di predizione sono identiche per ogni valore di X (omoschedasticità)

1) La popolazione Y è distribuita normalmente per ogni valore di X. Se non è rispettato l’assunto: le stime puntuali non sono corrette.

2) Le varianze degli errori di predizione sono identiche per ogni valore di X (omoschedasticità) Y Situazione di eteroschedasticità X Se non è rispettato l’assunto: le stime puntuali sono corrette, ma gli I.C. potrebbero risultare distorti.

PARAMETRI DELLA POPOLAZIONE STIME DEI PARAMETRI

Correlazione Coeff.regressione Varianza Dev.standard Covarianza CAMPIONE POPOLAZIONE Correlazione Coeff.regressione Varianza Dev.standard Covarianza

Applicazioni di analisi bivariata tra una variabile cardinale ed una nominale

L’analisi della varianza ANOVA (ANalysis Of Variance) Quando poniamo in relazione due variabili, una nominale e l’altra cardinale possiamo utilizzare l’analisi della varianza.

In quale area geografica ci sono più figli presenti nel nucleo familiare? Modalità K=5

Rappresentazione grafica della relazione.

Rappresentazione in tabella della relazione. MEDIA GENERALE

Come è possibile inferire se le differenze nelle medie tra i gruppi sono “vere” anche nella popolazione ?

SCOMPOSIZIONE DELLA VARIANZA Lo scarto tra il singolo valore osservato e la media generale può essere visto come la somma di due entità: 1) lo scarto con il valore dalla media del gruppo, 2) lo scarto di quest’ultima dalla media generale Caso i del gruppo k Media gruppo k Media generale

SCOMPOSIZIONE DELLA VARIANZA Somma totale degli scarti Somma interna degli scarti Somma esterna degli scarti Parte non spiegata dai gruppi !!! Parte spiegata dai gruppi !!!

SCOMPOSIZIONE DELLA VARIANZA Somma totale degli scarti Somma interna degli scarti Somma esterna degli scarti Total Within Between Se le differenze tra i gruppi sono massime, la relazione tra le variabili è perfetta, le medie di gruppo Yk spiegano tutta la varianza complessiva e la varianza interna (o residua) è uguale a zero. Se non ci sono differenze tra i gruppi, le medie di gruppo non spiegano nulla. La varianza complessiva è uguale alla varianza interna (o residua).

Varianza residua, non spiegata dai gruppi !!! Per stimare la varianza nella popolazione occorre tenere presente i gradi di libertà dei diversi elementi: Gradi di libertà totali Gradi di libertà interni Gradi di libertà esterni Stima Varianza totale = Stima Varianza “intra” + Stima Varianza “tra” Varianza residua, non spiegata dai gruppi !!! Varianza spiegata dai gruppi !!!

RAPPORTO F F = Il rapporto F ha una distribuzione casuale nota, Stima Varianza “fra” Stima Varianza “intra” Il rapporto F ha una distribuzione casuale nota, detta F di Snedecor. E’ possibile applicare un test di significatività statistica. F molto piccolo significa che i gruppi non fanno differenza (ossia non spiegano nulla dell’eterogeneità della variabile cardinale). Le due variabili sono tra loro indipendenti. Maggiore è F, maggiore è la “spiegazione” apportata dai gruppi, maggiore è la relazione tra le due variabili.

Stima Varianza “intra” F di Snedecor F = Stima Varianza “fra” Stima Varianza “intra” Gradi di libertà: K=3 N=120 1 2 3 4 5

Alcuni valori critici della F di Snedecor gdl “fra” = K-1 gdl “fra” = K-1 1 2 3 4 10 4,96 4,10 3,71 3,48 120 3,92 3,07 2,68 2,45 3,85 3,00 2,61 2,38 1 2 3 4 10 10,04 7,56 6,55 5,99 120 6,85 4,79 3,95 3,48 6,65 4,62 3,79 3,33 gdl “intra” N-K

In quale area geografica ci sono più figli presenti nel nucleo familiare?

F osservato = 396,4 Valore critico di Falfa=0,05 =2,38 Dato che il valore osservato ricade nell’area a destra della soglia critica rifiuto H0. La relazione è statisticamente significativa allo 0,05. Con numerosità elevate il test ha quasi sempre esito positivo !!!

Come misura della forza della relazione tra la variabile cardinale e la variabile nominale viene usata la misura ETA-QUADRO. Eta2 varia tra 0 ed 1 ed è interpretabile come il coefficiente di determinazione R2.