Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Il chi quadro indica la misura in cui le
Variabili casuali a più dimensioni
Analisi dei dati per i disegni ad un fattore
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Analisi della varianza (a una via)
L’analisi Bivariata Studia la relazione fra coppie di variabili.
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 7-2: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
di cosa si occupa la statistica inferenziale?
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Il test di ipotesi Cuore della statistica inferenziale!
Regressione Logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Corso di POPOLAZIONE TERRITORIO E SOCIETA’ 1 AA
Le distribuzioni campionarie
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Analisi Bivariata: Test Statistici
Esercizi riepilogativi Analisi Univariata e Bivariata
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Strumenti statistici in Excell
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
“Teoria e metodi della ricerca sociale e organizzativa”
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
Correlazione e regressione lineare
La covarianza.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Statistica descrittiva bivariata
Statistica descrittiva bivariata
Transcript della presentazione:

Metodi Quantitativi per Economia, Finanza e Management Lezione n°7

Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) var. quantitative: analisi di correlazione lineare una var. qualitativa e una quantitativa: confronto tra le medie

Correlazione lineare Le misure di connessione possono essere applicate a variabili qualitative. Se si vuole misurare il grado di concordanza tra due variabili quantitative occorre utilizzare altri indici: –Covarianza Cov(X,Y) è un indice che assume valori positivi se vi è concordanza tra X e Y (a modalità elevate delluna, corrispondono modalità elevate dellaltra); assume valori negativi nel caso di discordanza (a modalità elevate delluna non corrispondono modalità elevate dellaltra). Nel caso di indipendenza statistica, la covarianza assumerà valore nullo. È un indice assoluto, ovvero segnala la presenza e la direzione di un legame tra due variabili, ma nulla si può dire sul grado del loro legame. Cov(X,Y)= Σ Σ (x i -μ x ) (y j - μ y ) p(x i,y j )

Covarianza tra due variabili: Cov(x,y) > 0 x e y tendono a muoversi nella stessa direzione Cov(x,y) < 0 x e y tendono a muoversi in direzioni opposte Cov(x,y) = 0 x e y no relazione lineare –Riguarda solo la forza della relazione, ma non implica un effetto causale Correlazione lineare

–Coefficiente di correlazione lineare ρ(X,Y) è un indice relativo che ovvia al problema del precedente indice. Assume valori compresi tra -1 e 1. In particolare vale 1 se e solo se Y è funzione lineare di X (e viceversa) e in questo caso i punti corrispondenti alle osservazioni sono disposti su una retta con inclinazione positiva. Analogamente lindice assume valore -1 nel caso in cui i punti siano disposti su una retta con inclinazione negativa. Assume valore nullo se tra le variabili non è presente alcun tipo di relazione lineare (indipendenti in correlazione). Correlazione lineare

Coefficiente di correlazione lineare ρ(X,Y) : ρ = 0 non cè relazione lineare tra X e Y ρ > 0 relazione lineare positiva tra X e Y »quando X assume valori alti (bassi) allora anche Y probabilmente assume valori alti (bassi) »ρ = +1 => dipendenza lineare perfetta positiva ρ < 0 relazione lineare negativa tra X e Y »quando X assume valori alti (bassi) allora Y probabilmente assume valori bassi (alti) »ρ = -1 => dipendenza lineare perfetta negativa Correlazione lineare

Senza unità di misura Campo di variazione fra –1 e 1 Quanto più è vicino a –1, tanto più è forte la relazione lineare negativa Quanto più è vicino a 1, tanto più è forte la relazione lineare positiva Quanto più è vicino a 0, tanto più è debole la relazione lineare Correlazione lineare

Y X Y X Y X Y X Y X r = -1 r = -0.6r = 0 r = +0.3 r = +1 Y X r = 0 Correlazione lineare

Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) var. quantitative: analisi di correlazione lineare una var. qualitativa e una quantitativa: confronto tra le medie

Confronto tra le medie Per misurazione della connessione tra una variabile quantitativa Y e una qualitativa X, è possibile confrontare le distribuzioni condizionate di Y tramite le medie condizionate.

Confronto tra le medie Se si vuole incrociare una variabile quantitativa con una variabile qualitativa, la loro relazione può essere descritta confrontando le medie della variabile numerica allinterno delle categorie definite dalla variabile misurata a livello nominale/ordinale. Rapidità Tipo cliente MediaN Persone fisiche Aziende Totale

Un indice sintetico dellintensità della relazione si basa sulla scomposizione della varianza per la variabile quantitativa Y, di cui viene studiata la dipendenza nei confronti della variabile categorica X. La variabilità totale di Y è SQT y =SQ tra + SQ nei dove SQT y (somma dei quadrati tot) è la variabilità totale, SQ tra variabilità tra i gruppi (somma dei quadr. tra i gruppi) esprime quanta variabilità di Y può essere legata al variare delle categorie di X, SQ nei variabilità interna ai gruppi (somma dei quadr. nei gruppi) esprime la variabilità nellandamento di Y indipendente da X. Confronto tra le medie

E quindi possibile definire un indice relativo per misurare la dipendenza in media, come η 2 = SQ tra /SQT y =1-(SQ nei /SQT y ) Per linterpretazione del valore assunto da η 2 si consideri che: η 2 = 0 indipendenza in media η 2 > 0 dipendenza in media η 2 = 1 massima dipendenza in media η 2 è sempre compreso tra 0 e 1.

Confronto tra le medie In caso di indipendenza in media le medie dei diversi gruppi (medie condizionate ai diversi livelli della variabile qualitativa) saranno tutte uguali tra loro e quindi la variabilità tra i gruppi sarà nulla. Viceversa qualora ad ogni livello della variabile qualitativa sia associato un unico valore della variabile quantitativa, si parlerà di massima dipendenza in media e si avrà variabilità interna ai gruppi nulla. Per misurare lintensità della dipendenza in media si può utilizzare lindice η 2. Modesta dipendenza in media della produzione artigianale dalletà

Test per lo studio dellassociazione tra variabili Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali Hp sono parametriche se riguardano il valore di uno ò più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. Obiettivo dei test: come decidere se accettare o rifiutare unipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: H 0 e H 1, di cui la prima è lipotesi nulla, la seconda lipotesi alternativa la quale rappresenta, di fatto, lipotesi che il ricercatore sta cercando di dimostrare.

Cosa è unipotesi? Unipotesi è una affermazione (assunzione) circa il parametro della popolazione: –media della popolazione Lipotesi Nulla, H 0 rappresenta lipotesi che deve essere verificata, lIpotesi Alternativa, H 1 è generalmente lipotesi che il ricercatore stà cercando di dimostrare Esempio: In questa città, il costo medio della bolletta mensile per il cellulare è μ = $42 Test per lo studio dellassociazione tra variabili

Si può incorrere in due tipologie di errore: Stato di Natura Decisione Non Rifiutare H 0 No errore Errore Secondo Tipo Rifiutare H 0 Errore Primo Tipo Possibili Risultati Verifica di Ipotesi H 0 Falsa H 0 Vera No Errore

Errore di Primo Tipo –Rifiutare unipotesi nulla vera –Considerato un tipo di errore molto serio La probabilità dellerrore di primo tipo è Chiamato livello si significatività del test Fissato a priori dal ricercatore Test per lo studio dellassociazione tra variabili

Errore di Secondo Tipo –Non rifiutare unipotesi nulla falsa La probabilità dellerrore di secondo tipo è β Test per lo studio dellassociazione tra variabili

Stato di Natura Decisione Non Rifiutare H 0 No errore (1 - ) Errore Secondo Tipo ( β ) Rifiutare H 0 Errore Primo Tipo ( ) Possibili Risultati Verifica di Ipotesi H 0 Falsa H 0 Vera Legenda: Risultato (Probabilità) No Errore ( 1 - β ) Test per lo studio dellassociazione tra variabili

Errore di primo tipo ed errore di secondo tipo non si posso verificare contemporanemente Errore di primo tipo può occorrere solo se H 0 è vera Errore di secondo tipo può occorrere solo se H 0 è falsa Se la probabilità dellerrore di primo tipo ( ), allora la probabilità dellerrore di secondo tipo ( β ) Test per lo studio dellassociazione tra variabili

Lettura di un test statistico (1) Esempio: 1) Ipotesi b1= b2 =....=bk = 0H0:H0: H1:H1: bi = 0 2) Statistica test Statistica F 3) p-value Rappresenta la probabilità di commettere lerrore di prima specie. Può essere interpretato come la probabilità che H 0 sia vera in base al valore osservato della statistica test

Il p-value: - è la probabilità che H 0 sia vera in base al valore osservato della statistica test - è anche chiamato livello di significatività osservato - è il più piccolo valore di per il quale H 0 può essere rifiutata Lettura di un test statistico (2)

Lettura di un test statistico (3) Se p-value piccolo ( < α ) RIFIUTO H 0 Altrimenti ( >= α ) ACCETTO H 0 Regola di Decisione: confrontare il p-value con

Test χ² per lindipendenza statistica Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H 0 :indipendenza statistica tra X e Y H 1 : dipendenza statistica tra X e Y La regione di rifiuto cade nella coda di destra della distribuzione Regione di rifiuto La regione di rifiuto è caratterizzata da valori relativamente elevati di χ²; se il livello di significatività è al 5%, si rifiuta per χ²> χ² 0.95

Test χ² per lindipendenza statistica

Sesso Mano dominante SinistraDestra Femmina Maschio Test χ² per lindipendenza statistica Esempio H 0 : assenza di associazione tra mano dominante e sesso (indipendenza statistica ) H 1 : mano dominante non è independente dal sesso (dipendenza statistica ) Se non cè associazione, allora P(Mancino | Femmina) = P(Mancino | Maschio) =P(Mancino)= 36/300= 0.12 Quindi ci aspetteremmo che Il 12% delle 120 femmine e Il 12% dei 180 maschi siano mancini…

Se H 0 è vera, allora la proporzione di donne mancine dovrebbe coincidere con la proporzione di uomini mancini Le due proporzioni precedenti dovrebbero coincidere con la proporzione generale di gente mancina Test χ² per lindipendenza statistica Esempio Sesso Mano dominante SinistraDestra Femmina Osservate = 12 Attese = 14.4 Osservate = 108 Attese = Maschio Osservate = 24 Attese = 21.6 Osservate = 156 Attese =

dove: O ij = frequenza osservate nella cella (i, j) E ij = frequenza attesa nella cella (i, j) r = numero di righe c = numero di colonne La statistica test chi-quadrato è: p-value = 0.32 > 0.05, quindi accettiamo H 0 e concludiamo che sesso e mano dominante non sono associate Test χ² per lindipendenza statistica Esempio Regola di Decisione: confrontare il p-value con

Test t per lindipendenza lineare Questo test verifica lipotesi di indipendenza lineare tra due variabili, partendo dallindice di correlazione lineare ρ. Si ha: H 0 : indipendenza lineare tra X e Y (ρ popolaz =0) H 1 : dipendenza lineare tra X e Y (ρ popolaz 0) La statistica test è distribuita come una t di Student con n-2 gradi di libertà, e tende a crescere allaumentare dellampiezza campionaria t= ρ (n-2)/ (1- ρ²)

Regione di rifiuto La regione di rifiuto è caratterizzata da valori relativamente elevati di t in modulo; se il livello di significatività è al 5%, si rifiuta per |t| >t 0,975 Test t per lindipendenza lineare

Test F per la verifica di ipotesi sulla differenza tra medie Si prende in considerazione la scomposizione della varianza; qui H 0 : le medie sono tutte uguali tra loro H 1 : esistono almeno due medie diverse tra loro La statistica test da utilizzare, sotto lipotesi H 0, si distribuisce come una F di Fisher con (c-1,n-1) gradi di libertà. Tende a crescere allaumentare della varianza tra medie e al diminuire della variabilità interna alle categorie. Cresce inoltre allaumentare dellampiezza campionaria.

La regione di rifiuto cade nella coda di destra della distribuzione, cioè è caratterizzata da valori relativamente elevati di F; se il livello di significatività è 5%, si rifiuta per F> F 0, Regione di rifiuto Test F per la verifica di ipotesi sulla differenza tra medie