Analisi delle osservazioni

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Advertisements

INTERPOLAZIONE MOD.10 CAP.1
Come organizzare i dati per un'analisi statistica al computer?
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
STATISTICA DESCRITTIVA
Variabili casuali a più dimensioni
La regressione lineare trivariata
Descrizione dei dati Metodi di descrizione dei dati
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
STATISTICA DESCRITTIVA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
La logica della regressione
L’analisi Bivariata Studia la relazione fra coppie di variabili.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 6: la funzione c2
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Statistica con Excel Procedure utili per l’analisi dati ottenute col foglio elettronico. Giovanni Raho 11/04/2011 Edizione 2011 prog. Giocìvanni Raho.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Analisi delle corrispondenze
Misurazione Le osservazioni si esprimono in forma di misurazioni
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
La ricerca delle relazioni tra fenomeni
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
COVARIANZA e CORRELAZIONE.
Interpolazione e regressione
Regressione e correlazione
STATISTICA La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi (descritti attraverso formule.
La regressione come strumento di sintesi delle relazioni tra variabili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Il residuo nella predizione
1 “Metodi per la Ricerca Sociale e Organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università degli Studi di Milano-Bicocca.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
ECONOMIA POLITICA E-I ESERCITAZIONI. 2 Richiami di matematica – Funzioni Funzioni FUNZIONE: ogni regola matematica che permette di calcolare il valore.
Esercizio 1. Quesiti esercizio 1 Distribuzione congiunta: dalla definizione di distribuzione condizionale.
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
I GRAFICI – INPUT 1.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
RAPPRESENTAZIONE DATI LA RAPPRESENTAZIONE PUÒ ESSERE UTILIZZATA A SCOPO DI ANALISI, INTERPRETAZIONI E COMUNICAZIONI. PER RAGGIUNGERE QUESTI OBIETTIVI È.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Gli Indici di VARIABILITA’
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

Analisi delle osservazioni II parte Lezioni di Fondamenti e metodi per l’analisi empirica nelle scienze sociali

Descrizione e spiegazione Analisi statistica monovariata (misure di sintesi e misure di dispersione) Modelli probabilistici Distribuzioni note di probabilità (uniforme, normale, ecc.) Analisi bivariata Analisi multivariata Relazione tra due o più fenomeni sociali g.fanci@unimc.it A.A. 2015 - 2016

Analisi delle osservazioni Caratteristiche logico-matematiche Procedura Analisi Informazioni Dati g.fanci@unimc.it A.A. 2015 - 2016

Operazione di traduzione del materiale empirico grezzo in matrice dati Descrizione Matrice casi per variabili: l’unità di analisi deve essere sempre la stessa su tutti i casi deve essere rilevata la stessa informazione Codifica Operazione di traduzione del materiale empirico grezzo in matrice dati g.fanci@unimc.it A.A. 2015 - 2016

Esempio matrice dati o casi per variabili g.fanci@unimc.it A.A. 2015 - 2016

Numero dei casi che presentano quel valore (Valore assoluto) (segue) Distribuzione di frequenza = una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si presenta nei casi analizzati (Marradi, 1999) Assolute Relative Frequenze Numero dei casi che presentano quel valore (Valore assoluto) Rapporto dei casi al totale del campione (percentuale per comparazione) g.fanci@unimc.it A.A. 2015 - 2016

Esempio g.fanci@unimc.it A.A. 2015 - 2016

Misure di sintesi Moda, Mediana e Media Analisi monovariata g.fanci@unimc.it A.A. 2015 - 2016

Misure di sintesi e variabili Ogni variabile ha la sua misura di sintesi = BARICENTRO dei suoi valori. MODA: modalità che si presenta con maggior frequenza; variabili nominali; MEDIANA: modalità del caso che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo quella variabile; variabili ordinali; N dispari = N+1/2; N pari = N/2 e N/2 + 1; MEDIA: somma dei valori assunta dalla variabile su tutti i casi divisa per il numero di casi; variabili cardinali. g.fanci@unimc.it A.A. 2015 - 2016

Rappresentazioni grafiche delle distribuzioni Nominali Diagrammi a barre Diagrammi di composizione Cardinali Istogramma Poligono di frequenza g.fanci@unimc.it A.A. 2015 - 2016

Per le variabili nominali g.fanci@unimc.it A.A. 2015 - 2016

Per le variabili cardinali Istogramma g.fanci@unimc.it A.A. 2015 - 2016

(segue) Poligono di frequenza g.fanci@unimc.it A.A. 2015 - 2016

Relazioni tra variabili Si osserva una covariazione tra due fenomeni, ossia che variano insieme; es.: al variare del titolo di studio varia il reddito. Due considerazioni: Si tratta di relazioni statistiche, ossia di tipo probabilistico: è più probabile che un individuo con laurea guadagni di più, ma possono esserci eccezioni; La ricerca consente di osservare la covariazione, ma la interpretazione causale spetta al ricercatore: “covariazione non significa causazione”. g.fanci@unimc.it A.A. 2015 - 2016

Dipendente / Indipendente Variabile dipendente Variabile indipendente classe sociale /orientamento politico; educazione /pregiudizio razziale; età / atteggiamento religioso g.fanci@unimc.it A.A. 2015 - 2016

Tecniche di analisi bivariata In linea generale parliamo di RELAZIONE (o covariazione). Più precisamente: se la relazione è tra variabili nominali parliamo di associazione; se la relazione è tra variabili ordinali parliamo di cograduazione; se la relazione è fra variabili cardinali parliamo di correlazione; Variabile indipendente V. Dipendente Nominale Cardinale Tavole di contingenza Analisi della varianza Regressione e Correlazione g.fanci@unimc.it A.A. 2015 - 2016

Tavole di contingenza: associazione Occorre innanzitutto osservare congiuntamente le due distribuzioni di frequenza Ossia bisogna organizzare le osservazioni in una tabella a doppia entrata (o tavola di contingenza) in grado di mostrare congiuntamente le modalità delle due variabili. g.fanci@unimc.it A.A. 2015 - 2016

W X Basso w1 Medio w2 Alto w3 somma S Femmina x1 4 (n1,1) 3 (n1,2) Esempio tavola di contingenza (contingent in inglese significa “condizionata” ) W = gradimento (dipendente); X = genere (indipendente) W X Basso w1 Medio w2 Alto w3 somma S Femmina x1 4 (n1,1) 3 (n1,2) 4 (n1,3) 11 n1. Maschio x2 (n2,1) 2 (n2,2) (n2,3) 9 n2. 8 n.1 5 n.2 7 n.3 20 N g.fanci@unimc.it A.A. 2015 - 2016

Riflessioni sulla tabella Distribuzione congiunta di X e di W: frequenze congiunte assolute N con doppio pedice; Distribuzione marginale di X: la prima e l’ultima colonna eliminando l’effetto di W; Distribuzione marginale di W: la prima e l’ultima riga eliminando l’effetto di X; Percentuali di riga; Percentuali di colonna. g.fanci@unimc.it A.A. 2015 - 2016

Esempio: Pratica religiosa per età (Corbetta, 1999, Fonte Itanes, 1996) g.fanci@unimc.it A.A. 2015 - 2016

Come scegliere la percentuale? Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile posta in riga; Si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile posta in colonna Si definisce qual è la variabile indipendente e si percentualizza all’interno della sua modalità. g.fanci@unimc.it A.A. 2015 - 2016

Regressione: correlazione Se la relazione interessa due variabili cardinali parliamo di correlazione e ci serviamo della retta di regressione come modello matematico. Rappresentazione grafica: piano cartesiano: Sulla retta orizzontale – chiamata delle ascisse – si pone, per convenzione, la variabile che si assume essere indipendente, talvolta detta esplicativa; Sulla retta verticale – chiamata delle ordinate – si pone, per convenzione, la variabile che si assume essere dipendente. g.fanci@unimc.it A.A. 2015 - 2016

0 = punto di origine P è la mia osservazione che presenta stato 5 per la variabile che assumo essere indipendente e 7 per la variabile che assumo essere dipendente g.fanci@unimc.it A.A. 2015 - 2016

Grafico di dispersione g.fanci@unimc.it A.A. 2015 - 2016

Retta regressione (segue) g.fanci@unimc.it A.A. 2015 - 2016

Diagrammi dispersione La scelta del modello matematico appropriato è suggerita dal modo in cui si distribuiscono i valori delle due variabili nel diagramma di dispersione g.fanci@unimc.it A.A. 2015 - 2016

Relazione lineare bivariata “Regrediamo” Y rispetto ad X Regressione bivariata, in termini algebrici Y = a + bX Dove a indica una costante, punto in cui la retta “intercetta” o incrocia l’asse verticale; b indica il coefficiente di regressione, ossia l’inclinazione della retta; Si dice che la retta interpola, meglio di altre forme, i punti (le osservazioni) e sintetizza la nuvola. g.fanci@unimc.it A.A. 2015 - 2016

Equazione predittiva Predire Y da X Posso conoscere la variazione di Y se, come e quando varia X Valore assunto da Y per ciascuna osservazione i è funzione lineare esatta del corrispondente valore di X Ŷi = a + byx Xi g.fanci@unimc.it A.A. 2015 - 2016

Modello di regressione lineare La difficoltà maggiore è quella di non riuscire a rappresentare relazioni bivariate con una retta perfettamente interpolante. occorre stimare le deviazioni dalla predizione lineare Yi = a + byx Xi + ei Dove ei rappresenta la porzione di valore di Y per l’osservazione i che non è predetta dalla sua relazione lineare con X. g.fanci@unimc.it A.A. 2015 - 2016

e1 Y X Valore osservato i-esimo Valore medio della distribuzione Valore predetto i-esimo Errore i-esimo A.A. 2015 - 2016 g.fanci@unimc.it

Y e1 X e1 10 – 12 = (10 – 5) + (5 – 12) A.A. 2015 - 2016 g.fanci@unimc.it

Y – Ŷ = [a + byx Xi + ei ] – [a + byx Xi ] = ei Errore o residuo Si chiama residuo per indicare lo scarto fra il valore atteso o predetto dall’equazione di regressione e il valore effettivamente osservato Y – Ŷ = e Y – Ŷ = [a + byx Xi + ei ] – [a + byx Xi ] = ei g.fanci@unimc.it A.A. 2015 - 2016

Stima della equazione di regressione stimare valori dei due coefficienti con le osservazioni le stime di a e bxy devono minimizzare gli errori, “fare sì che gli errori di predizione prodotti da quella equazione siano minori di quelli prodotti da qualsiasi relazione lineare” (Knoke) I due coefficienti devono soddisfare il criterio dei minimi quadrati: “la migliore retta sia quella che rende minima la somma delle differenze al quadrato tra i valori di yi realmente osservati e i corrispondenti valori che la retta stessa fornisce per i diversi valori di xi osservati” g.fanci@unimc.it A.A. 2015 - 2016

Retta detta anche dei minimi quadrati La somma dei residui è sempre = 0, se la elevo al quadrato il valore sarà sempre positivo “Sommando le differenze al quadrato fra ogni valore osservato di Yi e il corrispondente valore Ŷi predetto dall’equazione di regressione prescelta si dovrebbe ottenere una quantità minore di quella che si otterrebbe utilizzando qualsiasi altra equazione di regressione lineare” (Knoke) g.fanci@unimc.it A.A. 2015 - 2016

Devianza spiegata e devianza non spiegata g.fanci@unimc.it A.A. 2015 - 2016

Coefficiente ρ di Bravais Pearson Il coefficiente di correlazione lineare ρ misura l’intensità del legame lineare (interpretabile graficamente da una retta) tra due variabili cardinali X e Y, ovvero il grado di proporzionalità esistente tra X e Y. Si calcola come rapporto tra covarianza tra X e Y e il rapporto degli scarti quadratici medi: ρxy = covxy σx σy ρ = + 1, correlazione perfetta positiva ρ = - 1 , correlazione perfetta negativa g.fanci@unimc.it A.A. 2015 - 2016

Esempi grafici di dispersione g.fanci@unimc.it A.A. 2015 - 2016

(segue) g.fanci@unimc.it A.A. 2015 - 2016

(segue) g.fanci@unimc.it A.A. 2015 - 2016

Coefficiente di determinazione Corrisponde a ρ di Pearson al quadrato, fornisce la stima della varianza spiegata di una variabile da parte dell’altra. ρ2 = σ x y 2 σ x 2 σ y 2 0 > ρ2 > 1 È una misura della capacità della retta di regressione di rappresentare la nube di punti del diagramma di dispersione. Quanto più i punti sono lontani dalla retta tanto più ρ2 tende a 0; più sono vicini più si approssima a 1. ρ2 = 0, la retta non è la rappresentazione migliore, forse la relazione c’è ma è più adeguata un’altra figura. g.fanci@unimc.it A.A. 2015 - 2016

(segue) g.fanci@unimc.it A.A. 2015 - 2016