Principali analisi statistiche

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Le distribuzioni di probabilità continue
SCALA INTERVALLO / A RAPPORTO
Come organizzare i dati per un'analisi statistica al computer?
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
COORDINATE POLARI Sia P ha coordinate cartesiane
Frontespizio Economia Monetaria Anno Accademico
La scelta del paniere preferito
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
“Teoria e metodi della ricerca sociale e organizzativa”
“Teoria e metodi della ricerca sociale e organizzativa”
1 Tavolo del Patto per la crescita intelligente, sostenibile e inclusiva Il ricorso agli ammortizzatori sociali nei territori colpiti dagli eventi sismici.
Lez. 3 - Gli Indici di VARIABILITA’
La regressione lineare trivariata
ANALISI DELLA COVARIANZA
Teoria della Finanza Aziendale
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Analisi Bivariata e Test Statistici
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Analisi della varianza (a una via)
La logica della regressione
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Realizzazione e caratterizzazione di una semplice rete neurale per la separazione di due campioni di eventi Vincenzo Izzo.
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
Modelli del colore 2 Daniele Marini.
19 Lezione 21/5/04 Composizione dell'immagine 1 COMPOSIZIONE DELLIMMAGINE.
Confronto fra 2 popolazioni
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
Principali analisi statistiche
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
1101 = x 10 x 10 x x 10 x = CORRISPONDENZE
Introduzione alla Regressione Lineare e alla Correlazione.
COVARIANZA e CORRELAZIONE.
Bando di Residenza Cap Scheda ENTE 3ROL - Richieste On Line.
Regressione e correlazione
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Strumenti statistici in Excell
Il residuo nella predizione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Correlazione e regressione lineare
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

Principali analisi statistiche 1. Confronto fra medie (2 o piú campioni) Voto Variabile continua in funzione di una categorica (es. voto più alto M vs. F) M F 2. Correlazione e regressione Relazione fra due variabile continue (es. il voto medio dipende dal consumo di birre?) Voto Birre 3. Analisi di tabelle di contigenza Birre SÌ NO Conteggi con due o più variabili categoriche (es. essere astemi dipende dal genere?) M F

Correlazione e regressione

Unità di campionamento Indice di correlazione Misura la FORZA e la DIREZIONE (+ o -) di una relazione LINEARE fra due variabili continue No specie farfalle No specie piante x1 x2 x3 x4 … xn y1 y2 y3 y4 … yn Unità di campionamento No farfalle No piante

+ − Indici di correlazione L’indice di correlazione varia fra -1 e 1 No farfalle No farfalle No farfalle No piante No piante No piante -1 indica una perfetta relazione lineare positiva -1 indica una perfetta relazione lineare negativa -0 indica che non esiste nessuna relazione lineare

Indice di correlazione Interpretazione dell’indice di correlazione Il valore assoluto della correlazione non dipende dalla pendenza!

Indice di correlazione I 4 plot presentano lo stesso indice di correlazione Indice di correlazione= 0.816

Calcolo dell’indice di correlazione di Pearson (r) Covarianza Prodotto fra le due deviazioni standard Deviazione standard x Deviazione standard y

Esempio di calcolo Cosa concludiamo? r=cov(x,y)/(sxsy)= -0.919 No birre Voto Studente XY 5 20 A 100 4 19 B 76 2 24 C 48 25 D x y S= 2.22 2.94 Σxy= 224 Media= 2.75 22.00 n-1= 3 n= cov(x,y)= -6.0 r=cov(x,y)/(sxsy)= -0.919 Cosa concludiamo?

La relazione non è perfetta... -0.919 Dobbiamo testare se r è diverso da 0 t TEST: Ho: r=0 Ha: r≠0 t critico dipende da alpha e g.d.l. (n-2) Se t calcolato > t critico rifiuto H0 La correlazione -0.919 è significativa?

Tabelle di r critico Esistono tabelle di r critici al variare di g.d.l. (n-2) e alpha

...ma nessuna causa-effetto La correlazione non si usa nel caso in cui si voglia trovare una relazione causa-effetto Le due variabili sono sullo stesso piano

Limitazioni nell’uso della correlazione 1. Si può usare solo con relazioni LINEARI 2. Non va associata a una relazione causa effetto 3. Le due variabili devono essere distribuite normalmente: ad ogni valore di x, y deve seguire una distribuzione normale e viceversa Indici di correlazione non parametrici: Kendall, Spearman...

Indice di Spearman (rs) Lunghezza rango Peso d d2 33 3 51 38 5 59 32 2 49 1 37 4 54 31 50 -1 Indice di Pearson r=0.922 rs=1-[(6*2)/(5^3-5)]=1-12/120=0.9

Indice di Spearman (rs) Valori critici per l’indice di Spearman In funzione di n e alpha Se rs calcolato > valore critico La correlazione è significativa Nell’esempio rs=0.9, n=5

Regressione lineare semplice

Variabile esplicativa Regressione lineare semplice Il modello di regressione descrive la relazione fra una variabile dipendente e una seconda variabile (indipendente) Variabile risposta (dipendente) Il modello di regressione si usa per stimare i valori di una variabile a partire dai valori osservati di un’altra Variabile esplicativa (indipendente)

Regressione lineare semplice La crescita aumenta con la fertilità? Crescita Fertilità Il voto medio cala all’aumentare del consumo di alcool? Voto Alcool

Il modello di regressione Modello di regressione lineare: y= a + bx + ε Errore Δy y Δx Pendenza (b)=Δy/Δx Intercetta (a) x L’intercetta dà il valore di y quando x=0 La pendenza indica la variazione media di y quando x varia di un’unità

NON USARE REGRESSIONE LINEARE Regressione lineare semplice Pendenza POSITIVA Pendenza NULLA + Crescita Crescita Fertilità Fertilità Pendenza NEGATIVA NON USARE REGRESSIONE LINEARE Crescita Crescita Fertilità Fertilità

Regressione lineare semplice Crescita Residui Fertilità a e b sono stimati in modo da ridurre al minimo la somma dei quadrati degli scarti MINIMA

Il modello di regressione: stimare i 2 parametri library(animation) ########################################### ##Slope changing # save the animation in HTML pages ani.options(ani.height = 450, ani.width = 600, outdir = getwd(), title = "Demonstration of Least Squares", description = "We want to find an estimate for the slope in 50 candidate slopes, so we just compute the RSS one by one. ") ani.start() par(mar = c(4, 4, 0.5, 0.1), mgp = c(2, 0.5, 0), tcl = -0.3) least.squares() ani.stop() ############################################ # Intercept changing least.squares(ani.type = "i")

Il modello di regressione: stimare i 2 parametri PENDENZA y= a + bx y Pendenza (b)=Δy/Δx x

Il modello di regressione: stimare i 2 parametri INTERCETTA y= a + bx y Sono le medie di X e Y rispettivamente Intercetta (a) x

Il modello di regressione: errore standard delle stime Misuro l’incertezza nella stima del modello y= a + bx y Residui ≈Deviazione standard dei residui! x

Quanta variabilità spiega il modello? R2 y y x x DEVIANZA TOTALE DEVIANZA REGRESSIONE DEVIANZA RESIDUI

Il modello di regressione: R2 Variabilità SST DEVIANZA TOTALE SSE DEVIANZA RESIDUI

Il modello di regressione: R2 R2 varia fra 0 e 1 y y y x x x R2≈ 1 R2≈ 0.6 R2≈ 0.3

Il modello di regressione Pendenza e R2 non ci dicono se il modello è significativo! La regressione si basa su dati campionari: incertezza nella stima di b

Prima di usare il modello di regressione dobbiamo testare se la pendenza è diversa da 0

Test sulla pendenza (b) Test t Ho: b=0 Ha: b≠0 t critico per g.d.l. n-2 e alpha

Assunzioni della regressione semplice Indipendenza dei casi Linearità della relazione Normalità dei residui Omoschedasticità dei residui Analisi dei residui

Assunzioni regressione (normalità, omoschedasticità) Per ogni valore di x normalità dei residui e uguale varianza Regressione

Assunzioni regressione (normalità, omoschedasticità) Per ogni valore di x normalità dei residui

Assunzioni regressione (normalità, omoschedasticità) Per ogni valore di x uguale varianza Omoschedasticità Eteroschedasticità

Errori comuni 1. Violazione delle assunzioni 2. Estrapolare informazioni oltre il range osservato della x NO!!! y y x x Stima del modello

Errori comuni 3. Usare il modello al di fuori della popolazione di riferimento 1. Raccolgo nuovi valori di x 2. Ottengo valori stimati di y 3. Confronto i valori stimati con i valori osservati Stimo il modello y=a+bx Validare il modello

Errori comuni Dobbiamo validare il modello! Errore di predizione Y osservato Y stimato Confronto i valori stimati con i valori osservati