COVARIANZA e CORRELAZIONE.

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Advertisements

INTERPOLAZIONE MOD.10 CAP.1
Come organizzare i dati per un'analisi statistica al computer?
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
La teoria di portafoglio: cap.7-9
Variabili casuali a più dimensioni
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Lez. 3 - Gli Indici di VARIABILITA’
Residuo = yi – (bxi + a) La linea costruita con il metodo dei minimi quadrati è tale da minimizzare la somma dei quadrati dei residui corrispondenti a.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
VARIABILI DOPPIE: UN ESEMPIO
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Alcune domande agli autori Lo studio affronta un argomento scientifico e/o clinico importante? Lo studio è originale? Lo studio è volto a provare le ipotesi.
Corso di biomatematica lezione 5: propagazione degli errori
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
STATISTICA a.a LA STATISTICA INFERENZIALE
Statistica con Excel Procedure utili per l’analisi dati ottenute col foglio elettronico. Giovanni Raho 11/04/2011 Edizione 2011 prog. Giocìvanni Raho.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Rappresentazione di grafici in carta semilogaritmica
Quale valore dobbiamo assumere come misura di una grandezza?
Regressione Logistica
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
La ricerca delle relazioni tra fenomeni
Associazione tra due variabili
Tutte le grandezze fisiche si dividono in
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Interpolazione e regressione
Simone Mosca & Daniele Zucchini 4Bi.
Regressione e correlazione
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
MATEMATICA pre-test 2014.
La regressione come strumento di sintesi delle relazioni tra variabili
Intervalli di fiducia.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
PROPAGAZIONE DEGLI ERRORI:
La verifica d’ipotesi Docente Dott. Nappo Daniela
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Strumenti statistici in Excell
Il residuo nella predizione
Corso di Laurea in Scienze e Tecniche psicologiche
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
La covarianza.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

COVARIANZA e CORRELAZIONE

REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo dei minimi quadrati.

REGRESSIONE LINEARE

REGRESSIONE LINEARE Primo metodo:

REGRESSIONE LINEARE Se la dipendenza fra le due variabili non è lineare (ad esempio quadratica, esponenziale, logaritmica, etc.), il grafico dei residui rispetto ai valori predetti enfatizzerà questa dipendenza non lineare. Vediamo questo fatto con un esempio.

REGRESSIONE LINEARE

REGRESSIONE LINEARE

REGRESSIONE LINEARE

Secondo metodo: Covarianza In statistica la covarianza è un indice che misura la "contemporaneità" della variazione (in termini lineari) di due variabili casuali. Essa può assumere sia valori positivi che negativi. Nel caso di valori positivi indica che al crescere di una variabile statisticamente cresce anche l'altra, nel caso di valori negativi accade il contrario. Quando due variabili sono tra di loro indipendenti, allora la loro covarianza è nulla (l'inverso non è necessariamente verificato). Si utilizza spesso la notazione: cov(x,y) = sxy, dove essendo mx e my rispettivamente la media aritmetica di x e y.

Covarianza È un operatore simmetrico, cioè A volte la covarianza viene citata mnemonicamente come la media del prodotto degli scarti dalla media. La covarianza può essere scomposta in due termini, diventando: ovvero la media dei prodotti meno il prodotto delle medie. Dividendo la covarianza per il prodotto delle deviazioni standard delle due variabili, si ottiene l‘indice di correlazione di Bravais-Pearson, di utilizzo più comune per misurare la dipendenza lineare tra due variabili:

Coefficiente di correlazione lineare Il coefficiente di correlazione lineare o coefficiente di correlazione tra due variabili aleatorie o due variabili statistiche X e Y è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili: dove sxy , è la covarianza tra X e Y sx , sy sono le due deviazioni standard. Il coefficiente di correlazione è un indice di quanto bene i punti (xi, yi) si adattano ad una retta.

Coefficiente di correlazione lineare Il coefficiente assume valori compresi tra -1 e +1. Se r è vicino a 1, allora i punti giacciono vicino a qualche linea retta (se r è vicino a +1 si parla di correlazione positiva, se r è vicino a -1 si parla di correlazione negativa); se r è vicino a 0, allora i punti non sono correlati (linearmente), con poca o nessuna tendenza a giacere su una linea retta. Nel caso di indipendenza il coefficiente assume valore zero, mentre non vale la conclusione opposta, ovvero dal coefficiente nullo non si può desumere l'indipendenza, cioè la condizione è necessaria, ma non sufficiente per l'indipendenza delle due variabili.

Coefficiente di correlazione lineare Come possiamo decidere oggettivamente se il coefficiente di correlazione ricavato è “ragionevolmente vicino” a 1 ? Possiamo rispondere a questa domanda con il seguente ragionamento. Supponiamo che due variabili x ed y siano in realtà non correlate; al limite per un numero di misure tendente all’infinito il coefficiente di correlazione dovrebbe essere 0. Dopo un numero finito di misure, è molto improbabile che r sia esattamente 0. Si può calcolare la probabilità che r sia più grande di un qualche valore specifico r0. Il calcolo di questa probabilità è piuttosto complesso, ma i risultati per alcuni valori rappresentativi dei parametri sono riportati nella tabella seguente.

Una misura più quantitativa dell’adattamento si può trovare usando la tabella sottostante, che riporta, in funzione di N e ro , la probabilità percentuale che N misure di due variabili non correlate diano un coefficiente di correlazione con valore assoluto > ro (gli spazi bianchi indicano probabilità minori dello 0.05%). ro N 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 3 100 94 87 81 74 67 59 51 41 29 4 90 80 70 60 50 40 30 20 10 5 75 62 39 28 19 3.7 6 85 56 43 31 21 12 5.6 1.4 7 83 37 25 15 8.0 3.1 8 63 47 33 5.3 1.7 9 61 17 8.8 3.6 1.0 78 58 14 6.7 2.4 11 77 22 5.1 1.6 76 53 34 9.8 3.9 1.1 13 32 18 8.2 3.0 73 49 16 6.9 2.3 72 5.8 1.8 71 46 26 4.9 44 24 4.1 69 23 3.5 68 9.0 2.9 8.1 2.5 4.8 35 57 54 6.0

Coefficiente di correlazione lineare Più piccola è la probabilità che ricaviamo dalla tabella mostrata in precedenza, migliore è l’evidenza che le due variabili x ed y sono realmente correlate. Se la probabilità è minore del 5% diciamo che la correlazione è significativa; se è minore dell’1% che la correlazione è altamente significativa.