Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione
Analisi di relazioni tra variabili Correlazione: analizza se esiste una relazione tra due variabili (come e quanto due variabili variano insieme) Regressione: analizza la forma della relazione tra variabili
Correlazione di variabili
2 coefficienti di correlazione: PearsonPearson product-moment (parametrico) SpearmanSpearman rank correlation (non parametrico) Entrambi vanno da -1 (correl. negativa) a +1 (correl. positiva). 0 corrisponde ad assenza di correlazione Analizzare la correlazione
CORRELAZIONE PARAMETRICA Assunzioni: entrambe le variabili devono essere continue i dati devono essere secondo una scala a intervalli o razionale entrambe le variabili devono seguire una distribuzione normale la relazione tra le variabili è lineare Coefficiente di correlazione di Pearson: r
Tipo di dati Scala nominaleScala nominale: categorie non ordinabili (es. ambiente:macchia/pineta/faggeta; forma foglia:ellittica/lanceolata...) Scala ordinaleScala ordinale: categorie ordinabili (es. alto/medio/basso; raro/comune/abbondante) Scala per intervalliScala per intervalli: distanza quantificabile tra categorie, è possibile sottrarre (es. date, temperature) Scala razionaleScala razionale: possibile tutte le operazioni (+ - * ÷), variabili quantitative (es. lunghezza)
Procedura: Calcolo di r tra le variabili X e Y: Coefficiente di correlazione di Pearson: r
La correlazione è significativa? Ipotesi nulla: = 0 ( è il coefficiente di correlazione della popolazione, r del campione). Calcolare t: Valutare significatività di t per GDL = n-2 Coefficiente di correlazione di Pearson: r
OK: la correlazione è significativa ma…. Le 2 variabili sono distribuite normalmente? La relazione tra le 2 variabili è lineare? (cf. trasformazione dei dati) Anche se cè correlazione non vuol dire che ci sia nesso di causa-effetto Osservare la frazione di variabilità spiegata (r 2, coefficiente di determinazione) Coefficiente di correlazione di Pearson: r
CORRELAZIONE NON PARAMETRICA CORRELAZIONE NON PARAMETRICA : I dati non devono necessariamente avere distribuzione normale Si possono usare dati da scala ordinale Si possono utilizzare anche campioni piccoli (da 7 a 30 coppie di dati) La relazione tra le 2 variabili è monotona Coefficiente di correlazione di Spearman: r s
Procedura: Ordinare i dati dal più piccolo al più grande Calcolare r s non sui dati ma sui ranghi (d=differenza tra ranghi) r s = 1 - 6*(d d d n 2 )/(n(n 2 -1)) Valutare la significatività di r s ricorrendo ad apposite tavole Coefficiente di correlazione di Spearman: r s
Lo scopo dellanalisi di regressione è di determinare la forma della relazione funzionale tra variabili (relazione causa-effetto) Regressione semplice: Regressione semplice: determinare la forma della relazione tra 2 variabili (una indipendente ed una dipendente) Regressione multipla: Regressione multipla: determinare la forma della relazione tra più variabili (più indipendenti ed una dipendente) Analisi di regressione
Perché è importante Perché è importante: Permette di costruire un modello funzionale della risposta di una variabile (effetto) rispetto ad unaltra (causa) Conoscendo la forma della relazione funzionale tra variabile indipendente e dipendente è possibile stimare il valore della variabile dipendente conoscendo quello della variabile indipendente (interpolazione) nellintervallo dei valori di X usato per la regressione Analisi di regressione
Nella regressione lineare la relazione tra variabili (causa-effetto) è rappresentata da una linea retta Regressione lineare (semplice) N.B.: se siamo indecisi su quale delle nostre variabili è dipendente e quale indipendente, allora lanalisi di regressione non è adatta!
La relazione tra variabili è espressa dallequazione: Y = a+bX dove X è la variabile indipendente, Y la variabile dipendente, a è lintercetta (il valore di y quando x =0) e b è la pendenza (di quanto varia la Y per ogni variazione di una unità di X ). N.B.: La retta passa sempre per il punto di incontro delle medie delle due variabili Regressione lineare
PARAMETRICO PARAMETRICO :Assunzioni: Dati da scala per intervalli o scala razionale La variabile indipendente ( X ) è misurata senza errore (è fissata dallo sperimentatore) La variabile dipendente ( Y ) è campionata indipendentemente a ogni valore di X Ad ogni valore di X i dati Y seguono la distribuzione normale e hanno la stessa varianza Regressione lineare
Procedura: Procedura: metodo dei minimi quadrati (least squares) Regressione lineare
Minimi Quadrati
Procedura Procedura: 1. Stima della pendenza Regressione lineare 2. Stima dellintercetta
Regressione lineare Variazione (devianza) spiegata / non spiegata dalla regressione nei dati Y La variazione totale nei dati Y in parte è spiegata dalla regressione non ed in parte non è spiegata dalla regressione (variazione residua)
Regressione lineare Come quantificare la bontà della regressione? Il coefficiente di determinazione (va da 0 a 1)
Regressione lineare La regressione è significativa? Lequazione è stata ricavata da un campione e non dalla popolazione 1. Test t sullerrore standard della pendenza b : Ipotesi nulla = la pendenza è uguale a 0 2. Analisi della varianza: si esamina il rapporto tra varianza spiegata dalla regressione e varianza residua.
Regressione lineare test F 2. Analisi della varianza: test F del rapporto tra varianza spiegata dalla regressione e varianza residua.