Come organizzare i dati per un'analisi statistica al computer?

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Variabili casuali a più dimensioni
La regressione lineare trivariata
Regressione lineare Esercitazione 24/01/04.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Sesso = fattore between (indicato dal fattore A)
Disegno con 2 variabili indipendenti:
ANALISI DELLA COVARIANZA
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
STATISTICA 6.0: REGRESSIONE LINEARE
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Analisi della varianza (a una via)
La logica della regressione
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
Verifica delle ipotesi su due campioni di osservazioni
STATISTICA PER LE DECISIONI DI MARKETING
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
La ricerca delle relazioni tra fenomeni
Introduzione alla Regressione Lineare e alla Correlazione.
Regressione e correlazione
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Introduzione alla regressione multipla
La regressione II Cristina Zogmaister.
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Il residuo nella predizione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Analisi Multivariata dei Dati
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Regressione lineare - Esercizi
Regressione lineare - Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°9.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Transcript della presentazione:

Come organizzare i dati per un'analisi statistica al computer? I dati devono essere riportati su una matrice casi (righe) × variabili (colonne). Esempio: I casi sono i soggetti Var. dipendenti

Analisi di regressione multipla Uno psicologo vuole sapere se i risultati ottenuto al test Y, che misura il livello di ansia della persona può essere previsto anche dai risultati di un altro test il test A. tabella dei punteggi ottenuti al test Y e al test A: Lo psicologo calcola l'equazione del modello di regressione e poi effettua il test statistico per verificare se il modello è valido somme: medie:

varianza di Y: correlazione tra Y e A: varianza di A: Calcoliamo la covarianza tra i punteggi di Y e A e le varianze dei punteggi di Y e A covarianza: somme: medie: n = 10 soggetti varianza di Y: correlazione tra Y e A: varianza di A:

test della significatività della correlazione: Ipotesi statistiche: H0 : r = 0 H1 : r ≠ 0 tcrit (a = 0.05)per 8 gdl : tcrit = 2,306 il t calcolato è inferiore al t critico, per cui la correlazione non è significativa

Calcolo dell'equazione del modello di regressione: pendenza della retta: intercetta della retta: equazione del modello di regressione: varianza spiegata: il modello spiega solo il 19.9% di varianza della Y

test della significatività del modello Si calcolano prima le medie dei quadrati del modello di regressione e dell'errore: MQregr k: numero di variabili indipendenti MQerr

L'F critico (a = 0.05) per 1 e 8 gdl è: Fcrit = 5.318. Calcolo di F: Ipotesi statistiche: H0 : il modello non da valide previsioni H1 : il modello da valide previsioni L'F critico (a = 0.05) per 1 e 8 gdl è: Fcrit = 5.318. L'F calcolato è inferiore all'F critico, per cui il modello non è significativo, ossia non fornisce valide previsioni della variabile Y. A questo punto lo psicologo si chiede: e se aggiungessimo un altro test, il test B per vedere se riusciamo, in base ai punteggi del test A e B a prevedere i punteggi al test Y? In questo caso si deve eseguire un'analisi di regressione multipla.

Analisi di regressione multipla La regressione multipla si applica quando una data variabile indipendente Y è prevista da più di una variabile indipendente X. Nel caso che Y sia prevista da due variabili indipendente X1 e X2, l'equazione di regressione sarà: variabile dipendente (p. osservato) errore casuale (errore di misura) prima variabile indipendente intercetta coefficienti angolari (pendenze) seconda variabile indipendente Nell'analisi di regressione multipla occorre calcolare più di un coefficiente angolare per determinare l'equazione del modello di regressione.

Determinazione dell'equazione del modello di regressione con 2 var Determinazione dell'equazione del modello di regressione con 2 var. indipendenti nella tabella seguente vengono riportati i punteggi al test Y, al test A e al test B: n = 10 soggetti k = 2 var. indip. somme: medie: varianza di y: varianza di a: varianza di b: covarianza tra Y e A: covarianza tra Y e B: covarianza tra A e B:

correl. tra Y e A: correl. tra Y e B: correl. tra A e B: Calcolo dei coefficienti angolari della retta di regressione multipla: NOTA BENE: b' indica il coefficiente beta standardizzato, ossia è il coefficiente dell'equazione del modello per punteggi standardizzati.

Calcolo dei parametri ba e bb: Calcolo dell'intercetta b0: Equazione del modello di regressione multipla:

Metodo alternativo Prima di calcolare i coefficienti, occorre costruire la tabella della somme dei quadrati e delle covarianze: bisogna calcolare tre covarianze e tre somme dei quadrati

Calcolo dei coefficienti angolari b1 e b2:

Il modello riesce a prevedere i punteggi al test Y Il modello riesce a prevedere i punteggi al test Y? Occorre fare un'analisi statistica. Occorre calcolare: 1. Occorre calcolare R2, ossia il valore che indica la varianza spiegata dal modello. 2. Infine, si calcola F a partire da R2.

Calcolo di R2 oppure Il modello di regressione spiega l'86.3% della varianza dei punteggi al test Y. Calcolo di F L'F critico (a = 0.05) per 2 e 7 gdl è: Fcrit = 4.737. L'F calcolato è superiore all'Fcrit. per cui il modello di regressione è in grado di prevedere la variazione dei punteggi della var. dipendente Y Ipotesi statistica: H0 : Il modello non da valide previsioni di Y H1 : Il modello da valide previsioni di Y

Verifica della bontà dei singoli predittori Oltre alla bontà complessiva del modello, è possibile verificare la bontà dei singoli predittori, ossia quanto le singoli variabili indipendenti contribuiscono alla validità complessiva del modello. La bontà dei singoli predittori viene determinata tramite il calcolo dei t di Student. 2 ipotesi statistiche: prima ipotesi H0 : ba = 0 seconda ipotesi: H0 : bb = 0 H1 : ba ≠ 0 H1 : bb ≠ 0 errore di stima

Quale dei due t è significativo? Il t critico (a = 0.05) per 7 gdl è: tcrit = 2.365. Tra i t calcolati solo il t della variabile B risulta superiore al t critico e quindi significativo, nel senso che la pendenza della retta è significativa. Per cui i punteggi al test B risultano essere validi predittori dei punteggi al test Y. Concludendo l'analisi: la combinazione dei test A e B consente la previsione dei punteggi al test Y, ma tra i due test, è il test B a costituire un valido predittore al test Y.